作為一位萬(wàn)人敬仰的數(shù)據(jù)科學(xué)家,不但需要培育一棵參天技能樹(shù),私人武器庫(kù)里沒(méi)有一票玩得轉(zhuǎn)的大火力工具也是沒(méi)法在江湖中呼風(fēng)喚雨的。
近日北卡來(lái)羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來(lái)收集沉淀的數(shù)據(jù)分析工具集:
處理較大、較復(fù)雜的類(lèi)excel數(shù)據(jù)
Pandas -處理tabular(類(lèi)似Excel)數(shù)據(jù)的通用工具套件 SQLite – Tabular數(shù)據(jù)庫(kù)格式,能夠處理大規(guī)模數(shù)據(jù)集,同時(shí)也能在桌面環(huán)境運(yùn)行。 PostgreSQL – 企業(yè)級(jí)數(shù)據(jù)庫(kù)系統(tǒng)處理空間、地理數(shù)據(jù):
PostGIS – Postgres的地理空間數(shù)據(jù)類(lèi)型擴(kuò)展Carto – 地理空間數(shù)據(jù)的商業(yè)數(shù)據(jù)挖掘工具M(jìn)apbox – 商業(yè)地圖繪制工具,同時(shí)也是一個(gè)web地圖系統(tǒng)。Leaflet – 基于網(wǎng)絡(luò)資源和本地?cái)?shù)據(jù)開(kāi)發(fā)活動(dòng)web地圖的代碼庫(kù)qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具處理非常規(guī)數(shù)據(jù):
RethinkDB – 處理實(shí)時(shí)數(shù)據(jù)流非常棒的數(shù)據(jù)庫(kù),正在從商業(yè)轉(zhuǎn)開(kāi)源,小心使用。MongoDB – 處理大規(guī)模非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的流行數(shù)據(jù)庫(kù),應(yīng)用于生產(chǎn)環(huán)境需要加小心。CouchDB – 與MongoDB有些類(lèi)似但不盡相同。Cassandra – 圖譜和關(guān)系數(shù)據(jù)庫(kù)為大規(guī)模數(shù)據(jù)集創(chuàng)建性能代碼:
Pandas – Python下一個(gè)開(kāi)源數(shù)據(jù)分析的庫(kù),它提供的數(shù)據(jù)結(jié)構(gòu)DataFrame極大的簡(jiǎn)化了數(shù)據(jù)分析過(guò)程中一些繁瑣操作。Apache Spark – 一個(gè)通用的高性能數(shù)據(jù)處理系統(tǒng) SciPy and Numpy -可編寫(xiě)腳本的基于C的數(shù)值算法,能在緊湊的,底層機(jī)器數(shù)據(jù)架構(gòu)上運(yùn)行。Cython – 使用用C編譯器的Python編譯器,用來(lái)提升Python性能。PyOpenCL – 在圖形顯卡上進(jìn)行數(shù)值計(jì)算和統(tǒng)計(jì)處理。數(shù)據(jù)清洗工具
ODO – 在不同數(shù)據(jù)格式間進(jìn)行轉(zhuǎn)換的Python庫(kù)。OpenRefine – 擁有圖形用戶(hù)界面的數(shù)據(jù)發(fā)現(xiàn)和清洗工具Pandas – 數(shù)據(jù)科學(xué)任務(wù)中用來(lái)處理tabular數(shù)據(jù)的通用Python工具集Scrapy – Python開(kāi)發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)。BeautifulSoup – 與Scrapy類(lèi)似但不盡相同Scrubadub – 去除個(gè)人身份信息Arrow – 幫你輕松駕馭日期和時(shí)間戳的Python庫(kù)DataCleaner – 剔除臟數(shù)據(jù)的Python庫(kù)Dora – 與DataCleaner功能類(lèi)似的Python庫(kù)。數(shù)據(jù)可視化工具
Processing – 交互式開(kāi)發(fā)交互式可視化內(nèi)容. 推薦讀本:Visualizing DataD3 – 在web上開(kāi)發(fā)可視化交互C3 – 來(lái)自D3的圖表. Bokeh – 與D3類(lèi)似, 但基于Python. matplotlib – 最早的Python數(shù)據(jù)可視化工具集。Leaflet – 一個(gè)為開(kāi)發(fā)移動(dòng)設(shè)備友好的互動(dòng)地圖的開(kāi)源 JavaScript 庫(kù)。MapBox -詳見(jiàn)地圖工具集。qGIS – 詳見(jiàn)地圖工具集。VTK – 在醫(yī)療、 和物理研究領(lǐng)域常用的重型可視化工具包。數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具
Weka – 一個(gè)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具包,這里有一本免費(fèi)可讀的參考書(shū)SciKitLearn – 基于Python的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具套件。 Orange – 另一個(gè)基于Python的數(shù)據(jù)挖掘工具套件,同樣擁有圖形用戶(hù)界面。TensorFlow – Google開(kāi)源的多維度圖譜數(shù)學(xué)建模工具。分享、協(xié)作以及知識(shí)管理工具
Django -基于Python的web框架Django REST Framework – 為Django網(wǎng)站創(chuàng)建 REST APIsIRODS – 企業(yè)級(jí)數(shù)據(jù)存儲(chǔ)和管理,包括元數(shù)據(jù)管理和基于規(guī)則的數(shù)據(jù)處理。Cassandra (useful for metadata and relationship storage) – 一個(gè)存儲(chǔ)和查詢(xún)?cè)獢?shù)據(jù)經(jīng)常用到的開(kāi)源分布式數(shù)據(jù)管理系統(tǒng)GitLab -GitHub的開(kāi)源替代品,可搭建私人服務(wù)器。ReciPy – Prov – Python implementation of the W3C provenance model Kanren (部署基于元數(shù)據(jù)和數(shù)據(jù)源信息的業(yè)務(wù)邏輯非常有用) – 一個(gè)描述性Python邏輯編程系統(tǒng),非常適合科學(xué)元數(shù)據(jù)的查詢(xún)和基于規(guī)則的處理。