數(shù)據科學可能從來都不是那么容易的,但它正變得越來越容易深入。像“機器學習”、“回歸”和“降維”這樣的術語雖然依然和以往一樣難以理解,但是人們正普遍希望能夠從這些技術中獲得好處,這導致產生了一些很好的工具,它們可以方便的為數(shù)據創(chuàng)建生產線,為我們想要尋找的答案提供支持。
這個秘密就類似于制造業(yè)的革命。正如標準化的部件幫助啟動了工業(yè)革命一樣,各種工具供應商的數(shù)據科學家已經開發(fā)了一系列非常強大、擁有廣泛適應性的分析例程。他們標準化了接口,使得使用這些可互換的數(shù)據科學工具來構建自定義管道變得更加簡單了。
數(shù)據科學家過去常常需要絞盡腦汁,因為80%的工作都是通過用Python,Java或他們喜歡的語言來制作自定義例程并準備分析數(shù)據的,所以R或SASS中那些復雜的統(tǒng)計工具都可以完成它們的工作。而現(xiàn)在市場上充斥著各種復雜的工具,它們將數(shù)百個經過良好設計的例程捆綁到了一個包中,以便為你完成大量重復且令人不快的數(shù)據清理和標準化工作。
這些新工具也為熟悉電子表格的人提供了機會。它們不會讓所有的準備工作都消失,但它們會讓事情變得更加容易。無需對數(shù)據格式大驚小怪,因為這些工具足夠聰明,可以做正確的事情。通常你只要打開文件就可以開始學習了。
這些工具還為云計算節(jié)省了大量成本。過去,數(shù)據科學家往往需要更強大的計算機來處理大數(shù)據集。而現(xiàn)在我們可以在云中租用更大、更快的機器,在提高處理速度的同時在每月報表完成時將硬件返回到池中,從而節(jié)省成本。
對于只需要訓練算法來預測明年趨勢的核心數(shù)據科學家和數(shù)據分析師來說,這些工具都是一個福音。所有用戶都可以享受使用復雜工具來正確處理數(shù)據的樂趣。不過,標準化也為全新的研究團隊深入研究數(shù)據科學提供了可能?,F(xiàn)在,你不需要掌握R語言或Python編程就可以開始了。
當然,我們仍然需要深入思考統(tǒng)計學和機器學習。這些工具雖然還不能回答關于什么情況下使用神經網絡或聚類算法能夠獲得更好結果的策略性問題,但是它們可以使獲取所有數(shù)據變得簡單,并快速嘗試這兩種方法。當每個人能夠更容易的參與工業(yè)革命時,正如標準化消除了長期學徒和熟練工匠的需求一樣,這些數(shù)據工具也釋放出了越來越多的企業(yè)人員轉向復雜的數(shù)據分析以尋求進一步指導的潛力。
以下是有助于使數(shù)據科學實現(xiàn)民主化的六種工具。
Alteryx
Alteryx平臺的核心是它的設計工具,一個可視化編程IDE,允許用戶拖放圖標,而不是輸入文本程序。Alteryx平臺的目標用戶既包括數(shù)據科學家,也包括了普通的“公民用戶”,很好的迎合了那些不想在清理數(shù)據和修改數(shù)據以進行分析的細節(jié)方面遇到麻煩的人。該平臺試圖通過使用其可視化的編程模型來簡化準備工作以“顛覆數(shù)據準備中的80/20法則”。你只要將圖標拖放到數(shù)據管道中的正確位置,它就可以應用許多標準化的任務,比如按客戶編號來實現(xiàn)分組或連接兩個文件。
Alteryx還提供了許多用于分析數(shù)據和繪圖推斷的預定義預測模型。這些看起來像是用于數(shù)據處理的圖標,實際上都是相應的R或Python程序,Alteryx為你省去了處理它們的復雜性和基于文本編碼的麻煩。在設計工具中,數(shù)據會自己沿著圖標之間的直線流動,你不需要擔心逗號、方括號或其他的編碼問題。
現(xiàn)在,Alteryx平臺正朝著一個更多的以服務器驅動的模式發(fā)展,在這個模型中,你構建的代碼將駐留在一個可以擴展到更大數(shù)據集的服務器上。如果你的數(shù)據需要增強,Alteryx也已經從Dun & Bradstreet或DigitalGlob等公司獲得了商業(yè)數(shù)據集授權,可以幫你自動填寫表格。
當你在個人PC上完成模型的設計時,Alteryx也提供了將模型發(fā)布到中央服務器的基礎設施,然后將圖形化摘要分發(fā)給業(yè)務中的每一個人。Promote工具會負責將日常生產數(shù)據分發(fā)給企業(yè)中合適的人員,以便他們能夠使用預測建模的結果。
這款設計工具的標價是每位用戶每年5195美元,但是如果想要使用附加的功能,比如包含人口統(tǒng)計數(shù)據或空間數(shù)據的數(shù)據集,則可能會增加33,800美元。中央服務器的起價為58,500美元,此外,Promote還提供了用于協(xié)作和連接的額外功能。
Domino
Domino也是圍繞實驗室開始的一個可視化集成開發(fā)環(huán)境(IDE),能夠通過將圖標和管道連接在一起來構建模型。不同之處在于Domino也對其他工具開放。所有主要的和不太重要的基于Web的IDE都受到了支持,因為系統(tǒng)設計為所有這些IDE都進行了開放。大多數(shù)人可能會使用Jupyter或R-Studio,但其他工具,如Apache Zeppelin或SAS的工具也都得到了很好的支持。
Domino大部分的功能都致力于將數(shù)據轉換為模型所需的所有基礎設施。Domino的后端會仔細跟蹤各種版本的數(shù)據以及在此過程中的所有修訂和實驗。所有這些變更都會被無情地保存并鏈接到結果當中,以確保你可以隨時重新運行和復制結果。它非常強調存儲查詢的準確再現(xiàn),以便其他人可以在稍后發(fā)現(xiàn)并重用該工作。
與單一平臺相比,Domino更像是一個基于Web的云網絡操作系統(tǒng)。該平臺的開放性依賴于一種相對標準的機制,用于將數(shù)據存儲在文件中并保持修訂的一致性。幸運的是,磁盤存儲比以往任何時候都要更加便宜。
Domino的主要賣點之一是它的云集成。你的實驗將運行在與他人共享的強大機器池中。如果你碰巧希望將自己的代碼部署到堆棧中,那么底層體系結構將完全圍繞Docker來進行封裝和構建。你可以為你的作業(yè)配置最佳大小,并從池中借用硬件,這對于數(shù)據科學工作來說是一個很好的解決方案,這些工作通常是斷斷續(xù)續(xù)的,并且在代碼準備好時以塊的形式進行分派。這是一個很好的解決方案,特別適用于那些在每周、每月或每季度數(shù)據準備就緒時才會進行批量處理大部分計算的情況。
Domino的定價是“根據Domino所運行的位置(我們的托管基礎設施、你的私有云或內部環(huán)境)而定的年度訂閱”。云選項將根據所消耗的資源對你進行收費。
RapidMiner
RapidMiner是一個將數(shù)據轉換為可操作模型的自動化程度更高的工具。它的IDE允許用戶將數(shù)據轉換構建為由線來連接的圖標集合的可視化描述。最有用的部分可能是其AutoModel功能,它可以根據你的數(shù)據和目標為你組裝許多這樣的圖標。完成之后,你就可以打開模型并調整各個部分了。
有大量的擴展可以用來幫助你處理許多更奇特的挑戰(zhàn),比如理解從網站上下載下來的非結構化文本。還有許多用于處理時間序列數(shù)據的工具,例如用于重建丟失的數(shù)據元素以及形成(和測試)對未來的預測的工具。
如果你的數(shù)據集較大,RapidMiner也可以滿足你的需求。那些擁有并行解決方案的人可以使用RapidMiner的擁有Hadoop和Hive集成的版本“Radoop”。還有一個基于服務器的解決方案,可以從AWS,Azure或您自己的本地服務器配置云計算機?;诜掌鞯纳鷳B(tài)系統(tǒng)促進了與集中的數(shù)據和分析存儲庫的協(xié)作,這些數(shù)據和分析可以安排在生產中交付報告和見解。
每種產品的定價模型都是獨立的。桌面版有一個免費的社區(qū)版,但它缺少兩個最吸引人的特性:用于清理數(shù)據的TurboPrep和用于生成結果的AutoModel。一個初級版本的價格為每位用戶每年2,500美元起,該版本的數(shù)據行數(shù)限制為100,000行。更大的數(shù)據集和部署更多處理器的能力則需要更高的成本。在辦公場所安裝自己版本的服務器工具起價為15,000美元,但你也可以在RapidMiner的云版本上購買使用時間,起價為每小時6.75美元。
Knime
Knime是一個開源的數(shù)據分析平臺,具有一個可視化的IDE,可以將各種數(shù)據處理和分析例程鏈接在一起。其核心軟件是免費發(fā)布的,但是一些插件和擴展也有相應的商業(yè)版本,并且費用主要用于支持開發(fā)。你還可以使用在云中或你自己的計算機上運行的服務器版本。
該軟件的基礎是用Java編寫的,所以Knime的許多集成都依賴于Java生態(tài)系統(tǒng)。用戶也許會注意到Knime IDE是構建在Eclipse之上的,這使得Java開發(fā)人員可能會更加熟悉它。該平臺可以處理所有主要的數(shù)據庫(MySQL,PostgreSQL)和云服務(Amazon Athena,Redshift)中的數(shù)據以及任何其他具有JDBC兼容連接器的數(shù)據。Knime提供了一個與“數(shù)據庫內處理”特別緊密的集成,這可以加速你的工作。它還集成了下一代的分布式數(shù)據工具,如Apache Spark。
它擁有一個強大的開源社區(qū)以支持大量的擴展和工作流程,可以自由使用,修改和定制,其大多數(shù)代碼托管在GitHub或Bitbucket上。此外,它還有大量的商業(yè)擴展,并提供集成支持。
那些嚴重依賴Google Web應用程序的公司也可能會喜歡更深層次的集成。Knime可以讀取和寫入Google表格中的數(shù)據,這也是一種將數(shù)據分析引入經常使用Google電子表格的辦公室的潛在有效方式。
其企業(yè)服務器產品有三種規(guī)格,包括了不同的額外功能。初級版本支持5個用戶和8個核心,每年8500美元起,主要針對分析團隊。而高級版本則允許你將結果分發(fā)給組織內的其他人。
Talend
Talend提供了一系列可以在桌面、本地數(shù)據中心或云中運行的應用程序。該公司的多層工具可以在轉換數(shù)據并進行分析之前使用,它會從各個倉庫和數(shù)據庫中收集數(shù)據。例如,管道設計器提供了一個可視化設計工具,用于從各種數(shù)據源提取數(shù)據,然后可以使用標準工具或Python擴展對其進行分析。
其開源版本可以在幾個包中免費獲得,比如open Studio for Data Quality和Stitch數(shù)據加載器。云計算版本的起售價為每位用戶每月1,170美元,年度用戶和規(guī)模更大的團隊也可享受折扣。價格是按人數(shù)計算的,而不是基于消耗的計算資源。而Data Fabric的定價則是通過報價來完成的。
Looker
Looker瞄準的是那些常因太多數(shù)據源和太多數(shù)據版本而引起混亂的用戶。它的產品創(chuàng)建了一個可靠精確的、受版本控制的數(shù)據來源,可以由下游的任何用戶操縱和繪制圖表。從業(yè)務用戶到后端開發(fā)人員,每個人都可以創(chuàng)建自己的儀表板,其中可以包含根據個人喜好配置的數(shù)據和圖表。
該平臺是圍繞著開源世界的許多標準而構建的。數(shù)據和代碼可以在Git的控制下發(fā)展。儀表板可視化則來自D3。你可以使用LookML來從SQL數(shù)據庫中收集數(shù)據,LookML是一種類似于常規(guī)命令式編程語言的自定義查詢語言。
谷歌最近宣布將收購Looker并將其集成到谷歌云中。這次收購將如何影響該平臺還有待觀察。其價格可按要求進行提供。
其他能夠使數(shù)據更容易訪問的工具
上述工具并不是改變我們處理數(shù)據方式的唯一選擇。一些其他的工具和平臺也在集成類似的想法。主要的云計算公司也都提供了分析存儲系統(tǒng)中數(shù)據的工具。例如,Azure的Databricks提供了用于配置Apache Spark的靈活用戶界面,而Data Factory則提供了一個用于提取,轉換和加載所有數(shù)據的可視化工具。
一些工具會更側重于機器學習和其他形式的人工智能。亞馬遜的SageMaker簡化了構建、培訓和部署機器學習流程的工作,在一個開放的市場上提供了100多種算法和模型。H20.ai則提供了他們所謂的“無人駕駛AI”,這是一個使用Apache Spark構建的開源平臺,可以用來簡化模型創(chuàng)建和分析。
以上這些都集中在了一組工具集上,這些工具可以提升我們探索數(shù)據的能力,讓我們更清楚地理解所有數(shù)字的含義。