“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語賦予了神奇的光環(huán)。普通人通常不會采用機(jī)器學(xué)習(xí),而數(shù)據(jù)科學(xué)家才是高度專業(yè)化的煉金術(shù)士,他們在研究部門和實(shí)驗(yàn)室中將數(shù)據(jù)轉(zhuǎn)化為“黃金”,而只是簡單地說機(jī)器學(xué)習(xí)是一門科學(xué),在此之外幾乎沒有提供解釋。
當(dāng)然,這可能是一個(gè)鮮為人知的事實(shí),但多年來機(jī)器學(xué)習(xí)工具已經(jīng)發(fā)展到這樣一個(gè)地步:幾乎任何人都可以按下按鈕,并啟動一些機(jī)器來學(xué)習(xí)有價(jià)值的東西。這并不是一件容易的事,但將數(shù)據(jù)整合并將其轉(zhuǎn)化為可操作見解的工作已經(jīng)實(shí)現(xiàn)自動化,很多具有這種動機(jī)的組織可以做到這一點(diǎn)。
這種緩慢的復(fù)興是由商業(yè)世界中許多非程序員已經(jīng)相當(dāng)精通數(shù)據(jù)的現(xiàn)實(shí)所推動的。加載數(shù)字的電子表格是各級業(yè)務(wù)決策者的通用語言,機(jī)器學(xué)習(xí)算法也像表格中數(shù)據(jù)清晰定義的行和列一樣。機(jī)器學(xué)習(xí)的新工具基本上只是另一組策略和選項(xiàng),用于將表格數(shù)據(jù)轉(zhuǎn)換為有用的答案。這些工具的優(yōu)勢在于能夠處理收集數(shù)據(jù)、添加結(jié)構(gòu),并保持一致性,然后開始繁重的計(jì)算工作。它們簡化了數(shù)據(jù)收集過程,簡化了將信息保存在行和列中的工作。
這些工具還不夠智能,無法為用戶完成所有這些學(xué)習(xí)。用戶必須提出正確的問題并找到合適的地方。但是這些工具加速了對答案的搜索,因此可以覆蓋更多的范圍,并在進(jìn)行更多的搜索。
AutoML:機(jī)器學(xué)習(xí)的民主化
最近,新的流行術(shù)語“AutoML”開始出現(xiàn),表示機(jī)器學(xué)習(xí)算法附帶了一個(gè)額外的自動化元層。標(biāo)準(zhǔn)算法一直被設(shè)計(jì)用于自行查找模式和規(guī)則,但傳統(tǒng)算法帶有許多選項(xiàng)和參數(shù)。數(shù)據(jù)科學(xué)家經(jīng)常花費(fèi)80%到99%的時(shí)間致力于找到最具預(yù)測性的規(guī)則。
AutoML通過嘗試一系列選項(xiàng),測試它們?nèi)缓髧L試更多來自動化這個(gè)階段。它不是采用機(jī)器學(xué)習(xí)算法運(yùn)行一次,而是運(yùn)行N次,進(jìn)行一些調(diào)整,再次運(yùn)行N次,如此反復(fù),直到用戶的預(yù)算、時(shí)間、耐心耗盡。
AutoML工具非常適合云計(jì)算,因?yàn)樗鼈冊谠浦锌梢詥幼銐虻臋C(jī)器并行運(yùn)行,然后在完成后將它們返回池中。用戶只需在峰值計(jì)算時(shí)間支付費(fèi)用。
一般來說,AutoML算法是人們開始自己探索機(jī)器學(xué)習(xí)的一個(gè)良好選擇。自動化通過處理一些設(shè)置參數(shù)和選項(xiàng)的基本工作來簡化工作,然后再為用戶測試結(jié)果。隨著用戶變得更加復(fù)雜,并開始理解結(jié)果,他們可以承擔(dān)更多這些工作,并自行設(shè)置價(jià)值。
最新的系統(tǒng)還可以讓用戶更輕松地了解機(jī)器的學(xué)習(xí)方式。如果經(jīng)典編程將規(guī)則和數(shù)據(jù)轉(zhuǎn)化為答案,那么機(jī)器學(xué)習(xí)算法將會反向工作,并將答案和數(shù)據(jù)轉(zhuǎn)換為規(guī)則。這些規(guī)則可能會告訴用戶業(yè)務(wù)發(fā)生的事情。這些簡化工具的開發(fā)人員還創(chuàng)建了解釋算法發(fā)現(xiàn)的規(guī)則的接口,更重要的是如何復(fù)制結(jié)果。他們想打開黑盒以促進(jìn)理解。
使機(jī)器學(xué)習(xí)更容易的6種工具
所有這些功能都為那些使用數(shù)字、電子表格和數(shù)據(jù)的人們開啟了機(jī)器學(xué)習(xí)的世界,消除了對編程和數(shù)據(jù)科學(xué)的巨大需求。下面的六個(gè)選項(xiàng)簡化了用戶使用機(jī)器學(xué)習(xí)算法在數(shù)字海洋中找到答案。
1.Splunk
Splunk的原始版本最初是作為一種工具,通過現(xiàn)代Web應(yīng)用程序創(chuàng)建的大量日志文件進(jìn)行搜索或“窺探”。它已經(jīng)發(fā)展成為可以分析所有形式的數(shù)據(jù),特別是時(shí)間序列和其他按順序生成的數(shù)據(jù)。該工具將結(jié)果顯示在具有復(fù)雜可視化例程的儀表板中。
最新版本包括將數(shù)據(jù)源與TensorFlow等機(jī)器學(xué)習(xí)工具和一些最佳Python開源工具集成的應(yīng)用程序。它們提供快速解決方案,用于檢測異常值、標(biāo)記異常,并生成對未來值的預(yù)測。它們經(jīng)過優(yōu)化,可以在非常大的數(shù)據(jù)集中搜索文件。
2.DataRobot
DataRobot內(nèi)部的堆棧是一些用R、Python或其他幾個(gè)平臺編寫的開源機(jī)器庫的集合。用戶將只處理一個(gè)Web界面,該界面顯示用于設(shè)置管道的類似流程圖的工具。DataRobot連接到主要數(shù)據(jù)源,其中包括本地?cái)?shù)據(jù)庫、云數(shù)據(jù)存儲和下載的文件或電子表格。用戶構(gòu)建的管道可以清理數(shù)據(jù),填充缺失值,然后生成標(biāo)記異常值,并預(yù)測未來值的模型。
DataRobot還可以嘗試提供關(guān)于為什么進(jìn)行某些預(yù)測的“人性化解釋”, 這對于理解人工智能的應(yīng)用非常有用。
它可以部署在云端和內(nèi)部部署解決方案的混合體中。云計(jì)算可以通過共享資源提供最大的并行性和吞吐量,而本地安裝可以提供更多的隱私和控制能力。
3.H2O
H2O喜歡用“無驅(qū)動的人工智能”來描述其探索各種機(jī)器學(xué)習(xí)解決方案的自動化堆棧。它將數(shù)據(jù)源(數(shù)據(jù)庫、Hadoop、Spark等)聯(lián)系在一起,并將它們輸入到具有廣泛參數(shù)的各種算法中。用戶可以控制用于該問題的時(shí)間和計(jì)算資源,并測試各種參數(shù)組合,直到完成預(yù)算。其結(jié)果可以通過儀表板或Jupyter筆記本進(jìn)行瀏覽和審核。
H2O的核心機(jī)器學(xué)習(xí)算法以及與Spark等工具的集成是開源的,但所謂的“無驅(qū)動” 選項(xiàng)是銷售給企業(yè)客戶的專有包之一。
4.RapidMiner
RapidMiner生態(tài)系統(tǒng)的核心是一個(gè)用于從可視圖標(biāo)創(chuàng)建數(shù)據(jù)分析的工作室。它將清理用戶的數(shù)據(jù),然后通過各種統(tǒng)計(jì)算法運(yùn)行它。如果用戶想使用機(jī)器學(xué)習(xí)而不是更傳統(tǒng)的數(shù)據(jù)科學(xué),自動模型將從多種分類算法中進(jìn)行選擇,并搜索各種參數(shù),直到找到最佳匹配。該工具的目標(biāo)是生成數(shù)百個(gè)模型,然后確定最佳模型。
創(chuàng)建模型后,該工具可以部署它們,同時(shí)測試它們的成功率,并解釋模型如何做出決策。可以使用可視化工作流編輯器測試和調(diào)整對不同數(shù)據(jù)字段的敏感度。
最近的改進(jìn)包括更好的文本分析、用于構(gòu)建可視化儀表板的各種圖表以及用于分析時(shí)間序列數(shù)據(jù)的更復(fù)雜算法。
5.BigML
BigML儀表板提供了數(shù)據(jù)科學(xué)的基本工具,用于識別可以構(gòu)成機(jī)器學(xué)習(xí)更復(fù)雜工作基礎(chǔ)的相關(guān)性。例如,他們的深度網(wǎng)絡(luò)提供了用于測試和優(yōu)化更精細(xì)的神經(jīng)網(wǎng)絡(luò)的復(fù)雜機(jī)制??梢詫⒛P偷馁|(zhì)量與其他算法進(jìn)行比較,并使用標(biāo)準(zhǔn)化的比較框架,幫助用戶在經(jīng)典數(shù)據(jù)科學(xué)和更復(fù)雜的機(jī)器學(xué)習(xí)之間進(jìn)行選擇。
BigML的儀表板在瀏覽器中運(yùn)行,其分析可以在BigML云平臺中運(yùn)行,也可以在服務(wù)器機(jī)房中運(yùn)行。其云計(jì)算版本的價(jià)格較低,以鼓勵早期應(yīng)用,甚至還有一個(gè)免費(fèi)套餐。其成本主要取決于數(shù)據(jù)集大小的限制以及可以調(diào)用的計(jì)算資源量。免費(fèi)套餐將使用不超過兩個(gè)并行運(yùn)行的進(jìn)程分析最多16MB的數(shù)據(jù)。規(guī)模較小的付費(fèi)賬戶的定價(jià)非常合理,每月賬單只需30美元,但隨著資源需求的增加,其價(jià)格會上升。
6.R Studio
對于非程序員來說,R并不是一種容易使用的語言,但它仍然是進(jìn)行復(fù)雜統(tǒng)計(jì)分析的最基本工具之一,因?yàn)樗钍芎诵臄?shù)據(jù)科學(xué)家的歡迎。R Studio是一個(gè)工具,為用戶提供一組菜單和點(diǎn)擊選項(xiàng),使其更容易與深入內(nèi)部運(yùn)行的R層進(jìn)行交互。
能夠處理電子表格的高級管理人員可以使用最簡單的選項(xiàng)來運(yùn)行基本分析,甚至是一些復(fù)雜的分析。但有些部分會讓一些用戶感到困惑,但它正處于開放的邊緣,每個(gè)對其感興趣的人員都可以訪問。雖然仍然會有一些困惑,但對于想要探索前沿工具的人來說,這是值得的。