當今企業(yè)擁有越來越多的數(shù)據(jù),但這些數(shù)據(jù)并沒有完全被轉(zhuǎn)化成可操作的信息。在過去的幾年里,我和我的MIT調(diào)查小組一直在尋找一個基本問題的答案:如何讓企業(yè)通過機器學(xué)習(xí),將蘊藏于其數(shù)據(jù)儲存內(nèi)的潛能全部釋放出來。
當我們與不同行業(yè)的合作伙伴一起設(shè)計基于機器學(xué)習(xí)的解決方案時,我們發(fā)現(xiàn)已有的解決方案通常情況下是不適合的,這是為什么呢?
首先,每當我們問到機器學(xué)習(xí)專家們(專長于預(yù)測模型訓(xùn)練和測試的數(shù)據(jù)科學(xué)家們),在工作中最困難的部分,被一次次提及的答案是——“數(shù)據(jù)雜亂無章”。一開始,從字面意思上理解,我們認為這是一個經(jīng)典的數(shù)據(jù)問題——數(shù)據(jù)缺失或者數(shù)據(jù)庫之間缺乏一致性。隨著我們的進一步挖掘,我們意識到該問題和經(jīng)典的數(shù)據(jù)問題略有不同,兩者面臨的數(shù)據(jù)形式有一定的區(qū)別。企業(yè)的原始數(shù)據(jù)(Raw data),甚至是干凈數(shù)據(jù)(Cleandata:在Raw data的基礎(chǔ)上,進一步處理后得到的數(shù)據(jù))量多且復(fù)雜,即使是專家,第一眼也很難理解這些數(shù)據(jù)。因為這樣的數(shù)據(jù)有太多的數(shù)據(jù)表和字段,同時數(shù)據(jù)的粒度又非常高(例如,在線點擊流每一次點擊都會生成新數(shù)據(jù)、傳感器每秒會進行125次的數(shù)據(jù)收集)。而機器學(xué)習(xí)專家們通常習(xí)慣使用聚合過后的,有用的數(shù)據(jù),例如一個用戶訪問過的網(wǎng)站數(shù)目,而不是用戶在某個網(wǎng)站上的行為數(shù)據(jù)表。
與此同時,我們經(jīng)常聽到商業(yè)專家抱怨“我們有大量的數(shù)據(jù),但沒有通過這些數(shù)據(jù)做成任何事”。更深入的調(diào)查顯示這種說法也不完全對。而這種挫敗感主要來源于兩個方面。
一方面是由于時間問題。由于機器學(xué)習(xí)中,理解、規(guī)劃及處理數(shù)據(jù)等一系列過程所需要花費的時間,機器學(xué)習(xí)專家常常更加關(guān)注流程的后面部分——嘗試不同的模型或者在問題制定完成后,調(diào)整模型參數(shù),而不是針對不同的商業(yè)問題制定新的預(yù)測模型。因此,當商業(yè)專家想到某個新的問題時,機器學(xué)習(xí)專家無法做到總是及時跟上他們的步伐。
另一方面,經(jīng)常來說,機器學(xué)習(xí)專家并沒有圍繞著“產(chǎn)生商業(yè)價值”,這一建模的最終目標,來展開工作。在大部分情況下,預(yù)測模型旨在提高效率、增加收益或者減少支出。但實際上,建立模型的工作者卻很少問這樣的問題“這個預(yù)測模型提供的價值是什么?我們又該如何去量化其價值?”。思考這一價值導(dǎo)向的問題常常會改變最初的問題規(guī)劃(problem formulation),通常情況下比建模后期再進行過程調(diào)整更加有用。最近在一個機器學(xué)習(xí)愛好者小組中,我向約150名觀眾進行了調(diào)查,當問到“有多人建立過機器學(xué)習(xí)模型?”大約有三分之一的人舉了手。緊接著,當我問到“有多少人真正應(yīng)用自己建立的模型產(chǎn)生價值,并量化模型產(chǎn)出價值?”時,所有人的手都放下了。
換句話說,機器學(xué)習(xí)專家更傾向于將時間花在構(gòu)建模型上,而不是處理海量數(shù)據(jù)集或者將商業(yè)問題轉(zhuǎn)化為預(yù)測問題。無獨有偶,當前的技術(shù)環(huán)境,無論是商業(yè)還是學(xué)術(shù),關(guān)注點都在實現(xiàn)更加復(fù)雜的模型(LVM潛變量模型)、模型學(xué)習(xí)算法(分布式計算),或者微調(diào)(貝葉斯優(yōu)化)。本質(zhì)上,這些都屬于數(shù)據(jù)科學(xué)項目后期的過程。然而,按照我們的經(jīng)驗,我們認為這些關(guān)注點并不是最恰當?shù)摹?/p>
如果公司想要從數(shù)據(jù)中獲得價值,需要將重點放在加速對數(shù)據(jù)的人為理解,在短時間內(nèi)調(diào)整可構(gòu)建的模型問題數(shù)量以及預(yù)測這些模型所的成效。在與公司的合作中,我們得出結(jié)論,想要通過機器學(xué)習(xí)帶來真正的改變,需要將重點放在以下四個方面:
堅持簡單的模型
簡單的模型,例如邏輯回歸、基于隨機森林或者決策樹的模型。這些模型已經(jīng)足夠解決手頭上的任務(wù)。關(guān)鍵是減少數(shù)據(jù)采集時間,盡早進行第一個簡單預(yù)測模型的開發(fā)。
探索更多的問題
數(shù)據(jù)科學(xué)家需要有能夠快速而簡單的定義和探索多個預(yù)測模型的能力。公司應(yīng)該探索更多的商業(yè)問題,為每一個商業(yè)問題建立一個簡單的預(yù)測模型,并評估其價值,而不是用超級復(fù)雜的機器學(xué)習(xí)模型去探索僅僅一個商業(yè)問題。
從數(shù)據(jù)樣本中而不是全部的數(shù)據(jù)中學(xué)習(xí)
不要過多的關(guān)注如何使用分布式計算讓任何一個處理模型都能進行大數(shù)據(jù)處理,而是在能夠從子樣本數(shù)據(jù)中導(dǎo)出相似結(jié)論的技術(shù)上進行投資。規(guī)避大量計算資源的使用,將會給予我們更多的空間去探索更多的假設(shè)。
關(guān)注自動化
為減少第一個預(yù)測模型產(chǎn)生的時間和加快探索的速度,公司必須能夠自動化處理在正常情況下需要人工完成的過程。通過在不同數(shù)據(jù)問題上的反復(fù)探索,我們發(fā)現(xiàn)很多時候都在使用相似的數(shù)據(jù)處理技術(shù),無論是將數(shù)據(jù)轉(zhuǎn)化為有用的聚合數(shù)據(jù),還是為預(yù)測模型準備數(shù)據(jù)。是時候流水線化這些任務(wù),開發(fā)算法和軟件,使這些過程能夠自動化完成。
專注于上述四個目標,準確理解數(shù)據(jù)科學(xué)家如何與數(shù)據(jù)交互,以及項目瓶頸之所在,幫助我們成功啟動了MIT的“TheHuman-Data Interaction Project”項目。
我們的目標是快速探索預(yù)測模型,并將這些模型應(yīng)用于解決真實企業(yè)中的實際問題。這些模型簡單,同時自動化讓非專業(yè)的用戶也能夠在幾個小時內(nèi)建立成百甚至上千個預(yù)測模型。而這在今天,通常需要花費專家們一整個月的時間才能做到。