信息爆炸引爆了大數(shù)據(jù)時(shí)代的到來,前一兩年大數(shù)據(jù)到達(dá)了炒作的高峰,而馬云則稱今后 30年 屬于數(shù)據(jù)技術(shù)(DT)。但是最近一段時(shí)間大數(shù)據(jù)似乎沒有那么大的動(dòng)靜了,這固然有技術(shù)炒作周期曲線的規(guī)律作用,也跟大數(shù)據(jù)遭遇到的一些瓶頸有關(guān)。
這個(gè)最大的瓶頸之一便是人。隱藏在大數(shù)據(jù)里面的模式挖掘很長程度上需要依靠人的建模和直覺,但是數(shù)據(jù)科學(xué)家的數(shù)量卻跟不上大數(shù)據(jù)的規(guī)模發(fā)展。不過 MIT 正在為打破這個(gè)瓶頸而努力,其研發(fā)的一款名為 Data Science Machine(數(shù)據(jù)科學(xué)機(jī)器)的軟件實(shí)現(xiàn)了無人參與下的大數(shù)據(jù)分析,經(jīng)過對(duì)比發(fā)現(xiàn),其表現(xiàn)已經(jīng)與數(shù)據(jù)分析師不分高下。
Data Science Machine 由 MIT CSAIL 的 Max Kanter 和他的指導(dǎo)老師 Kalyan Veeramachaneni 等人設(shè)計(jì)。其關(guān)鍵突破是它不僅會(huì)尋找模式,還會(huì)自己設(shè)計(jì)特征集。學(xué)機(jī)器學(xué)習(xí)的人都知道特征工程的重要性。特征工程是指利用數(shù)據(jù)的領(lǐng)域知識(shí)來創(chuàng)建特征以便讓機(jī)器學(xué)習(xí)算法可以工作的過程,這個(gè)過程往往需要人的直覺。而 Data Science Machine 卻利用了關(guān)系數(shù)據(jù)庫的不同表間的結(jié)構(gòu)化關(guān)系作為線索來進(jìn)行特征構(gòu)造,從中生成一批候選的特征集,然后再通過分析值的相關(guān)性來縮小特征集的范圍,從而免去了人的參與。然后,Data Science Machine 還會(huì)把這個(gè)特征集運(yùn)用到樣本數(shù)據(jù)上,再用不同的方式重新組合特征來優(yōu)化預(yù)測的準(zhǔn)確率。
為了測試這套系統(tǒng)的第一款原型,研究人員讓它參與了三項(xiàng)數(shù)據(jù)科學(xué)方面的競賽,競賽的目標(biāo)是在不常見的數(shù)據(jù)集中尋找出預(yù)測性的模式。三場競賽供有 906 支隊(duì)伍參加,Data Science Machine 的成績比其中的 615 支隊(duì)伍都要高。
在準(zhǔn)確率方面,Data Science Machine 在其中兩場競賽的準(zhǔn)確率分別達(dá)到了 94%和 96%。另外一場的準(zhǔn)確率略低,為 87%。但是效率方面卻是人類不能比的,因?yàn)?Data Science Machine 得出結(jié)果用時(shí)在 2-12 小時(shí)之間,而人類團(tuán)隊(duì)的預(yù)測性算法往往要折騰數(shù)月的時(shí)間。
目前 Data Science Machine 已能對(duì)哪些學(xué)生有可能退出 MIT 的在線課程做出分析,它選出的兩個(gè)特征分析學(xué)生開始寫作業(yè)時(shí)間的早晚,以及在網(wǎng)上學(xué)習(xí)課程的時(shí)間長短。盡管這種能力看起來還不夠強(qiáng)大,但是這只是開始,一旦機(jī)器具備真正的自我學(xué)習(xí)能力,在計(jì)算能力指數(shù)增長的作用下,其進(jìn)化速度將是我們難以想象的。