開源大數(shù)據(jù)技術(shù)Hadoop,在今年剛好滿十歲。在大數(shù)據(jù)的第一個(gè)十年,Hadoop成功地讓大數(shù)據(jù)成為最被看好的技術(shù),這股大趨勢(shì),不僅影響資訊科技的走向,更成為商業(yè)熱烈討論的議題。
之所以如此,一方面是隨著網(wǎng)際網(wǎng)絡(luò)、云端運(yùn)算、智慧行動(dòng)裝置的普及,使得Google、Facebook、Twitter等大型互聯(lián)網(wǎng)公司的用戶數(shù)量,呈現(xiàn)爆炸性成長,為了應(yīng)付全球用戶的規(guī)模,這些知名互聯(lián)網(wǎng)技術(shù)公司紛紛投入大數(shù)據(jù)技術(shù),使得大數(shù)據(jù)成為頂尖技術(shù)的指標(biāo),瞬間成了搶手的當(dāng)紅炸子雞。
另一方面,這些互聯(lián)網(wǎng)公司不僅是采用Hadoop這樣的開源大數(shù)據(jù)技術(shù),更雇用軟件高手開發(fā)符合自己需求的大數(shù)據(jù)技術(shù),再將這些大數(shù)據(jù)軟體的程式碼開源。如此一來,既吸引更多高手加入開發(fā),亦回饋開發(fā)社群,而這樣的效應(yīng),也使得大數(shù)據(jù)開源技術(shù)的發(fā)展,如火如荼,至今與Hadoop相關(guān)的開源軟件已超過一百個(gè),形成龐大的Hadoop生態(tài)圈。
在接下來的第二個(gè)十年,大數(shù)據(jù)將會(huì)如何發(fā)展呢?今年中,我參加在大數(shù)據(jù)領(lǐng)域頗負(fù)盛名的Strata & Hadoop World技術(shù)大會(huì),原本我期待這場(chǎng)以大數(shù)據(jù)技術(shù)Hadoop為名的技術(shù)會(huì)議,主要探討的議題,應(yīng)該圍繞著Hadoop生態(tài)圈的開源大數(shù)據(jù)技術(shù);然而,在兩天的大會(huì)主題演講,不論上臺(tái)的是Google、Microsoft這樣的國際大廠,或是百度、阿里巴巴、螞蟻金服、小米等中國網(wǎng)路大公司,談的都是人工智慧(Artificial Intelligence,AI)、機(jī)器學(xué)習(xí)(Machine Learning,ML)、深度學(xué)習(xí)(Deep Learning,DL)等AI議題。
縱使那兩天的下午議程當(dāng)中,仍有很大的比例,在探討大數(shù)據(jù)即時(shí)分析、串流運(yùn)算等議題,然而大會(huì)主秀——通常是科技公司展現(xiàn)實(shí)力的主題演講,卻是不約而同談AI、ML及DL等技術(shù)議題。
在這些原本就是大數(shù)據(jù)技術(shù)領(lǐng)頭羊的眼中,很明顯地,人工智慧、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)是大數(shù)據(jù)的下一步,也是大數(shù)據(jù)第二個(gè)十年的兵家必爭(zhēng)之地。
然而,邁向第二個(gè)十年后,大數(shù)據(jù)就不再重要了?其實(shí)并不然,這些技術(shù)依然重要,只是下個(gè)十年的發(fā)展,將是以AI為導(dǎo)向的大數(shù)據(jù)。關(guān)于這部份,我們可以從催生Spark、Mesos的柏克萊AMPLab實(shí)驗(yàn)室來觀察。
在大數(shù)據(jù)第一個(gè)黃金十年的后半段,以微批次串流運(yùn)算技術(shù)竄紅的Spark,引領(lǐng)風(fēng)騷,而Spark的誕生地——柏克萊大學(xué)AMPLab,卻將在2016年底吹熄燈號(hào)。AMPLab由兩位擁有軟體創(chuàng)業(yè)經(jīng)驗(yàn)的教授主持,在目前的6年計(jì)畫期間,推動(dòng)許多開源軟體研究專案,最知名的當(dāng)屬分散式資源管理系統(tǒng)Mesos、串流運(yùn)算平臺(tái)Spark、分散式記憶體儲(chǔ)存系統(tǒng)Alluxio(之前稱為Tachyon),在個(gè)別領(lǐng)域都居于技術(shù)領(lǐng)先的地位。
既然AMPLab有如此重要的研究貢獻(xiàn),為何結(jié)束呢?因?yàn)榘乜巳R實(shí)驗(yàn)室的傳統(tǒng),普遍以5至6年投入研究,解決一個(gè)重要的問題,如今AMPLab已經(jīng)完成了階段性使命:打造開源大資料分析技術(shù),接下來,他們將以新成立的實(shí)驗(yàn)室RISELab,解決大數(shù)據(jù)的下一個(gè)新問題。
新問題是什麼呢?從實(shí)驗(yàn)室的名稱Real-time Intelligent Secure Execution,即可看出端倪。在上個(gè)階段,AMPLab是從大數(shù)據(jù)批次資料處理技術(shù),發(fā)展至大數(shù)據(jù)分析技術(shù),而下個(gè)階段的RISELab,則要克服即時(shí)資料處理的問題,發(fā)展出即時(shí)決策的應(yīng)用。他們的目標(biāo)是,研發(fā)出比Spark的反應(yīng)速度快100倍、輸出快1000倍的新一代大數(shù)據(jù)技術(shù),并且結(jié)合線上機(jī)器學(xué)習(xí)與更自動(dòng)化的演算法,在確保資料加密安全與隱私,且不犧牲效能的情況下,從即時(shí)資料中做即時(shí)決策。
未來6年RISELab能否達(dá)成目標(biāo),尚無人能知。但很肯定的是,大數(shù)據(jù)的下一步,是以AI為導(dǎo)向的新一代大數(shù)據(jù)。