今年以來,“大數(shù)據(jù)技術(shù)”和“大數(shù)據(jù)分析”明顯顯得更加的“火熱”。然而,鮮有理性的聲音存在。美國頂尖公立研究型大學(xué)、世界上最負(fù)盛名且最頂尖的公立大學(xué)——加州大學(xué)伯克利分校,其Pehong Chen Distinguished Professor(校陳丕宏杰出教授)、美國科學(xué)院院士、美國工程院院士、美國藝術(shù)與科學(xué)院院士、ACM會士、IEEE會士、AAAS會士、AAAI會士、ASA會士、IMS會士、機(jī)器學(xué)習(xí)領(lǐng)域國際著名學(xué)者M(jìn)ichael I. Jordan教授近日接受IEEE《頻譜》雜志采訪時(shí),在Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts一文中指出,現(xiàn)在大家炒作大數(shù)據(jù)過了頭、大數(shù)據(jù)可能只是一場“空歡喜”、大數(shù)據(jù)的“冬天”即將到來、大數(shù)據(jù)要在幾十年之后才能真正有用、大家要能真正沉下心來做完整的工程統(tǒng)計(jì)分析等。以下是對訪談全文的編譯。
IEEE S:現(xiàn)在我們不妨將話題轉(zhuǎn)到大數(shù)據(jù)上。您的言論中始終認(rèn)為當(dāng)前對大數(shù)據(jù)的執(zhí)著里有把“黃銅當(dāng)金子”的成分。比如您就曾預(yù)測公眾即將經(jīng)歷一場大數(shù)據(jù)項(xiàng)目帶來虛警的“流行病”。
Michael I. Jordan:當(dāng)你有了大量的數(shù)據(jù)之后,你就會想提出更多的假設(shè)。而一旦提出假設(shè)的速度超出了數(shù)據(jù)的統(tǒng)計(jì)內(nèi)涵,那么你的推斷里有很多都可能是錯誤的。它們也許就只是“白噪聲”。
IEEE S:為什么會這樣?
Michael I. Jordan:在傳統(tǒng)的數(shù)據(jù)庫里,你有比方說幾千個人的數(shù)據(jù)。你不妨把他們看成數(shù)據(jù)庫中的行,而列就對應(yīng)了這些人的屬性:年齡、身高、體重、收入等等。
現(xiàn)在,這些列的組合數(shù)目是以指數(shù)的速度隨著列數(shù)增加的。因此如果你有非常非常多的列(現(xiàn)代的數(shù)據(jù)庫里的確如此),那么對每個人你都會得到數(shù)以百萬計(jì)的特性。
假如我現(xiàn)在開始查看這些屬性的所有組合——你是否在北京生活,是否騎自行車上班,是否從事某項(xiàng)工作,是否處于某個特定的年齡——那么你得某種疾病或者你喜歡我的廣告的概率是多少呢?我將得到數(shù)以百萬計(jì)的屬性組合,并且這些組合的數(shù)目是指數(shù)級別的;它會達(dá)到宇宙中的原子數(shù)目的規(guī)模。
這些就是我想要考慮的假設(shè)。在任何一個特定的數(shù)據(jù)庫里,我都能找到這些列的某種組合來完美地預(yù)測任何結(jié)果,哪怕只是隨機(jī)地挑選。如果我只是查看所有發(fā)生過心梗的人,把他們同所有未發(fā)生過心梗的人作比較,并尋找可預(yù)測心臟病的列的組合,我就的確能夠找到列的各種各樣的疑似組合,這是因?yàn)樗鼈償?shù)量龐大。
這就好像讓好幾十億只猴子在那兒打字,總有一個會寫出莎士比亞。
IEEE S:您認(rèn)為大數(shù)據(jù)的這一面目前沒有得到重視嗎?
Michael I. Jordan:當(dāng)然。
IEEE S:有哪些東西是人們承諾大數(shù)據(jù)能帶來的而您認(rèn)為其實(shí)是無法兌現(xiàn)的?
Michael I. Jordan:我認(rèn)為數(shù)據(jù)分析能夠按某些質(zhì)量標(biāo)準(zhǔn)發(fā)布一些推斷,然而我們必須交代清楚這些質(zhì)量標(biāo)準(zhǔn)到底是什么樣的。我們必須在我們所有的預(yù)測上加上誤差線,而這正是在目前很多機(jī)器學(xué)習(xí)文獻(xiàn)中所欠缺的。
IEEE S:如果處理數(shù)據(jù)的人并不理會您的建議會發(fā)生什么情況呢?
Michael I. Jordan:我喜歡使用“造橋”來做類比。假設(shè)我不依從任何準(zhǔn)則,毫無科學(xué)根據(jù)地建造了上千座橋梁,那么它們有很多都會崩塌,造成巨大的災(zāi)難。與此類似,假設(shè)人們使用數(shù)據(jù)并根據(jù)這些數(shù)據(jù)做出推斷而完全沒有考慮誤差線、數(shù)據(jù)異構(gòu)、噪聲數(shù)據(jù)、采樣模式,以及所有那些作為一個工程師和統(tǒng)計(jì)學(xué)家必須慎重對待的事情,他們就會做出很多的預(yù)測,并且有很大可能會偶爾解決一些真正有意思的問題。但是時(shí)不時(shí)地還會做出一些災(zāi)難性的糟糕決定。這其中的差別你事先是不會知道的。你就只能做出預(yù)測然后祈禱一切順利。
這就是我們的現(xiàn)狀。許多人在(用大數(shù)據(jù))做一些事情,期望它們能有用,有時(shí)它們確實(shí)起
作用了。從某種意義上講,這么做也無可指摘,這本就是探索性的工作。但是就整個社會而言,不能放任這種情況發(fā)展,我們不能只是“但愿”它們有用,到頭來我們還是要給出切實(shí)的保證。
土木工程師最終學(xué)會了如何建造能夠持久屹立的橋梁。那么說到大數(shù)據(jù),我猜可能還要過幾十年才能形成一個真正的工程學(xué)方法,以便你能夠有一定程度的保證說,你正在公布合理的答案并且在對出錯的可能性進(jìn)行量化分析。
IEEE S:我們現(xiàn)在有提供那些誤差線的工具嗎?
Michael I. Jordan:我們正在著手把這門工程科學(xué)組裝起來。我們有許多想法,它們來自于數(shù)百年的統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的研究,我們正致力于把它們?nèi)诤系揭黄穑屗鼈兙哂锌蓴U(kuò)展性。過去30年間涌現(xiàn)了許多關(guān)于如何控制所謂的“族群誤差”的想法,也就是在有多個假設(shè)的情況下想知道誤差率。但這些想法仍有許多還沒有從實(shí)際計(jì)算的角度進(jìn)行研究。解決這些問題是很難的數(shù)學(xué)和工程課題,并且需要時(shí)間。
這不是一兩年的問題,而是需要幾十年才能做好。我們?nèi)耘f在學(xué)習(xí)如何用好大數(shù)據(jù)。
IEEE S:在閱讀關(guān)于大數(shù)據(jù)和醫(yī)療保健的報(bào)道時(shí),差不多每三篇就有一篇在談我們將幾乎完全自動地靠著從每個人身上(尤其是通過“云”)收集數(shù)據(jù)來獲得令人驚嘆的臨床診斷的發(fā)現(xiàn)。
Michael I. Jordan:對這種事,你既不能全盤懷疑也不能徹底樂觀,應(yīng)該就在這兩個極端之間。但是如果你把某些數(shù)據(jù)分析中得到的假設(shè)全部列出來,那么總有一部分是有用的,你只是不知道是哪一部分。
所以如果你隨便挑出幾條來——比如說“吃燕麥麩就不會得胃癌”之類的,因?yàn)閺臄?shù)據(jù)上看似乎如此,那么你會有一些走運(yùn)的機(jī)會。數(shù)據(jù)是能提供某種支持的。
但是這還是在賭博,除非你真的做了完整的工程統(tǒng)計(jì)分析來給出誤差線并且量化錯誤率。雖
然它比沒有數(shù)據(jù)就直接賭博要好些,那是純粹的輪盤賭。而這是一種部分的輪盤賭。
IEEE S:如果我們繼續(xù)在您描述的那條(錯誤的)軌跡上前進(jìn),大數(shù)據(jù)將會面對怎樣的不利后果?
Michael I. Jordan:最主要的就會是一次“大數(shù)據(jù)的冬天”(暗指20 世紀(jì)七八十年代的“人工智能的冬天”)。在一場泡沫之后——人們已經(jīng)投了錢,一大批公司作了承諾卻又拿不出嚴(yán)肅的分析結(jié)果——泡沫會破碎。并且很快,在2~5 年間,人們就會說“大數(shù)據(jù)來了又走了,它死了,并且是錯的。”我預(yù)言的是那樣。
當(dāng)炒作過了頭的時(shí)候,這就是在那些循環(huán)往復(fù)之中會發(fā)生的事情。這些炒作或者說斷言,既不是基于對真正的問題是什么的理解,也不是基于解決問題可能要好幾十年或者說我們會取得逐步進(jìn)展的理解,而是基于一種我們還沒有在技術(shù)進(jìn)步中取得關(guān)鍵性跨越的理解。在此之后可能會有一個時(shí)期,獲取資源來做數(shù)據(jù)分析變得十分困難。(當(dāng)然)這個領(lǐng)域會繼續(xù)發(fā)展,因?yàn)樗钦鎸?shí)的也是有實(shí)際需求的。不過這種反彈勢必會對一大批重要的研究項(xiàng)目造成不利影響。