收集、處理和分析數(shù)據(jù)是一件有意義的事,并必將產(chǎn)生價(jià)值。問題在于:我們能從大數(shù)據(jù)里挖掘出多少價(jià)值?是否真的如人們想象得那樣多?
據(jù)統(tǒng)計(jì),2012年大數(shù)據(jù)直接相關(guān)業(yè)務(wù)的產(chǎn)值達(dá)到100億美元。而預(yù)測稱5年以后這個數(shù)字將達(dá)到500億美元。如果考慮 Google,F(xiàn)acebook,Twitter,Amazon這幾家收集和處理大數(shù)據(jù)能力最強(qiáng)的公司,目前似乎是合適的投資時機(jī),而由此帶動的新市場將 使硅谷迎來下一輪欣欣向榮。在硅谷以外,金融、保險(xiǎn)、零售、醫(yī)療行業(yè)都在談?wù)摯髷?shù)據(jù)。在學(xué)術(shù)界,受益于奧巴馬政府最近的2億美元研究撥款以及各州的大量撥款,今年北美超過50%的計(jì)算機(jī)科學(xué)教授職位面向大數(shù)據(jù)研究。甚至我的研究物理學(xué)和運(yùn)籌學(xué)的朋友們也在談?wù)摯髷?shù)據(jù)。
拋開這些令人鼓舞的數(shù)字和預(yù)測,回到本質(zhì)問題,大數(shù)據(jù)真的能改變?nèi)藗兊纳顔幔績赡昵拔覍Υ吮容^樂觀。原因在于,計(jì)算機(jī)技術(shù)的發(fā)展正在進(jìn)入一個摩爾定律失 效的時代。CPU的處理速度到達(dá)瓶頸,不再能18個月翻一倍。而另一方面,人類獲得的數(shù)據(jù)規(guī)模正在以指數(shù)速度增長。這預(yù)示著,大數(shù)據(jù)處理需要超越傳統(tǒng)的新 技術(shù)。而這很可能帶來全新的發(fā)現(xiàn)。兩年后,對大數(shù)據(jù)的炒作已經(jīng)演變成了某些人為擴(kuò)大自己的圈子而進(jìn)行的商業(yè)宣傳。但是,大數(shù)據(jù)真的幫我們做到了以前不能做 的事嗎?
更多的數(shù)據(jù)并不意味著更多的信息
小明同學(xué)想要精確地測出自己的身高。由于測量存在誤差,他連續(xù)量了5次,然后計(jì)算5次的平均值。有理由相信,這種方法比單純量一次身高更準(zhǔn)確些。但如果小 明有足夠的時間和耐心,他可以量1000000次,然后從1000000個結(jié)果里計(jì)算自己的身高。在這個例子里,雖然我們擁有了一百萬條記錄,其中包含的 信息并不比5條記錄多出多少——它們唯一的用處仍然只是計(jì)算小明同學(xué)的身高。很不幸,這就是大數(shù)據(jù)分析面對的現(xiàn)實(shí)。
現(xiàn)實(shí)中的大數(shù)據(jù)之所以“大”,是因?yàn)榛ヂ?lián)網(wǎng)把上億用戶的信息匯集在了一起。但我們往往高估了人的差異性。看看四周,人們每天做著相同的交通工具去做差不多 的工作。下班以后吃差不多的食物,看一樣的電影,上網(wǎng)關(guān)注相同的名人。假期到了,則去幾個數(shù)得著的地方旅游。如果大家都把自己的生活細(xì)節(jié)一絲不茍地記錄下 來,我想任何人在看了1000個人的日記以后就不會產(chǎn)生新鮮感了,更遑論10億人的?既然如此,為什么需要10億人的數(shù)據(jù)?
反駁者認(rèn)為,大數(shù)據(jù)能幫助更好地把握每個人類個體的情況。但即便在如此目的之下,收集大數(shù)據(jù)也不是必須的。以Amazon的在線推薦系統(tǒng)為例。對一個女性 客戶Alice,網(wǎng)站試圖推薦Alice感興趣的商品給她。如果Amazon的設(shè)計(jì)師熱衷于設(shè)計(jì)復(fù)雜的系統(tǒng),他大可以搜索Amazon的全部10億個用戶 資料,找出那些購買偏好和Alice相似的客戶,然后推薦她們以前買過的東西給Alice。直覺上說,只有當(dāng)用戶資料庫足夠大,才能找出和Alice足夠 相似的人,從而做出靠譜的推薦。但事實(shí)是:一個如此復(fù)雜的,基于10億人的系統(tǒng)做出的推薦,其準(zhǔn)確率甚至不到萬分之一。相反,如果完全忽略Alice的個 人偏好,直接給她推薦20個女性購買最多的商品,Alice購買的可能性甚至高于個性化推薦的商品。由此我們可以做出兩點(diǎn)判斷:(1) 10億人的數(shù)據(jù)充斥著不含任何信息的噪音 (2) 即使基于少量信息,也可以判斷個體的行為,并且不比基于大數(shù)據(jù)的判斷來得差。
大數(shù)據(jù)被用來驗(yàn)證知識而非發(fā)現(xiàn)知識
在科學(xué)和社會學(xué)領(lǐng)域,人們寄希望于從大數(shù)據(jù)中發(fā)現(xiàn)新知識,但目前看來這只是個美好的愿望。人類在近300年中發(fā)現(xiàn)的知識遠(yuǎn)多于之前的10萬年,但這并不是 因?yàn)槿祟惖囊暳吐犃M(jìn)化了。事實(shí)上,如果不針對性地分析數(shù)據(jù),就不可能從數(shù)據(jù)中提取出知識。而針對性地分析數(shù)據(jù)需要恰當(dāng)?shù)牟孪牒驼撟C,它們已經(jīng)是待探索 的知識的一部分。不依靠人為干預(yù),僅靠計(jì)算機(jī)程序自動從大數(shù)據(jù)里發(fā)現(xiàn)知識,這還屬于科幻小說的題材。
就學(xué)術(shù)界的現(xiàn)狀來說,大數(shù)據(jù)基本被用于檢驗(yàn)常識,而非發(fā)現(xiàn)新知識。舉一個我曾經(jīng)和 @Amber 討 論過的例子??的螤柎髮W(xué)的Jon Kleinberg教授通過分析Facebook用戶數(shù)據(jù)發(fā)現(xiàn),如果一對情侶擁有過多的共同好友,他們分手的可能性比較高。因?yàn)檫@種情況下情侶會花大量時 間和朋友們在一起玩,而失去了獨(dú)處培養(yǎng)感情的時間。這項(xiàng)發(fā)現(xiàn)被紐約時報(bào)、Fox新聞網(wǎng)等媒體爭相報(bào)道,并作為大數(shù)據(jù)分析的優(yōu)秀典型。但仔細(xì)考慮之下,這真 的是一個“發(fā)現(xiàn)”嗎?我想,Kleinberg教授至少是首先假設(shè)了情侶的分手率和他們的共同好友數(shù)有關(guān),這才去做數(shù)據(jù)統(tǒng)計(jì)的。而另一方面,公眾之所以認(rèn) 為這是個有趣的結(jié)果,也恰恰因?yàn)樗鼜哪撤N程度上符合了“不證自明”的常識。事實(shí)上,如果數(shù)據(jù)挖掘研究得到了反常識的結(jié)論,那么這項(xiàng)研究是難以發(fā)表的,至少會遭到苛刻的責(zé)難。因?yàn)檠芯空邆冃睦镆睬宄?,大?shù)據(jù)充斥著難以分析的噪音,如果得出的結(jié)果違反常識,那么多半是噪音導(dǎo)致的錯誤,而并非少數(shù)人的真理。
處理大數(shù)據(jù)的技術(shù)和處理小數(shù)據(jù)的技術(shù)沒有本質(zhì)區(qū)別
傳統(tǒng)上用于處理和分析小數(shù)據(jù)的技術(shù),基本都可以直接拿來處理大數(shù)據(jù)。如機(jī)器學(xué)習(xí)界10-20年前提出的神經(jīng)網(wǎng)絡(luò)、SVM、聚類算法,以及統(tǒng)計(jì)學(xué)界 30-40年前已經(jīng)成熟的回歸分析、PCA等等,現(xiàn)在依然是處理大數(shù)據(jù)的主流技術(shù)。當(dāng)然,針對大數(shù)據(jù)處理人們研究了一些優(yōu)化策略,如采用并行計(jì)算,用內(nèi)存 維護(hù)數(shù)據(jù)庫,采用消除大數(shù)據(jù)噪音的方法等等。這些優(yōu)化技巧有效地提高了處理大數(shù)據(jù)的效率。但尚稱不上本質(zhì)的進(jìn)步。
算法層面上,現(xiàn)在最火的當(dāng)屬深度學(xué)習(xí)(Deep Learning)。公眾所知的深度學(xué)習(xí)以Google Brain為代表,號稱從上億張圖片里發(fā)現(xiàn)“貓”和“碎紙機(jī)”的概念(我相信Google Brain生成了成千上萬個概念,其中絕大部分是無法理解的,只有符合常識的這幾個被報(bào)道出來了,再次驗(yàn)證前一段的論點(diǎn))。從技術(shù)上說,深度學(xué)習(xí)和 1986年提出的人工神經(jīng)網(wǎng)絡(luò)并沒有本質(zhì)區(qū)別。僅僅是使用了和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)略有差別的激勵函數(shù),以及針對大數(shù)據(jù)做了些克制噪音的優(yōu)化。目前深度學(xué)習(xí)的大佬 Geoffrey Hinton,Yann LeCun都是八十年代搞神經(jīng)網(wǎng)絡(luò)起家的人,經(jīng)歷了近10年被SVM打壓發(fā)不出論文的郁悶后,終于在近幾年翻了身。Yann LeCun剛剛幫NYU拉到了1億美元的大數(shù)據(jù)研究經(jīng)費(fèi)。還沒來得及花,又被Facebook挖去主持Facebook AI Lab,確實(shí)炙手可熱。雖然深度學(xué)習(xí)稱得上近來的突破之一,但它實(shí)質(zhì)上是把小數(shù)據(jù)算法應(yīng)用于大數(shù)據(jù)的成功實(shí)例,并不能算大數(shù)據(jù)引發(fā)的原創(chuàng)技術(shù)貢獻(xiàn)。
大數(shù)據(jù)還能火多久
如標(biāo)題所屬,我對大數(shù)據(jù)的前景持懷疑態(tài)度,因此我不認(rèn)為它會長久地火下去。這個判斷基于我片面的認(rèn)知,當(dāng)然談不上正確。個人預(yù)測,大數(shù)據(jù)的概念還有2-3年的炒作空間。所以有志于此的同學(xué)們該撈錢的抓緊撈錢,該找工作的抓緊找工作。過了這村可能就沒這店了。
最后上一張老圖。這張圖表明,任何概念都要經(jīng)歷一個:“炒作 -- 低谷 -- 重新上升 -- 創(chuàng)造實(shí)際價(jià)值”的過程,2012年的時候大數(shù)據(jù)還在爬升期,而現(xiàn)在大概到頂了。如果要預(yù)測未來走勢,請參見圖中最高點(diǎn)處的“3D打印”,現(xiàn)在還有人聊3D打印嗎?呵呵