7月9日,美國《連線》雜志近日刊登了一篇關(guān)于大數(shù)據(jù)的評論文章。作者認(rèn)為,如果缺乏對人們現(xiàn)實(shí)生活的實(shí)地調(diào)查,大數(shù)據(jù)沒有什么意義。
在短短的幾十年里,“技術(shù)天才”與社會(huì)的關(guān)系已經(jīng)改變:他們從關(guān)在屋里的孤獨(dú)者變成救世主,從反社會(huì)者變成社會(huì)的最大希望。許多人現(xiàn)在似乎相信,理解我們這個(gè)世界的最佳方式,就是坐在電腦屏幕前分析我們稱之為“大數(shù)據(jù)”的海量信息。
關(guān)于這一點(diǎn),我們只要看看 “谷歌流感趨勢(Google Flu Trends)”。2008年,當(dāng)谷歌推出這項(xiàng)服務(wù)時(shí),硅谷的許多人將它鼓吹為表明大數(shù)據(jù)將很快淘汰傳統(tǒng)分析方式的一個(gè)標(biāo)志性產(chǎn)品。
但他們錯(cuò)了。
“谷歌流感趨勢”不僅沒有提供流感傳播的精確描述,也無法實(shí)現(xiàn)大數(shù)據(jù)鼓吹者的美夢。這是因?yàn)椋绻麤]有“厚數(shù)據(jù)”(豐富的、具有前后關(guān)聯(lián)性的數(shù)據(jù),它們只能通過丟開電腦、深入實(shí)際生活才能獲得),大數(shù)據(jù)就沒有意義。電腦極客們曾經(jīng)因?yàn)椴荒苓m應(yīng)社會(huì)生活而被嘲笑,他們被告知應(yīng)該“多出去走走”。實(shí)際上,如果大數(shù)據(jù)的信徒們希望理解這個(gè)他們也在參與塑造的世界,他們真的需要多出去走走。
谷歌的失敗與算法無關(guān)
“谷歌流感趨勢”的目的是:找出人們在流感季節(jié)常用的搜索詞,然后實(shí)時(shí)跟蹤這些搜索詞的使用高峰期。這樣,谷歌就可以在新流感爆發(fā)之前發(fā)出警報(bào),而且預(yù)警時(shí)間要比官方疾病防治中心的預(yù)警時(shí)間早大約兩周。
對很多人來說,“谷歌流感趨勢”已經(jīng)成為大數(shù)據(jù)的一個(gè)典型代表,它表現(xiàn)了大數(shù)據(jù)的巨大力量。在暢銷書《大數(shù)據(jù):一場改變生活、工作和思考方式的革命》(A Revolution That Will Transform How We Live, Work and Think)中,作者維克托 邁爾 舍恩柏格(Viktor Mayer-Sch nberger)和肯尼斯 庫克耶(Kenneth Cukier)宣稱,與政府滯后的數(shù)據(jù)相比,“谷歌流感趨勢”是更有用、更及時(shí)的流感指示器。
然而,著名的《科學(xué)》雜志本月刊登一篇文章告訴我們,自2011年8月以來,“谷歌流感趨勢”幾乎每周都會(huì)高估流感的盛行率。
而在2009年,就在“谷歌流感趨勢”推出后不久,它竟然完全沒有察覺豬流感的爆發(fā)。事實(shí)上,人們在流感季節(jié)的許多常用搜索詞與流感無關(guān),而與流感的通常爆發(fā)季節(jié)——冬季——密切相關(guān)。
許多人爭論道,“谷歌流感趨勢”的失敗緣于大數(shù)據(jù)的不成熟。這種觀點(diǎn)沒有切中要害。當(dāng)然,調(diào)整算法、提高數(shù)據(jù)收集技術(shù)將會(huì)讓下一代大數(shù)據(jù)工具變得更有效。然而,大數(shù)據(jù)鼓吹者真正的狂妄之處不在于對一套不成熟的算法過于自信,而在于盲目地相信坐在電腦屏幕前搗鼓一些數(shù)字就可以充分理解世界。
為什么需要厚數(shù)據(jù)
大數(shù)據(jù)僅僅是大量的“薄數(shù)據(jù)”,它們是通過對人們的活動(dòng)和行為進(jìn)行跟蹤而獲得的。我們最常去的地方,我們在網(wǎng)上搜索的東西,我們每天睡了多久,我們有多少聯(lián)系人,我們所聽的音樂類型等等。這些數(shù)據(jù)是通過你瀏覽器中的“cookies”、你戴在手上的FitBit腕帶或你手機(jī)上的GPS來收集的。這些信息無疑是重要的,但我們不能通過它們來獲得對人的完整理解。
為了真正地了解人,我們不久需要大數(shù)據(jù),而且需要厚數(shù)據(jù)。厚數(shù)據(jù)不僅包括事實(shí),而且包括事實(shí)的前后聯(lián)系。比如說,美國有86%的家庭每周會(huì)喝掉6夸脫以上的牛奶,但是她們?yōu)槭裁春扰D蹋克麄兪窃趺春鹊??一塊包含三種顏色、繡著星星和條紋圖案的布,這是薄數(shù)據(jù);一面在風(fēng)中飄揚(yáng)的美國國旗,這是厚數(shù)據(jù)。
基于“我們做了什么”,大數(shù)據(jù)對我們進(jìn)行簡單化的理解;厚數(shù)據(jù)則試圖通過我們與周圍世界的聯(lián)系來理解我們。只有理解人與周圍世界的聯(lián)系,人們才能從整體上認(rèn)識(shí)這個(gè)世界,這恰恰也是谷歌、facebook等公司想要做的。
理解我們這個(gè)世界
想想硅谷的那些宏偉宣言。谷歌的宗旨是“組織全球信息,使人人皆可訪問它們并從中獲益。”馬克·扎克伯格(Mark Zuckerberg)最近對投資者表示,在全球化和知識(shí)經(jīng)濟(jì)日益受到重視的當(dāng)今世界,F(xiàn)acebook致力于一個(gè)新的使命:“理解這個(gè)世界”。他說:“人們每天在Facebook上發(fā)布數(shù)十億條內(nèi)容和鏈接。在他們的幫助下,我們通過專門的算法機(jī)制為世界上所有事物建立最清晰的模型。”甚至有一些小公司也參與了“理解這個(gè)世界”。去年,Jawbone公司的副總裁耶利米 羅賓遜(Jeremiah Robison)說,他們的健康跟蹤設(shè)備Jawbone UP的目標(biāo)是“理解(人的)行為變化的科學(xué)。”
這些目標(biāo)的確很大。企業(yè)渴望更好地理解社會(huì),這不足為怪。畢竟,了解與客戶行為及社會(huì)文化相關(guān)的信息,這對企業(yè)經(jīng)營來說是必不可少的。而且,在知識(shí)經(jīng)濟(jì)時(shí)代,這些信息本身已經(jīng)成為一種通貨,它們可以換來點(diǎn)擊率、瀏覽量和廣告收入?;蛘吒唵蔚卣f,它們可以換來權(quán)力。在這個(gè)過程中,如果谷歌、facebook等公司能不斷幫助我們增進(jìn)對自身的集體知識(shí),它們獲得更多權(quán)力也是正當(dāng)?shù)?。問題在于,如果它們聲稱計(jì)算機(jī)能夠組織我們的所有數(shù)據(jù),或能夠向我們提供關(guān)于流感、健康或社會(huì)關(guān)系等各方面的完整理解,那么,它們從根本上小看了“數(shù)據(jù)”和“理解”的意義。
如果硅谷的大數(shù)據(jù)鼓吹者真想“了解世界”,那么他們不僅需要掌握大數(shù)據(jù),也需要掌握厚數(shù)據(jù)。不幸的是,要獲得后者,他們需要丟開電腦去實(shí)地體驗(yàn)這個(gè)世界,而不是僅僅通過谷歌眼鏡(或通過facebook的虛擬現(xiàn)實(shí)設(shè)備)來觀察世界。
人們的行為情境
如果你對一個(gè)領(lǐng)域高度熟悉,有能力填補(bǔ)信息空白并想象人們的行為原因,那么“薄數(shù)據(jù)”將是有用的。換句話說,如果你能夠想象并重建人們的行為的發(fā)生情境,你所觀察到的行為才是有意義的。如果缺乏對行為情境的了解,就不可能推出任何因果關(guān)系,也不可能理解人們的行為原因。
這就是為什么研究人員在科學(xué)實(shí)驗(yàn)中要竭盡全力控制實(shí)驗(yàn)室的環(huán)境,以創(chuàng)造一個(gè)各種影響因素都被考慮在內(nèi)、徹底的人工場所。不過,真實(shí)世界并不是一個(gè)實(shí)驗(yàn)室。要確保你對陌生世界的情境有所了解,唯一的途徑是實(shí)地觀察并內(nèi)化和解釋正在發(fā)生的每一件事。
人們的背景知識(shí)
如果說大數(shù)據(jù)擅長觀察人們的行為,那么它不擅長的就是理解人們對每樣事物的背景知識(shí)。我是怎么知道每次刷牙時(shí)該用多少牙膏的?我是怎么知道何時(shí)該進(jìn)入另一個(gè)交通通道的?眨眼是表示“真有趣”還是“我的眼睛進(jìn)了東西”?這些都涉及人們的內(nèi)在能力、無意識(shí)和背景知識(shí),它們控制著人們的大多數(shù)行為。跟周圍的事物一樣,這些不可見的背景知識(shí)只有在觀察者主動(dòng)去看的情況下才能被發(fā)現(xiàn)。不過,它們卻對每個(gè)人的行為有著重要影響。它能夠解釋事物與人的聯(lián)系,以及事物對人的意義。
人類學(xué)及社會(huì)科學(xué)中有大量觀察和解釋人類行為的方法。研究人員不但觀察人的行為,而且考查他們所處的情境和他們擁有的背景知識(shí)。這些方法有一個(gè)共同的特點(diǎn):它們要求研究者深入混亂而真實(shí)的人類生活。
沒有哪一個(gè)單獨(dú)的工具能夠成為理解人類的超級(jí)武器。盡管硅谷有許多出色的發(fā)明,不過我們對任何數(shù)字技術(shù)的期望都應(yīng)該有個(gè)限度。“谷歌流感趨勢”真正教給我們的是:不能僅僅問這些數(shù)據(jù)有多“大”,還要問這些數(shù)據(jù)有多“厚”。
有時(shí),走進(jìn)真實(shí)的生活會(huì)得到更好的結(jié)果。有時(shí),我們必須要丟下電腦。