全世界90%的數(shù)據(jù)都是最近幾年生成的,人們對(duì)這個(gè)結(jié)論可能已經(jīng)耳熟能詳。盡管我能找到的這個(gè)說(shuō)法的最早出處是在2013年5月,但是,這種趨勢(shì)卻始終未曾發(fā)生變化。事實(shí)上,過(guò)去30年間,每隔兩年,全球總數(shù)據(jù)量就會(huì)增長(zhǎng)大約10倍——這讓計(jì)算機(jī)行業(yè)的摩爾定律相形見(jiàn)絀。
信息爆炸所帶來(lái)的問(wèn)題之一在于,即便和不久之前相比,當(dāng)前的信息量規(guī)模都會(huì)大到不可思議的程度。假如有一本信息影集代表了你從嬰兒到成年的前18年人生,并且照片數(shù)量的增長(zhǎng)速度和全球數(shù)據(jù)量保持一致,如果頭兩年你只有兩張照片,那么從6歲到8歲的兩年間你就會(huì)有兩千張照片,從10歲到12歲有20萬(wàn)張,從16歲到18歲則有驚人的2億張,這意味著在16-18歲期間你每秒鐘就會(huì)拍3張照片。
當(dāng)你回過(guò)頭去以更長(zhǎng)遠(yuǎn)的眼光來(lái)看待事物時(shí),你會(huì)發(fā)現(xiàn),你有太多太多近期的的事件,而較早的數(shù)據(jù)和事件是那么的稀少。
當(dāng)然,全球數(shù)據(jù)不能這樣簡(jiǎn)單類比。全球數(shù)據(jù)增長(zhǎng)的主要原因在于更多的人口產(chǎn)生了更多信息源,以及更大的和更復(fù)雜詳細(xì)的信息結(jié)構(gòu)。然而,如果試圖回顧或分析與上文所述影集類似的歷史記錄,你會(huì)發(fā)現(xiàn)一個(gè)相同點(diǎn),越遙遠(yuǎn)的歷史所留下的信息和記錄就會(huì)越稀少。怎么會(huì)發(fā)生這種事情呢?
這就是目前大數(shù)據(jù)采集分析中存在的一項(xiàng)弊端。無(wú)論你在哪一個(gè)時(shí)間點(diǎn)開始回顧歷史,都會(huì)遇到同一個(gè)麻煩:近期數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)遠(yuǎn)期歷史數(shù)據(jù),由此,這個(gè)分析系統(tǒng)會(huì)過(guò)度重視短期趨勢(shì)而忽略長(zhǎng)期趨勢(shì),從而受到短視的困擾。
為了理解這個(gè)問(wèn)題的重要性,需要考慮社會(huì)科學(xué)中有關(guān)“近因偏差”(recency bias,又稱近因效應(yīng))的研究發(fā)現(xiàn)。近因偏差是指:人們?cè)谂袛嗍挛锇l(fā)展趨勢(shì)時(shí),會(huì)認(rèn)為未來(lái)事件將會(huì)和近期體驗(yàn)高度類似。這可以說(shuō)是某種“可利用性法則”(availability heuristic)——不恰當(dāng)?shù)匾宰钊菀渍J(rèn)知的信息來(lái)作為思考的基礎(chǔ)。這還是一種普遍的心理學(xué)特征。
舉例來(lái)說(shuō),如果在你居住的地方,過(guò)去幾年的夏季氣溫都很低,那么你可能會(huì)認(rèn)為夏季氣候正在變得更冷——或者說(shuō)你當(dāng)?shù)氐臍夂蛘谧兝?。但是,你不?yīng)該只根據(jù)少量數(shù)據(jù)分析長(zhǎng)期趨勢(shì)。你需要有一個(gè)長(zhǎng)遠(yuǎn)視角,才能認(rèn)識(shí)真正有意義的氣候趨勢(shì)。短時(shí)期內(nèi),最好不進(jìn)行任何猜測(cè)。不過(guò),我們之中又有誰(shuí)能真正做到這點(diǎn)呢?
短期分析不僅不扎實(shí)、毫無(wú)益處,還會(huì)產(chǎn)生誤導(dǎo)
現(xiàn)實(shí)生活中大部分復(fù)雜事物的現(xiàn)象正是如此:股票市場(chǎng)、經(jīng)濟(jì)發(fā)展、企業(yè)的成功與失敗、戰(zhàn)爭(zhēng)與和平、國(guó)家關(guān)系、帝國(guó)的崛起和衰落等等。短期分析不僅不扎實(shí)、毫無(wú)益處,還會(huì)產(chǎn)生誤導(dǎo)?;仡^看看,就在2009年全球金融危機(jī)襲來(lái)的時(shí)候,還有那么多經(jīng)濟(jì)學(xué)家信誓旦旦地宣稱這一事件不會(huì)發(fā)生。認(rèn)為根據(jù)那種短期時(shí)間尺度的數(shù)據(jù)就能做出扎實(shí)的預(yù)測(cè),這種想法本身就有很大的問(wèn)題。
我們還應(yīng)當(dāng)記住,在決定哪些數(shù)據(jù)該保存還是刪除的時(shí)候,新穎性往往會(huì)成為主要的考慮因素。舊的淘汰,新的進(jìn)來(lái),在這個(gè)搜索算法本質(zhì)上偏向于新鮮事物的數(shù)字世界中,這是一個(gè)明顯的趨勢(shì)。從最高法院的裁決,到所有社交媒體服務(wù)平臺(tái),我們到處都可以看到已經(jīng)失效的網(wǎng)址。我們身邊的幾乎所有技術(shù)都偏向于當(dāng)前信息,人也一樣:大多數(shù)人已經(jīng)習(xí)慣用個(gè)四五年就把原本光鮮亮麗的設(shè)備丟掉。
怎么辦?這個(gè)問(wèn)題已經(jīng)不僅僅在于如何更好保存舊數(shù)據(jù)的范疇——盡管這并不是個(gè)壞主意,想想我們現(xiàn)在還有什么東西能流行保留10年之久。更重要的是,這個(gè)問(wèn)題關(guān)系到確定哪些東西值得優(yōu)先保存,以及如何在知識(shí)的名義下,選擇哪些信息最有意義
或許我們需要的是我所稱之為的“智能性遺忘”:應(yīng)該讓我們的工具更多地放棄最近的信息,從而在長(zhǎng)遠(yuǎn)視角上保持更高水平的連續(xù)性。這有點(diǎn)象是以數(shù)學(xué)方法重新整理一本影集。什么時(shí)候兩百萬(wàn)張照片的價(jià)值比兩千張照片更低?什么時(shí)候較大的樣本量覆蓋范圍反而較???哪些問(wèn)題的重要性較低?哪個(gè)細(xì)節(jié)水平能提供有用的質(zhì)疑證據(jù),而不是虛假的信心?
許多數(shù)據(jù)集是無(wú)法縮減的,只有在完整的情況下才最寶貴,比如,基因序列、人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、地理和物理學(xué)的原始觀測(cè)數(shù)據(jù)等等。數(shù)據(jù)的科學(xué)性越弱,數(shù)據(jù)規(guī)模與數(shù)據(jù)的質(zhì)量就越可能呈現(xiàn)負(fù)相關(guān),此時(shí)時(shí)間本身就成為更加重要的過(guò)濾工具。我們?nèi)绻蛔屑?xì)選擇過(guò)去保存下來(lái)的有價(jià)值、有意義的事物,它們就會(huì)被迅速膨脹的信息洪流悄無(wú)聲息地吞沒(méi)掉。
能否考察長(zhǎng)期歷史遺留下來(lái)的數(shù)據(jù)取決于考察者是否有足夠的時(shí)間和注意力。今天的企業(yè)、個(gè)人和政府機(jī)構(gòu)都能夠獲得比以往(甚至就在幾年前)大許多數(shù)量級(jí)的數(shù)據(jù),但是董事會(huì)成員、首席執(zhí)行官、政府官員等決策者卻沒(méi)有足夠時(shí)間和注意力來(lái)應(yīng)對(duì)這些數(shù)據(jù)。
今天的決策者們有越來(lái)越高效的工具幫助他們就所持有的數(shù)據(jù)提出問(wèn)題——但你只應(yīng)該分析有意義的數(shù)據(jù)。單純的數(shù)量累積不是一個(gè)好的對(duì)策。在一個(gè)數(shù)據(jù)量越來(lái)越大的時(shí)代,如何選擇主動(dòng)放棄哪些事情,與選擇做什么事情一樣重要。