從大數(shù)據(jù)危機到全數(shù)據(jù)革命

責任編輯:editor005

作者:王馥芳

2015-03-25 13:53:39

摘自:中國社會科學報

2014年3月,《科學》雜志在“政策論壇”欄目發(fā)表了Laser等人的一篇題為《谷歌流感寓言:大數(shù)據(jù)分析陷阱》的論文,引起了人們對大數(shù)據(jù)的警惕。前者的結(jié)論基于與流感相關(guān)的大數(shù)據(jù)搜索得出,而后者的數(shù)據(jù)依據(jù)對全美各個實驗室的流感監(jiān)控報告得出。

大數(shù)據(jù)

2014年3月,《科學》雜志在“政策論壇”欄目發(fā)表了Laser等人的一篇題為《谷歌流感寓言:大數(shù)據(jù)分析陷阱》的論文,引起了人們對大數(shù)據(jù)的警惕。論文作者援引2013年2月《自然》雜志發(fā)表的一篇論文所提供的數(shù)據(jù)指出,谷歌所預測的有關(guān)流感類疾病的就醫(yī)比例,是美國疾病防控中心所獲得的數(shù)據(jù)的兩倍多。前者的結(jié)論基于與流感相關(guān)的大數(shù)據(jù)搜索得出,而后者的數(shù)據(jù)依據(jù)對全美各個實驗室的流感監(jiān)控報告得出。

谷歌流感趨勢預測失真的事實讓學者們開始思考這樣一個問題:鑒于這是對大數(shù)據(jù)的補充性使用,我們到底可以從這個預測錯誤中得到什么教訓?Laser 等人得出的結(jié)論是:盡管搜索或者社會媒體等提供的數(shù)據(jù)可以被用于預測,但是,大數(shù)據(jù)遠未到完全取代傳統(tǒng)方法、假設(shè)或者理論的時候。

“不可重復性”危機

Laser等人認為,造成谷歌流感趨勢預測失真的兩個重要因素是數(shù)據(jù)自大(data hubris)和搜索運算動態(tài)性(algorithm dynamics)。數(shù)據(jù)自大是指:大數(shù)據(jù)不僅僅是補充性的,而且可以完全替代傳統(tǒng)的數(shù)據(jù)采集和分析方法。搜索運算動態(tài)性是指:數(shù)據(jù)運營商為支持其商業(yè)模式、改善其服務(wù)質(zhì)量、適應(yīng)用戶行為的改變將對搜索運算方法產(chǎn)生各種影響。以谷歌流感趨勢預測為例,因其致力于不斷地測試和改善搜索體驗,故搜索運算方法一直在變,而這不僅是谷歌眾多工程師反復決策的結(jié)果,同時也是其分布在世界各地的數(shù)以億計的客戶的搜索行為所致,并最終影響其預測結(jié)果。每一次數(shù)據(jù)運算收集和運算方式的改變,都在影響數(shù)據(jù)生成和收集的連貫性。另外,一些有影響力的搜索主體,還會試圖通過操控數(shù)據(jù)生成過程的方式來達到自己獲取經(jīng)濟、政治或者社會收益的目的。如此,數(shù)據(jù)生成和收集之間將出現(xiàn)斷裂。

搜索運算動態(tài)性因此可能導致大數(shù)據(jù)研究的“不可重復性”危機??芍貜托允侵缚茖W研究被重復實施時得到的結(jié)論與原研究結(jié)論之間的一致性程度,它是科學與非科學的分界線。目前,幾乎所有的大數(shù)據(jù)研究都面臨“不可重復性”危機。數(shù)據(jù)搜索方式的頻繁改變,使人們無法獲取連貫的大數(shù)據(jù)。這使其研究不可被證偽,因此有效性大打折扣。

大數(shù)據(jù)的“不完全代表性”

大數(shù)據(jù)所面臨的另外一個挑戰(zhàn)是,其本質(zhì)上具有“不完全代表性”。社會各界對于“大數(shù)據(jù)”的一個較為廣泛的看法是:數(shù)據(jù)量越大越好。但這并非絕對。事實上,大數(shù)據(jù)的價值在很大程度上取決于其連貫性與代表性。

大數(shù)據(jù)概念的提出,使得所有依靠傳統(tǒng)方式收集到的數(shù)據(jù)變成了“小數(shù)據(jù)”。但受制于數(shù)據(jù)生成、收集、遴選和加工等因素的局限性,所有數(shù)據(jù)本質(zhì)上都受到 “不完全代表性”的困擾。作為“小數(shù)據(jù)”的范例樣本,語料庫的“不完全代表性”屢屢受到學術(shù)界詬病。語料的收集實際上就是對其的有原則選擇,而選擇總是意味著喪失一些重要信息。如此一來,語料庫總是有局限性。

必須指出的是,大數(shù)據(jù)本質(zhì)上也是“不完全代表性”的。這主要體現(xiàn)在以下四個方面。

其一,大數(shù)據(jù)在很大程度上是外部事件驅(qū)動以及數(shù)據(jù)服務(wù)商商業(yè)模式主導的結(jié)果。大數(shù)據(jù)的代表性與用戶搜索行為的代表性密切相關(guān)。但是,現(xiàn)在用戶的搜索行為在很多時候都受到外部事件驅(qū)動。Laser等人觀察到,不僅如此,服務(wù)商還會根據(jù)各自的商業(yè)模式有意識地對用戶的搜索行為進行誘導。

其二,大數(shù)據(jù)有可能受到數(shù)據(jù)運營商的操縱。在大數(shù)據(jù)產(chǎn)業(yè)鏈上,一個公開的秘密是,數(shù)據(jù)運營商時刻都在利用各種軟件監(jiān)控網(wǎng)民的搜索行為和習慣。這種監(jiān)控越成功,用戶的搜索行為越受到操控,最終得到的大數(shù)據(jù)也就越缺乏代表性。

其三,大數(shù)據(jù)在某些情況下可能只是諸多無效信息的無度膨脹。大數(shù)據(jù)所收集到的海量信息,很可能都是人類各種轉(zhuǎn)瞬即逝行為的碎片或痕跡,而后者只是各種外部因素和內(nèi)部因素,如情緒、欲望、從眾效應(yīng)等合力作用的結(jié)果,在很大程度上可能與用戶的基本行為模式或者價值體系背離。

其四,真正有價值的數(shù)據(jù)是認知無意識數(shù)據(jù),但限于目前的大數(shù)據(jù)挖掘技術(shù),這部分數(shù)據(jù)仍不可能被挖掘出來。甚至在將來的很長一段時間內(nèi),我們也還沒有能力挖掘人類認知無意識活動的技術(shù)性留痕。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號