看到這樣一個(gè)題目,也許有人會(huì)說,時(shí)至今日,這還用說嗎?但寫下這個(gè)題目,恰恰是因?yàn)樵诖髷?shù)據(jù)日益受關(guān)注,應(yīng)用大數(shù)據(jù)逐漸由企業(yè)和研究機(jī)構(gòu)的個(gè)體行為拓展到國(guó)家戰(zhàn)略層面的背景下,也一直有一些不同的聲音不絕于耳。
我曾在京城某著名媒體上看到一篇寓言,說是一只小豬出生在豬圈里,每天總是看到一些兩條腿的動(dòng)物來給它們喂各種吃的。高興的時(shí)候,它就在泥里打滾;憂傷的時(shí)候,它就趴在那里看夕陽西下。經(jīng)過對(duì)幾百天的大數(shù)據(jù)分析,它認(rèn)為未來的日子也一定是這樣的。終于,一場(chǎng)血腥的殺戮結(jié)束了它的大數(shù)據(jù)分析。臨死的時(shí)候它說了一句話:大數(shù)據(jù)都是騙人的。
去年年底,在一次大數(shù)據(jù)國(guó)際研討會(huì)上,也有外國(guó)專家提出,大數(shù)據(jù)可能也是一個(gè)大陷阱。這個(gè)結(jié)論,與上面那個(gè)寓言或有異曲同工之味道。而最近,一位知名的社會(huì)學(xué)學(xué)者,寫了一篇頗有影響的文章,批判“大數(shù)據(jù)崇拜”,認(rèn)為“所謂的大數(shù)據(jù),其實(shí)只不過就是一堆垃圾,只有社會(huì)研究和人文研究,才可能把它變廢為寶”。
當(dāng)然,無論從學(xué)術(shù)的角度還是從娛樂的角度,對(duì)大數(shù)據(jù)這樣一個(gè)新事物都是可以仁者見仁、智者見智的。但這些對(duì)大數(shù)據(jù)的非議至少有一個(gè)共性或特點(diǎn),就是對(duì)大數(shù)據(jù)的研究成果只有相對(duì)較少的了解,甚至有一些誤解。恰如今年早些時(shí)候《中國(guó)青年報(bào)》的一項(xiàng)調(diào)查結(jié)果所示,既有4/5的受訪者認(rèn)為不清楚什么是大數(shù)據(jù),又有3/4的受訪者認(rèn)為存在大數(shù)據(jù)被濫用的情況,且還有超過2/5的受訪者認(rèn)為大數(shù)據(jù)有分析價(jià)值。這個(gè)結(jié)果真實(shí)地反映了人們對(duì)大數(shù)據(jù)認(rèn)識(shí)的現(xiàn)狀。一方面并不了解,一方面卻作出自己的評(píng)判。
而認(rèn)可也好反對(duì)也罷,總應(yīng)該把現(xiàn)有的成果作一些全面深入的梳理研究后再下結(jié)論。各方對(duì)大數(shù)據(jù)的表述固然各有側(cè)重,但實(shí)質(zhì)上大同小異,要強(qiáng)調(diào)的主要就是三點(diǎn):第一,應(yīng)該是電子化的數(shù)據(jù);第二,應(yīng)該是太字節(jié)到拍字節(jié)的大型數(shù)據(jù)集;第三,應(yīng)該是數(shù)據(jù)及其處理技術(shù)手段的集成。從特性上看,其應(yīng)該具有數(shù)據(jù)體量大、類型多樣化、處理速度快、應(yīng)用價(jià)值大、發(fā)送方式靈活等諸多特點(diǎn)。由此來看,那些只有幾個(gè)、十幾個(gè)、幾十個(gè)、幾百個(gè)乃至更多一些樣本或由全樣本構(gòu)成的總體,無論是電子化還是非電子化數(shù)據(jù),真的與我們要觀察要應(yīng)用要開發(fā)要研究的大數(shù)據(jù)差之甚遠(yuǎn)。
而我們統(tǒng)計(jì)工作者研究問題,是需要把邊界劃分清楚的?;谝酝难芯亢徒y(tǒng)計(jì)工作的需求,我們把大數(shù)據(jù)作了兩種劃分。從存在形式上看,就是可以用二維表顯示的結(jié)構(gòu)化數(shù)據(jù)和文字、圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù);從數(shù)據(jù)來源看,就是行政記錄、企業(yè)單位經(jīng)營(yíng)記錄和互聯(lián)網(wǎng)信息。如此,大數(shù)據(jù)一定是一座大寶庫(kù)。它的價(jià)值不僅客觀存在,而且還在不斷產(chǎn)生著,也在不斷地流失著。而對(duì)統(tǒng)計(jì)工作而言,首先要解決的不是去尋找“啤酒與尿布”之類的所謂關(guān)聯(lián),而是要將其作為數(shù)據(jù)源的第二軌。因?yàn)樵诨诖髷?shù)據(jù)生成的基礎(chǔ)數(shù)據(jù)越來越多、比重越來越大的背景下,僅采取傳統(tǒng)方式搜集傳統(tǒng)數(shù)據(jù),統(tǒng)計(jì)數(shù)據(jù)就有失真的危險(xiǎn)。在此基礎(chǔ)上,無論是社會(huì)研究、人文研究或經(jīng)濟(jì)研究,都一定是大有可為的。我曾經(jīng)在12年前研究過北京的非典數(shù)據(jù)庫(kù)。但那些有限的數(shù)據(jù)都是在病人確診前后,依據(jù)其口述內(nèi)容生成的。如果有包括這些病人在內(nèi)的龐大的個(gè)人電子就診記錄,一定可以從中發(fā)現(xiàn)很多有價(jià)值的信息。
所謂“大數(shù)據(jù)崇拜”與所謂“GDP崇拜”一樣,或許是一個(gè)偽命題。因?yàn)樗^崇拜,一定含有某種神話的味道。而片面追求GDP,只是錯(cuò)誤政績(jī)觀所致。至于大數(shù)據(jù),有識(shí)之士只是強(qiáng)調(diào)了其重要性而已。正因?yàn)橹匾?,美?guó)總統(tǒng)行政辦公室于2014年5月發(fā)布政策報(bào)告,題目就叫《大數(shù)據(jù):抓住機(jī)遇,保存價(jià)值》。正因?yàn)橹匾?,?guó)務(wù)院常務(wù)會(huì)議8月19日通過了《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》,并提出了運(yùn)用大數(shù)據(jù)各部委行動(dòng)時(shí)間表。大數(shù)據(jù)是一座大寶庫(kù),我們真的不要讓這座寶庫(kù)的價(jià)值再白白地流失掉。