去年10月,我們召開(kāi)以大數(shù)據(jù)為主題的科學(xué)討論會(huì)時(shí),有一位代表說(shuō),那么多專家講了一天,連什么是大數(shù)據(jù)的概念都還沒(méi)搞清。我說(shuō)不對(duì)。大家是從不同的角度對(duì)這個(gè)概念進(jìn)行詮釋。如同說(shuō)到“文化”這個(gè)概念,馬上問(wèn)100個(gè)人,難道能夠得出一個(gè)統(tǒng)一的答案嗎?也許100個(gè)人就有100個(gè)答案。但這并不意味著大家對(duì)這個(gè)概念沒(méi)有一種相差無(wú)幾的共識(shí)。同樣,講到精神這個(gè)概念,雖然大家都能理解得八九不離十,但100個(gè)人卻很難給出一個(gè)相同的標(biāo)準(zhǔn)答案。如果沒(méi)有一個(gè)絕對(duì)權(quán)威,像確定“北京精神”那樣,給大數(shù)據(jù)明確一個(gè)獨(dú)一無(wú)二的概念,大家就會(huì)在八九不離十的基礎(chǔ)上依然各自表述、各說(shuō)各話。
我們的研究成果顯示,對(duì)大數(shù)據(jù)現(xiàn)象和概念追根溯源,大致可以分為三個(gè)階段。一是20世紀(jì)80年代至90年代中期,是大數(shù)據(jù)認(rèn)知的萌芽階段。1980年,美國(guó)著名未來(lái)學(xué)家阿爾文·托夫勒在《第三次浪潮》一書(shū)中將大數(shù)據(jù)盛贊為“第三次浪潮的華彩樂(lè)章”。二是20世紀(jì)90年代中期到21世紀(jì)前10年,是大數(shù)據(jù)廣受各界關(guān)注的階段。美國(guó)高德納(Gartner Group)公司的分析師道格拉斯·蘭尼(Douglas Laney)2001年首次從大數(shù)據(jù)的特征的角度對(duì)大數(shù)據(jù)進(jìn)行了相對(duì)明確的定義,強(qiáng)調(diào)大數(shù)據(jù)必須具備3V特征,即容量大、多樣化和速度快。三是2010年至今,是大數(shù)據(jù)戰(zhàn)略應(yīng)用被提上日程并迅速發(fā)展的階段。美國(guó)總統(tǒng)科學(xué)技術(shù)顧問(wèn)委員會(huì)于2010年給奧巴馬總統(tǒng)和國(guó)會(huì)呈報(bào)了題為《規(guī)劃數(shù)字化的未來(lái)》的報(bào)告。麥肯錫公司于2011年發(fā)布了《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》的報(bào)告。2012年更是一個(gè)重要年份。1月,瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇發(fā)布報(bào)告《大數(shù)據(jù) 大影響》;3月,美國(guó)奧巴馬政府頒布了《大數(shù)據(jù)的研究和發(fā)展計(jì)劃》;5 月,聯(lián)合國(guó)秘書(shū)長(zhǎng)執(zhí)行辦公室發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》的報(bào)告;6月,經(jīng)合組織OECD統(tǒng)計(jì)委員會(huì)第9屆會(huì)議發(fā)布《使用大數(shù)據(jù)作決策》研究報(bào)告。2013年則可以稱為中國(guó)統(tǒng)計(jì)的大數(shù)據(jù)元年。7月,“大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué):機(jī)遇與挑戰(zhàn)——中國(guó)統(tǒng)計(jì)學(xué)高端論壇”在上海財(cái)經(jīng)大學(xué)舉辦;10月,主題為“大數(shù)據(jù)背景下的統(tǒng)計(jì)”的第十七次全國(guó)統(tǒng)計(jì)科學(xué)討論會(huì)在杭州舉行;11月,國(guó)家統(tǒng)計(jì)局與阿里、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。
什么是大數(shù)據(jù)?麥肯錫報(bào)告的定義是,“大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具的抓取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)群”。維基百科(Wikipedia)的表述是,“大數(shù)據(jù)是難以用現(xiàn)有的數(shù)據(jù)庫(kù)管理工具處理的兼具海量特征和復(fù)雜性特征的數(shù)據(jù)集成。”涂子沛將大數(shù)據(jù)定義為那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、存儲(chǔ)、管理和分析的數(shù)據(jù),認(rèn)為一般應(yīng)該是“太字節(jié)”的數(shù)量級(jí)。阿里創(chuàng)始人馬云則說(shuō),大數(shù)據(jù)就是一種服務(wù)。而我們的同仁在研究中提出:大數(shù)據(jù)是指采用多種數(shù)據(jù)收集方式,匯集不同數(shù)據(jù)源,通過(guò)采用現(xiàn)代信息技術(shù)和架構(gòu)能夠高速分析處理的、具有高度應(yīng)用價(jià)值和決策支持功能的多種類(lèi)型數(shù)據(jù)及其技術(shù)集成。
從存在形態(tài)看:大數(shù)據(jù)分為可以用二維表反映的結(jié)構(gòu)化數(shù)據(jù)和不能以二維表反映的非結(jié)構(gòu)化數(shù)據(jù),如音頻、視頻、圖片等。從數(shù)據(jù)來(lái)源看:大數(shù)據(jù)可分為行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、互聯(lián)網(wǎng)及搜索引擎數(shù)據(jù)三大類(lèi)。行政記錄數(shù)據(jù)包括個(gè)人信息記錄數(shù)據(jù),單位信息記錄數(shù)據(jù)和自然和資源記錄數(shù)據(jù)等;商業(yè)記錄數(shù)據(jù)包括電子商務(wù)交易數(shù)據(jù),企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)和信息咨詢報(bào)告數(shù)據(jù)等;互聯(lián)網(wǎng)數(shù)據(jù)則包括搜索引擎數(shù)據(jù),新聞媒體數(shù)據(jù)和社交平臺(tái)數(shù)據(jù)等。而大數(shù)據(jù)的特征,從最初的3V已經(jīng)被歸納為6V加1C。即數(shù)據(jù)體量大(Volume),類(lèi)型多樣化(Variety),處理速度快(Velocity),應(yīng)用價(jià)值大(Value),數(shù)據(jù)獲取與發(fā)送的方式自由靈活(Vender),準(zhǔn)確性(veracity)和處理和分析難度非常大(Complexity)。
相對(duì)于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)多是自動(dòng)化或半自動(dòng)化生成;數(shù)據(jù)的搜集、處理、存儲(chǔ)和分析能力都已極大提高;數(shù)據(jù)主體和來(lái)源日趨多元化;非結(jié)構(gòu)化數(shù)據(jù)占絕大多數(shù);需要大量過(guò)濾才能提取有用價(jià)值;隱私與安全也存在著巨大隱患。