我們所做的任何一件事都會(huì)(將會(huì))留下一條可追蹤的數(shù)字軌跡(或稱(chēng)數(shù)據(jù)),而這條軌跡能夠被我們或他人利用和分析,這便是大數(shù)據(jù)存在的前提。
坦白地講,我并不喜歡“大數(shù)據(jù)(Big Data)”這個(gè)詞,聽(tīng)起來(lái)太過(guò)技術(shù)化,又有些空洞,但大數(shù)據(jù)的威力卻是我們無(wú)論如何都無(wú)法忽視的,并將深刻地影響我們每個(gè)人的生活。
我們所做的任何一件事都會(huì)(將會(huì))留下一條可追蹤的數(shù)字軌跡(或稱(chēng)數(shù)據(jù)),而這條軌跡能夠被我們或他人利用和分析,這便是大數(shù)據(jù)存在的前提。通過(guò)捕獲和分析大數(shù)據(jù),我們能夠在短短幾分鐘內(nèi)解密人類(lèi)的DNA,找到治愈癌癥的良藥,精確預(yù)測(cè)人類(lèi)行為,于無(wú)聲中挫敗恐怖襲擊,進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),預(yù)防流行性疾病的發(fā)生等。當(dāng)然,正如多數(shù)新生事物一樣,大數(shù)據(jù)也具有兩面性,既能造福于全人類(lèi),也能帶來(lái)災(zāi)難性的后果。
大數(shù)據(jù)的應(yīng)用與我們抓取分析當(dāng)下產(chǎn)生的數(shù)據(jù)的能力息息相關(guān)。若能全面利用這些龐雜的數(shù)據(jù),我們便可以理解周?chē)氖澜?,以及存在于其中的萬(wàn)事萬(wàn)物。你可能質(zhì)疑:這些內(nèi)容有什么新鮮的嗎?一些公司和機(jī)構(gòu)不是一直在抓取和分析數(shù)據(jù)嗎?的確如此,但有兩個(gè)因素正發(fā)生著質(zhì)的變化,這也是“大數(shù)據(jù)”之所以成為大數(shù)據(jù)的根本原因:
我們生成的新數(shù)據(jù)的體量變得空前龐大——我將其稱(chēng)之為世界的“數(shù)據(jù)化”。
我們分析大量數(shù)據(jù),處理多種復(fù)雜數(shù)據(jù)的能力在近年來(lái)獲得了突飛猛進(jìn)的發(fā)展。
世界的全面數(shù)據(jù)化
所有活動(dòng)和行為(人類(lèi)行為或其他行為)都將會(huì)留下可追蹤的數(shù)字軌跡(這一想法讓人瞬間感到后背發(fā)涼,有種深深的不安):
人與人之間的信息交流越來(lái)越多地留下數(shù)字記錄:我們的郵件存儲(chǔ)在公司的系統(tǒng)中,我們?cè)谏缃幻襟w的狀態(tài)更新被備份存檔,我們的通話被轉(zhuǎn)換成數(shù)據(jù)信息保存起來(lái)。
我們參加的活動(dòng)正越來(lái)越多地被數(shù)據(jù)歸檔:在數(shù)據(jù)化的世界里,我們所做的任何事情幾乎都會(huì)留下一條數(shù)字尾巴。例如,瀏覽器會(huì)記錄我們的搜索和訪問(wèn)歷史,網(wǎng)站會(huì)記錄我們的每一次鼠標(biāo)點(diǎn)擊行為,以及我們何時(shí)購(gòu)買(mǎi)了哪種商品和服務(wù),分享了哪張圖片和文章,對(duì)哪則笑話或視頻點(diǎn)了贊。當(dāng)我們閱讀電子書(shū),聽(tīng)音樂(lè)時(shí),設(shè)備會(huì)記錄我們所閱讀的書(shū)籍,所聽(tīng)的音樂(lè),以及相應(yīng)的頻次,除了收集這些信息,廠商甚至還會(huì)將其共享。當(dāng)我們使用信用卡或儲(chǔ)蓄卡進(jìn)行支付轉(zhuǎn)賬時(shí),這些信息也會(huì)被記錄下來(lái)。
現(xiàn)在,絕大多數(shù)照片和視頻的拍攝和存儲(chǔ)都是數(shù)字化的。想想世界上每天數(shù)以百萬(wàn)小時(shí)計(jì)的監(jiān)控錄像你就會(huì)發(fā)現(xiàn)這個(gè)世界有多么的可怕。此外,我們更加依賴(lài)用手機(jī)和數(shù)碼相機(jī)拍攝視頻和照片,這也就直接導(dǎo)致了Youtube每分鐘上傳的視頻時(shí)長(zhǎng)多大100小時(shí),而Facebook上每分鐘上傳的照片多達(dá)20萬(wàn)張。
智能設(shè)備和各類(lèi)傳感器正在變得無(wú)孔不入,何時(shí)產(chǎn)生了大量的數(shù)據(jù):智能手機(jī)跟蹤監(jiān)測(cè)我們的位置和移動(dòng)的速度,研究人員在海洋中投放傳感器監(jiān)測(cè)溫度和洋流,汽車(chē)內(nèi)有傳感器監(jiān)控我們的駕駛行為,貨物的包裝上也配置了傳感器,用以監(jiān)測(cè)貨物在供應(yīng)鏈中的運(yùn)輸狀態(tài)。智能手表、Google Glass以及電子計(jì)步器都在記錄和收集數(shù)據(jù)。越來(lái)越多的設(shè)備開(kāi)始接入互聯(lián)網(wǎng),從而進(jìn)行數(shù)據(jù)的收集和共享。智能電視和各類(lèi)電視盒子能夠跟蹤監(jiān)測(cè)你正在觀看的節(jié)目,觀看的時(shí)長(zhǎng),甚至監(jiān)測(cè)電視前坐了幾個(gè)觀眾。
讀到這里,你可能已經(jīng)大致明白什么是大數(shù)據(jù)了。而對(duì)于呈指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)量,Google的CEO施密特給出了形象具體的說(shuō)明:“從人類(lèi)文明的產(chǎn)生到2003年,人類(lèi)產(chǎn)生的總的數(shù)據(jù)量為50億GB,而現(xiàn)在,人類(lèi)兩天便能夠產(chǎn)生這么多的數(shù)據(jù)??此外,數(shù)據(jù)的生產(chǎn)速度還在不斷加快。”
由此可見(jiàn),人類(lèi)所產(chǎn)生的數(shù)據(jù)量已非常人所能想象。另外一件發(fā)生變革的事情是,人類(lèi)已有足夠的技術(shù)能力分析信息多種復(fù)雜的數(shù)據(jù),如通話記錄,視頻和照片信息,以及聊天記錄。這也就是人們常說(shuō)的“大數(shù)據(jù)”的4V:
Volume-數(shù)據(jù)體量巨大。
Velocity-數(shù)據(jù)的產(chǎn)生和傳輸速速極快(信用卡詐騙交易的監(jiān)測(cè)便是一個(gè)很好的例證:銀行等機(jī)構(gòu)實(shí)時(shí)監(jiān)測(cè)數(shù)以百萬(wàn)計(jì)的交易信息,并辨別其中的非常規(guī)交易)。
Variety-數(shù)據(jù)類(lèi)型繁多(金融數(shù)據(jù)、網(wǎng)絡(luò)日志、音頻、視頻、圖片、傳感數(shù)據(jù)、地理位置信息等等)。
Veracity-數(shù)據(jù)的真實(shí)性,價(jià)值密度低如,連續(xù)不間斷視頻監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒)。
人類(lèi)當(dāng)前所擁有的數(shù)據(jù)量遠(yuǎn)多于任何時(shí)代,數(shù)據(jù)的形式也愈發(fā)復(fù)雜多樣,傳播速度更快,數(shù)據(jù)的質(zhì)量和價(jià)值也是參差不齊——這又將對(duì)我們的世界產(chǎn)生怎樣的影響?好在,人類(lèi)已經(jīng)開(kāi)發(fā)出了相應(yīng)的工具,將大體量的數(shù)據(jù)分解成更小的數(shù)據(jù)組,從而運(yùn)用計(jì)算機(jī)集群去分析和處理。下面是一些大數(shù)據(jù)分析的應(yīng)用案例:
FBI正在通過(guò)社交網(wǎng)絡(luò)、攝像探頭、通話和短信記錄追蹤監(jiān)控罪犯,并預(yù)測(cè)下一次恐怖襲擊。
大型超市則將顧客的購(gòu)物卡數(shù)據(jù)和社交網(wǎng)絡(luò)信息相關(guān)聯(lián),進(jìn)而監(jiān)測(cè)和改變用戶(hù)的購(gòu)物模式。例如,零售商可以通過(guò)檢測(cè)女性的購(gòu)物模式,輕易地推測(cè)出她是否懷孕,從而能夠有針對(duì)性地推銷(xiāo)嬰幼兒用品。
Facebook則通過(guò)面部識(shí)別技術(shù),將你上傳的照片和其他人的進(jìn)行比對(duì),辨別出哪些人可能是你的朋友。
政客們通過(guò)對(duì)社交媒體的數(shù)據(jù)進(jìn)行分析,確定自己需要在哪些地區(qū)加強(qiáng)宣傳拉票力度,以贏得下次選舉。
通過(guò)對(duì)棒球和足球比賽視頻和傳感器數(shù)據(jù)的分析,改進(jìn)訓(xùn)練方式和技術(shù),提高運(yùn)動(dòng)員的成績(jī)。例如,你可以購(gòu)買(mǎi)一個(gè)內(nèi)置多達(dá)200個(gè)傳感器的棒球,之后你便能夠好的詳細(xì)的反饋數(shù)據(jù),告訴你該如何提高比賽成績(jī)。
像Lady Gaga等歌手通過(guò)收集用戶(hù)的音樂(lè)偏好和播放列表,從而確定演唱會(huì)的演唱曲目和演唱順序。
Google的無(wú)人駕駛汽車(chē)正是通過(guò)實(shí)時(shí)收集大量的傳感器和攝像頭數(shù)據(jù),確保汽車(chē)的行駛安全。
我們手機(jī)的GPS信息,包括位置和移動(dòng)速度則被用來(lái)實(shí)時(shí)監(jiān)測(cè)交通狀況。
一些公司則通過(guò)監(jiān)測(cè)Facebook和Twitter的用戶(hù)狀態(tài)更新數(shù)據(jù),對(duì)其進(jìn)行情感性分析,進(jìn)而評(píng)估和預(yù)測(cè)產(chǎn)品銷(xiāo)量和品牌價(jià)值。
醫(yī)院的兒科收治了大量的早產(chǎn)兒和嬰幼兒患者,這便會(huì)產(chǎn)生與之相關(guān)的實(shí)時(shí)數(shù)據(jù)信息。通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析,辨識(shí)其中的模式和動(dòng)態(tài),我們能夠在患兒表現(xiàn)出任何癥狀前的24小時(shí)確定感染情況,及早采取預(yù)防和救治措施。
繞不開(kāi)的隱私問(wèn)題
在討論大數(shù)據(jù)時(shí),如果對(duì)隱私問(wèn)題只字不提,那么便是在掩耳盜鈴,自欺欺人。對(duì)于零售商、信用卡公司、搜索服務(wù)提供商、郵件或社交媒體公司在用戶(hù)隱私數(shù)據(jù)的使用上,人們已經(jīng)進(jìn)行了多方探討。此外,隨著棱鏡門(mén)的發(fā)酵和傳播,人們對(duì)于大數(shù)據(jù)愈發(fā)謹(jǐn)慎,關(guān)于隱私問(wèn)題的討論甚囂塵上。這仍然是一個(gè)問(wèn)題,縈繞在每個(gè)人的心頭,就像大數(shù)據(jù)一樣,無(wú)處不在,卻又仿佛無(wú)所在。我們?cè)谙硎艽髷?shù)據(jù)所帶來(lái)的便利的同時(shí),亦須承受其副作用,或許可以用一句流行語(yǔ)來(lái)概括:痛并快樂(lè)著。