大數(shù)據(jù):泛濫信息中的預(yù)測(cè)性

責(zé)任編輯:editor004

2017-09-08 12:24:40

摘自:中國(guó)經(jīng)濟(jì)網(wǎng)

所有可計(jì)算的都要計(jì)算,所有可測(cè)量的都要測(cè)量,對(duì)那些不可測(cè)量的,要想辦法讓其變得可測(cè)量。數(shù)據(jù)觀測(cè)技術(shù)就是現(xiàn)代的顯微鏡。”但與用顯微鏡來(lái)觀測(cè)細(xì)小事物不同,我們通過(guò)數(shù)據(jù)觀測(cè)來(lái)看清此前人類(lèi)無(wú)法統(tǒng)觀的宏大圖景。

  信息革命:讓一切事物都數(shù)據(jù)化

所有可計(jì)算的都要計(jì)算,所有可測(cè)量的都要測(cè)量,對(duì)那些不可測(cè)量的,要想辦法讓其變得可測(cè)量。

——伽利略

某些歷史學(xué)家稱,人類(lèi)正在經(jīng)歷農(nóng)業(yè)革命和工業(yè)革命后的第三次革命,即信息革命。IBM著名預(yù)測(cè)分析科學(xué)家科林·席勒形象地表示,信息革命的關(guān)鍵就是“讓一切事物都數(shù)據(jù)化”。在信息時(shí)代,你所做的每個(gè)在線甚至線下動(dòng)作都會(huì)被記錄再案,無(wú)論是商業(yè)交易、訪問(wèn)網(wǎng)站、點(diǎn)擊鏈接、觀看電影、給朋友打電話……都會(huì)被有記錄。每天,你的四周都充斥著信息傳遞裝置。移動(dòng)終端、自動(dòng)機(jī)器以及海運(yùn)集裝箱,它們會(huì)記錄位移信息、交互作用、庫(kù)存盤(pán)點(diǎn)以及輻射水平。 個(gè)人健康系統(tǒng)會(huì)記錄你的脈搏以及日常鍛煉情況。現(xiàn)在,大量的桌面應(yīng)用程序都更新為“云計(jì)算”,這使得你在電腦上的每一步操作都被記錄下來(lái)。

數(shù)據(jù)中蘊(yùn)含著人類(lèi)行為的基本信息。誠(chéng)然,數(shù)字編碼從深度和廣度上完全捕捉人類(lèi)經(jīng)驗(yàn),但這并不是問(wèn)題。企業(yè)會(huì)記錄那些與其經(jīng)驗(yàn)緊密相關(guān)的人類(lèi)行為,因此盡管了解人類(lèi)日常生活是一項(xiàng)艱巨的任務(wù),但企業(yè)界早已率先為預(yù)測(cè)分析提供了寶貴的原始素材,那就是:從無(wú)窮復(fù)雜的日常生活中總結(jié)規(guī)律,然后確定生活中哪些細(xì)節(jié)最顯著。

世界打開(kāi)了一個(gè)全新的窗口。美國(guó)麻省理工學(xué)院的經(jīng)濟(jì)學(xué)家埃里克·布林約爾松教授將這種對(duì)人類(lèi)行為的大規(guī)模記錄、觀察與歷史上另一種具有劃時(shí)代意義的觀測(cè)工具的問(wèn)世聯(lián)系在一起,“幾百年前,人類(lèi)發(fā)明了顯微鏡,由此可以觀測(cè)此前從來(lái)不能看到的細(xì)胞層面的活動(dòng)”?!都~約時(shí)報(bào)》這樣解釋布林約爾松教授的觀點(diǎn)。“這是觀測(cè)史上的革命。數(shù)據(jù)觀測(cè)技術(shù)就是現(xiàn)代的顯微鏡。”但與用顯微鏡來(lái)觀測(cè)細(xì)小事物不同,我們通過(guò)數(shù)據(jù)觀測(cè)來(lái)看清此前人類(lèi)無(wú)法統(tǒng)觀的宏大圖景。

數(shù)據(jù)泛濫

現(xiàn)在,世界上的照片數(shù)量超過(guò)了板磚數(shù)量。

——現(xiàn)代藝術(shù)博物館攝影部主任約翰·薩科夫斯基,1976年

現(xiàn)在,YouTube上每秒鐘都會(huì)有1小時(shí)的視頻內(nèi)容上傳,而萬(wàn)維網(wǎng)目前預(yù)計(jì)有83.2億個(gè)網(wǎng)頁(yè)。 每小時(shí)都有數(shù)百個(gè)網(wǎng)絡(luò)交易?,F(xiàn)在,世界上每小時(shí)拍攝的照片都要超過(guò)照相技術(shù)發(fā)明之后100年內(nèi)的照片數(shù)量總和,每?jī)煞昼娕牡恼掌瑪?shù)量要超過(guò)19世紀(jì)所拍攝的照片數(shù)量總和;每天, Facebook上都有超過(guò)2億張照片上傳。飛秒攝影技術(shù)每秒鐘可拍攝數(shù)萬(wàn)億張圖片,以記錄這個(gè)世界(有關(guān)每個(gè)例子的出處,請(qǐng)登錄網(wǎng)站www.PredictiveNotes.com)。捕捉用戶數(shù)據(jù)的移動(dòng)設(shè)備超過(guò)70億臺(tái)。每秒鐘有超過(guò) 100 個(gè)裝置接入互聯(lián)網(wǎng),而且這個(gè)數(shù)字還在增長(zhǎng)。 思科預(yù)測(cè),到2020年,“萬(wàn)聯(lián)網(wǎng)”(Internetof Everything)會(huì)連接500億個(gè)裝置。

總而言之,數(shù)據(jù)正在以難以想象的速度膨脹,現(xiàn)在每天新產(chǎn)生的數(shù)據(jù)量高達(dá) 2.5 個(gè)艾字節(jié)。 一個(gè)艾字節(jié)是1后面加18個(gè)0。1986年,如果把電腦里儲(chǔ)存的所有數(shù)據(jù)雙面打印出來(lái),其面積將足以覆蓋地球陸地表面這種增長(zhǎng)是呈幾何級(jí)的,現(xiàn)在,數(shù)據(jù)總量每三年就會(huì)翻一番。

你應(yīng)該承認(rèn),現(xiàn)在,大數(shù)據(jù)最具權(quán)威性。在每篇新聞報(bào)道中,在每次科學(xué)演示中,在每個(gè)分析解決方案的廣告詞中,大數(shù)據(jù)都是關(guān)鍵詞。這是危機(jī),是機(jī)遇,是機(jī)遇的危機(jī),危機(jī)的機(jī)遇!

大數(shù)據(jù)不是真實(shí)的存在。數(shù)據(jù)最激動(dòng)人心的不是其數(shù)量,而是其增長(zhǎng)速度。我們會(huì)永遠(yuǎn)敬畏數(shù)據(jù)的龐大數(shù)量,因?yàn)橛幸稽c(diǎn)永遠(yuǎn)不會(huì)變,那就是:今天的數(shù)據(jù)必然比昨天多。規(guī)模是相對(duì)的,而不是絕對(duì)的。如果我們今天使用“大”,那么很快,我們的形容詞就會(huì)不夠用了:“大數(shù)據(jù)”、“更大數(shù)據(jù)”、“再大數(shù)據(jù)” 以及“最大數(shù)據(jù)”。其實(shí),早在 1975 年,一個(gè)名為“國(guó)際超大型數(shù)據(jù)庫(kù)大會(huì)” 的組織就已成立。在海量數(shù)據(jù)面前,我們的詞匯量顯得如此匱乏。

那么,接下來(lái)的問(wèn)題是,我們要如何處理這些數(shù)據(jù)才能獲得最大的價(jià)值?

數(shù)據(jù)效應(yīng):數(shù)據(jù)天生具有預(yù)測(cè)性

小腿骨連著膝蓋骨

膝蓋骨連著大腿骨

大腿骨連著你的骨盆

——《小骨頭之歌》歌詞

數(shù)據(jù)簡(jiǎn)直鋪天蓋地,但這又如何?誰(shuí)又能保證這堆企業(yè)機(jī)構(gòu)經(jīng)營(yíng)的副產(chǎn)品能創(chuàng)造價(jià)值呢?這些只不過(guò)是無(wú)窮無(wú)盡的記錄列表,是對(duì)過(guò)去發(fā)生的事物進(jìn)行的強(qiáng)迫性的記憶堆積。

世上萬(wàn)物均有關(guān)聯(lián),只不過(guò)有些是間接關(guān)系,這在數(shù)據(jù)中也有所反映。例如:

? 你的購(gòu)買(mǎi)行為與你的消費(fèi)歷史、 在線習(xí)慣、 支付方式以及社會(huì)交往人群相關(guān)。 數(shù)據(jù)能從這些因素中預(yù)測(cè)出消費(fèi)者的行為。

? 你的身體健康狀況與選擇和環(huán)境有關(guān), 因此數(shù)據(jù)能通過(guò)小區(qū)以及家庭規(guī)模等信息來(lái)預(yù)測(cè)你的健康狀態(tài)。

? 你對(duì)工作的滿意程度與你的工資水平、 表現(xiàn)評(píng)定以及升職情況相關(guān), 而數(shù)據(jù)能反映這些現(xiàn)實(shí)。

? 經(jīng)濟(jì)行為與人類(lèi)情感相關(guān), 正如下文所述, 數(shù)據(jù)也將反映這種關(guān)系。

預(yù)測(cè)常常從小處入手。預(yù)測(cè)分析是從預(yù)測(cè)變量開(kāi)始的,這是對(duì)個(gè)人單一值的評(píng)測(cè)。近期性就是一個(gè)常見(jiàn)的變量,表示某人最近一次購(gòu)物、最近一次犯罪或最近一次發(fā)病到現(xiàn)在的時(shí)間,越接近現(xiàn)在,觀察對(duì)象再次采取行動(dòng)的概率就越高。許多模型的應(yīng)用都是從近期表現(xiàn)最活躍的人群開(kāi)始的,無(wú)論是試圖建立聯(lián)系、開(kāi)展犯罪調(diào)查還是進(jìn)行醫(yī)療診斷。

與此相似,頻率—描述某人做出相同行為的次數(shù)也是常見(jiàn)且富有成效的指標(biāo)。如果有人此前經(jīng)常做某事,那么他再次做這件事的概率就會(huì)很高。實(shí)際上,預(yù)測(cè)就是根據(jù)人的過(guò)去行為來(lái)預(yù)見(jiàn)其未來(lái)行為。因此,預(yù)測(cè)分析模型不僅要靠那些枯燥的基本人口數(shù)據(jù),例如住址、性別等,也要涵蓋近期性、頻率、購(gòu)買(mǎi)行為、經(jīng)濟(jì)行為以及電話和上網(wǎng)等產(chǎn)品使用習(xí)慣之類(lèi)的行為預(yù)測(cè)變量。這些行為通常是最有價(jià)值的,因?yàn)槲覀円A(yù)測(cè)的就是未來(lái)是否還會(huì)出現(xiàn)這些行為,這就是通過(guò)行為來(lái)預(yù)測(cè)行為的過(guò)程。正如哲學(xué)家薩特所言:“人的自我由其行為決定。”

預(yù)測(cè)分析系統(tǒng)會(huì)綜合考慮數(shù)十項(xiàng)甚至數(shù)百項(xiàng)預(yù)測(cè)變量。 你要把個(gè)人的全部已知數(shù)據(jù)都輸入系統(tǒng), 然后等著系統(tǒng)運(yùn)轉(zhuǎn)。系統(tǒng)內(nèi)綜合考量這些因素的核心學(xué)習(xí)技術(shù)正是科學(xué)的魔力所在。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)