大數(shù)據(jù)可能是近一年來最時髦的詞了,大數(shù)據(jù)真正的本質(zhì)不在于“大”,而是在于背后跟互聯(lián)網(wǎng)相通的一整套新的思維。大數(shù)據(jù)跟傳統(tǒng)的數(shù)據(jù)最大的差別在哪呢?
1.在線。首先大數(shù)據(jù)必須是永遠(yuǎn)是在線的,而且在線的還得是熱備份的,不是冷備份的,不是放在磁帶里的,是隨時能調(diào)用的。不在線的數(shù)據(jù)不是大數(shù)據(jù),因為你根本沒時間把它導(dǎo)出來使用。只有在線的數(shù)據(jù)才能馬上被計算、被使用。
2.實時。大數(shù)據(jù)必須實時反應(yīng)。我們上淘寶輸入一個商品,后臺必須在10億件商品當(dāng)中,瞬間進(jìn)行呈現(xiàn)。如果要等一個小時才呈現(xiàn)話,我相信沒有人再上淘寶。十億件商品、幾百萬個賣家、一億的消費(fèi)者,瞬間完成匹配呈現(xiàn),這才叫大數(shù)據(jù)。
3.全貌。大數(shù)據(jù)還有一個最大的特征,它不再是樣本思維,它是一個全體思維。以前一提到數(shù)據(jù),人們第一個反應(yīng)是樣本、抽樣,但是大數(shù)據(jù)不再抽樣,不再調(diào)用部分,我們要的是所有可能的數(shù)據(jù),它是一個全貌。其實叫全數(shù)據(jù)比大數(shù)據(jù)更準(zhǔn)確。
這是大數(shù)據(jù)的三個本質(zhì),在線、實時、全貌。
大數(shù)據(jù)的3個典型特征
為了讓大家對大數(shù)據(jù)有更多的理解,我再把它展開跟大家討論一下。大家做企業(yè),最容易想到的兩個數(shù)據(jù)應(yīng)用,一個是市場調(diào)研,派個市場公司或市場部門做一個調(diào)查,去看下各公司什么反饋。第二個就是商業(yè)智能BI、數(shù)據(jù)挖掘,查看數(shù)據(jù)經(jīng)營的報表。這是最傳統(tǒng)的兩個數(shù)據(jù)應(yīng)用。這樣的數(shù)據(jù)應(yīng)用有幾個典型特征:
1.要知道準(zhǔn)備達(dá)成的目標(biāo),從而主動收集這些數(shù)據(jù)。由于每個企業(yè)的計算能力跟成本不一樣,數(shù)據(jù)數(shù)據(jù)保留多少時間、哪些數(shù)據(jù)能用,是有所不同的。而大數(shù)據(jù)是實時的記錄數(shù)據(jù)。原則上,任何人上任何一個網(wǎng)站、做的任何事情,所有事情都會被記錄下來,沒有人事先做區(qū)分。所以大家不再去問,是數(shù)據(jù)就記錄下來,所以這是第一個差別。
2.參與的人不再是有意識的參與,而是無意識的參與,你是為自己的利益在做事情。你用一次搜索,你就參與了谷歌的大數(shù)據(jù)搜集,因為你的每次點擊就是一個數(shù)據(jù)來源。如果讓你參加一個市場調(diào)研,80%的情況下你會拒絕,15%的情況下你可能會要求某種意義上的補(bǔ)償。很少有人愿意主動的參加市場調(diào)研,因為對你來說是個負(fù)擔(dān)。但是線上的大數(shù)據(jù)對絕大部分人來說,完全是一個無意識的、自利的行為。我上淘寶就是為了買東西,我上微博是為了看新聞,我上百度是為了搜索,你都是為了自己利益而觸發(fā)的一個無意識的行為,但這個無意識的行為,都為大數(shù)據(jù)做了貢獻(xiàn)。
3.一個是單向,一個是雙向。我們以前做的數(shù)據(jù)分析也好,都是先假定一個目的,然后拿到現(xiàn)成的數(shù)據(jù),分析行為,來測試我的猜測。這些都是有一個單向的主導(dǎo)。大數(shù)據(jù)本質(zhì)上一定是雙向的,就像搜索,你點擊搜索引擎點擊的時候,你是給它輸入了數(shù)據(jù),它給你的結(jié)果就是它與你的互動,就是它帶給你的數(shù)據(jù)價值。這個大數(shù)據(jù)本身也在隨時為你創(chuàng)造價值,這樣的話就變成一個雙向互動的正循環(huán),雙方都給對方貢獻(xiàn)了數(shù)據(jù)價值。任何大數(shù)據(jù)應(yīng)用,如果在設(shè)計時就沒有這種雙向、互利的正循環(huán)的話,是跑不起來的,本質(zhì)上就不是大數(shù)據(jù)。
大數(shù)據(jù)應(yīng)用,反應(yīng)速率才是關(guān)鍵
最后,我還想強(qiáng)調(diào)的是反應(yīng)速率——大數(shù)據(jù)的數(shù)據(jù)價值越大,它的反應(yīng)速率就要越高。比如說谷歌的搜索,你輸入一個關(guān)鍵字看到的結(jié)果,跟一個小時以后再輸入同樣的關(guān)鍵字得到的結(jié)果,很可能已經(jīng)不一樣了。因為它已經(jīng)把一個小時內(nèi)全球所有的點擊重新計算了一遍,然后把信息做了結(jié)果優(yōu)化再反饋給你。