大數(shù)據(jù)時(shí)代要轉(zhuǎn)變的思維:
要分析所有數(shù)據(jù),而不是少量的數(shù)據(jù)樣本要追求數(shù)據(jù)的紛繁復(fù)雜,而不是精確性要關(guān)注事物的相關(guān)關(guān)系,而不是因果關(guān)系1. 分析所有數(shù)據(jù),而非少量數(shù)據(jù)
至今為止,人們搜集數(shù)據(jù)的能力有限,因此采用的是“隨機(jī)采樣分析”。
例如,要想知道中國(guó)顧客都聯(lián)想筆記本的滿意度,不可能對(duì)所有買了聯(lián)想筆記本的人做問(wèn)卷調(diào)查。通常的做法是隨機(jī)找1000個(gè)人,用這1000個(gè)人的滿意度來(lái)代表所有人的。
為了使結(jié)果盡可能準(zhǔn)確,我們會(huì)設(shè)計(jì)盡可能精確的問(wèn)卷,并使樣本足夠隨機(jī)。
這就是“小數(shù)據(jù)時(shí)代”的做法,在不可能搜集全部數(shù)據(jù)的情況下,隨機(jī)采樣分析在各領(lǐng)域取得了巨大的成功。
但是,隨機(jī)采樣有三個(gè)問(wèn)題:
依賴隨機(jī)性,而隨機(jī)性很難做到。例如,使用固定電話隨機(jī)打給1000戶人家,這樣也是缺乏隨機(jī)性的,因?yàn)闆](méi)有考慮到年輕人都使用手機(jī)的情況。遠(yuǎn)看不錯(cuò),一旦聚焦到某一點(diǎn),就模糊了。例如,我們用1000個(gè)人來(lái)代表全國(guó),這1000個(gè)人是隨機(jī)從全國(guó)選取的。但是,如果用此結(jié)果來(lái)判斷西藏的滿意度,卻是缺乏精確的。也就是說(shuō),分析結(jié)果不能適用于局部。采樣的結(jié)果只能回答你事先設(shè)計(jì)好的問(wèn)題,不能回答你突然意識(shí)到的問(wèn)題。在”大數(shù)據(jù)時(shí)代“,樣本=總體
如今,我們已經(jīng)有能力搜集到全面而完整的數(shù)據(jù)。大數(shù)據(jù)是建立在掌握所有數(shù)據(jù)、至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的。
2. 追求混雜性,而非精確性在 “小數(shù)據(jù)”時(shí)代,最重要的就是減少測(cè)量的錯(cuò)誤,因?yàn)槭占男畔⑤^少,所以必須保證記錄盡可能精確,否則細(xì)微的錯(cuò)誤會(huì)被放大。為了精確,科學(xué)家必須優(yōu)化測(cè)量 的工具?,F(xiàn)代科學(xué)就是這么發(fā)展過(guò)來(lái)的,物理學(xué)家開(kāi)爾文(溫度的國(guó)際單位)說(shuō):“測(cè)量就是認(rèn)知”。很多優(yōu)秀的科學(xué)工作者必須要能準(zhǔn)確收集和管理數(shù)據(jù)。
在“大數(shù)據(jù)”時(shí)代,使用所有數(shù)據(jù)變?yōu)榭赡?,且通常是上萬(wàn)億個(gè)數(shù)據(jù),要保證每一個(gè)數(shù)據(jù)的精確性是不可想象的,混雜性不可避免。但是,當(dāng)數(shù)據(jù)量足夠大時(shí),混亂不一定會(huì)帶來(lái)不好的結(jié)果。并且,由于放松了容錯(cuò)的標(biāo)準(zhǔn),所能搜集的數(shù)據(jù)多了起來(lái),還可以利用這些數(shù)據(jù)來(lái)做更多的事。舉一個(gè)例子:
要測(cè)一個(gè)葡萄園的溫度,如果只有一個(gè)溫度計(jì),那必須保證這個(gè)測(cè)量?jī)x精確且能一直工作。但是如果每100棵葡萄樹就有一個(gè)測(cè)量?jī)x,則雖然有些測(cè)量數(shù)據(jù)是錯(cuò)誤的,但是所有數(shù)據(jù)合起來(lái)卻能得到一個(gè)更準(zhǔn)確的結(jié)果。
因此,“大數(shù)據(jù)"通常用概率說(shuō)話,而不是板著”確鑿無(wú)疑“的面孔。”大數(shù)據(jù)“時(shí)代要求我們重新審視精確性的優(yōu)劣。由于數(shù)據(jù)量太大,我們不再期待精確經(jīng),也無(wú)法實(shí)現(xiàn)精確性。
在 圖書館我們可以看到,所有的書都被分類,例如,要找一本C語(yǔ)言的書籍,必須先找到”工科“分類,然后再找到”計(jì)算機(jī)“分類,再根據(jù)編號(hào)(類似于 803.53x)找到需要的書籍,這是傳統(tǒng)的方法。如果圖書館的書少,可以這么檢索,如果有1億本呢?10億本呢?網(wǎng)絡(luò)上的數(shù)據(jù)可遠(yuǎn)非圖書館的藏書量可 比,動(dòng)則數(shù)十億,如果使用清晰的分類,那么不僅分類的人會(huì)瘋,查詢的人也會(huì)瘋。因此,現(xiàn)在互聯(lián)網(wǎng)上廣泛使用”標(biāo)簽“,通過(guò)標(biāo)簽來(lái)檢索圖片、視頻、音樂(lè)等。 當(dāng)然,有時(shí)人們會(huì)錯(cuò)標(biāo)標(biāo)簽,這讓習(xí)慣精確性的人很痛苦,但是,接受”混亂“給我們帶來(lái)了兩個(gè)好處:
由于擁有了遠(yuǎn)比”分類"數(shù)量多得多的標(biāo)簽,我們能夠獲得更多的內(nèi)容??梢酝ㄟ^(guò)標(biāo)簽組合來(lái)過(guò)濾內(nèi)容。例 如,如果我們要檢索“徐長(zhǎng)卿”。“徐長(zhǎng)卿”至少有三種身份:是一種中草藥,是命名草藥的人的名字,是仙劍3的主人公之一。如果按照傳統(tǒng)分類法,可能“徐長(zhǎng) 卿”會(huì)被分到“中草藥”類里,這還取決于分類的人。那么查詢的人就不會(huì)知道它還有另外兩重身份,或者只想查“徐長(zhǎng)卿"這個(gè)人的人根本就不會(huì)到”中草藥“類 里查詢。但是,如果使用”標(biāo)簽“,那么輸入”徐長(zhǎng)卿“+”草藥“,即可查到草藥;輸入”徐長(zhǎng)卿“+”仙劍3“即可查到游戲的主人公。
因此,使用”標(biāo)簽“代替”分類“,雖然有很多不精確的數(shù)據(jù),但是卻得到了大量標(biāo)簽,使得檢索更方便,得到的結(jié)果更好了。
3. 關(guān)注相關(guān)關(guān)系,而非因果關(guān)系知道”是什么“就夠了,沒(méi)有必要知道”為什么“,要讓數(shù)據(jù)自己”發(fā)聲“。來(lái)看一個(gè)例子:
沃爾瑪是世界上最大的零售商,掌握了大量的零售數(shù)據(jù)。通過(guò)分析,沃爾瑪發(fā)現(xiàn),每當(dāng)季節(jié)性颶風(fēng)來(lái)臨之前,不僅手電筒銷售量增加了,而且蛋撻的銷量也增加了。因此,當(dāng)季節(jié)性暴風(fēng)來(lái)臨時(shí),沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,以方便顧客。
看到這里,一個(gè)馬上有人問(wèn)”為什么颶風(fēng)一來(lái),人們都要買蛋撻“?
你問(wèn)”為什么“,說(shuō)明你注重的是因果關(guān)系。而這個(gè)“因”,可能是極難分析、且復(fù)雜的,而且即便研究出來(lái),意義真的很大嗎?對(duì)沃爾瑪來(lái)說(shuō),只要知道“颶風(fēng)來(lái)了,快擺蛋撻,準(zhǔn)備大賺一筆”就行了,這就是注重的相關(guān)關(guān)系。
颶風(fēng)與蛋撻有關(guān),OK,行了,還能賺錢,太好了。為什么?不管,反正有關(guān)。
這也是大數(shù)據(jù)時(shí)代需要轉(zhuǎn)變的思維,即關(guān)注相關(guān)關(guān)系,而非因果關(guān)系。
通過(guò)探求”是什么“,而非”為什么“,能夠幫助我們更好地理解世界。但是,由于因果關(guān)系在我們的思維中根深蒂固,而且有時(shí)會(huì)臆想出一些因果關(guān)系,反而帶來(lái)了錯(cuò)誤的認(rèn)知。例如:
父母經(jīng)常告訴孩子,天冷時(shí)不帶帽子和手套就會(huì)感冒。然而,研究表明,感冒和穿戴之間沒(méi)有直接的聯(lián)系。在某餐館吃飯后,晚上肚子疼,我們會(huì)想到原因是餐館的食物有問(wèn)題。實(shí)際上很可能是和某人握手,或飯前沒(méi)有洗手的關(guān)系。
相關(guān)關(guān)系能給我們分析問(wèn)題提供新的視角,我們不需要事事去探究為什么,并且,它使我們相信,不探究”為什么“也是合理的。
但是,并不是說(shuō)因果關(guān)系就應(yīng)該完全摒棄,而是要靈活地以相關(guān)關(guān)系的立場(chǎng)來(lái)思考問(wèn)題。
原文鏈接:http://www.thebigdata.cn/YingYongAnLi/13977.html