雖然早已聽(tīng)說(shuō)過(guò)舍恩伯格的《大數(shù)據(jù)時(shí)代》,但直到前不久才瀏覽本書(shū)的內(nèi)容,看完之后還是有點(diǎn)震撼的,主要是大數(shù)據(jù)對(duì)我們?nèi)粘I詈退季S的影響太大了。下面摘取部分原文表述或案例來(lái)梳理一下這本書(shū),其中有我本人的部分總結(jié)和評(píng)述。
有三個(gè)案例比較有意思,一是福特的名言,“如果當(dāng)年去問(wèn)顧客他們想要什么,他們肯定會(huì)告訴我:一匹更快的馬。”
喬布斯多年來(lái)持續(xù)不斷地改善Mac筆記本依賴的可能是行業(yè)分析,但是他發(fā)行的iPod、iPhone和iPad靠的不是數(shù)據(jù),而是直覺(jué),第六感。
谷歌公司內(nèi)部的研究表明工作表現(xiàn)與大學(xué)畢業(yè)時(shí)的平均績(jī)點(diǎn)沒(méi)有關(guān)系,但其創(chuàng)始人依然要應(yīng)聘者提供分?jǐn)?shù)。
前兩個(gè)例子(福特和蘋(píng)果)說(shuō)明大數(shù)據(jù)有時(shí)候是無(wú)效的,后面谷歌的例子則說(shuō)明管理層對(duì)數(shù)據(jù)過(guò)度的執(zhí)著。
大數(shù)據(jù)對(duì)人類生活的破壞莫過(guò)于它過(guò)于強(qiáng)大的預(yù)測(cè)功能,如通過(guò)一個(gè)人過(guò)去的表現(xiàn)可以準(zhǔn)確預(yù)測(cè)到他在特定環(huán)境下一定會(huì)犯罪,那么,社會(huì)保障機(jī)制就會(huì)懲罰一個(gè)從來(lái)沒(méi)有犯錯(cuò)的人。如書(shū)中所述:
“因?yàn)轭A(yù)測(cè)的結(jié)果幾乎不可辯駁,人們也就無(wú)法為自己開(kāi)脫。但這種基于預(yù)測(cè)得出的懲罰不僅違背自由意志的原則,同時(shí)也否定了人們會(huì)突然改變選擇的可能性。”
以上弊多些,下面談利。
聰明的公司會(huì)從人們與信息交互中收集數(shù)據(jù)廢氣,以用來(lái)改善現(xiàn)有的服務(wù)或推出全新的服務(wù)。
“擁有知識(shí)曾意味著掌握過(guò)去,現(xiàn)在則更意味著能夠預(yù)測(cè)未來(lái)。”-----這句話很精辟。
“情報(bào)分析員結(jié)合實(shí)地考察報(bào)告和過(guò)去IED襲擊地點(diǎn)、時(shí)間和人員傷亡的詳細(xì)信息,據(jù)此預(yù)測(cè)一天中最安全的運(yùn)送路線。”類似的,我也聽(tīng)說(shuō)過(guò)美國(guó)建立的爆炸物碎片博物館的事情,基于爆炸物的各種信息追蹤恐怖分子武器彈藥的生產(chǎn)基地和儲(chǔ)存地點(diǎn)。
“為了促進(jìn)大數(shù)據(jù)平臺(tái)的良性競(jìng)爭(zhēng),政府必須運(yùn)用反壟斷條例。”
谷歌對(duì)量化數(shù)據(jù)的極致追求可能過(guò)頭了,因此激起了員工的反抗。(弊)
通過(guò)大數(shù)據(jù)預(yù)測(cè)來(lái)判斷和懲罰人類的潛在行為是對(duì)公平公正和自由意志的一種褻瀆。(弊)
過(guò)去是要成為一個(gè)優(yōu)秀的生物學(xué)家就需要認(rèn)識(shí)很多生物學(xué)家,但現(xiàn)在可能是,要解決一個(gè)生物難題或許和天體物理學(xué)家或數(shù)據(jù)視圖設(shè)計(jì)師聯(lián)系即可。
由于大數(shù)據(jù)的功勞,微軟機(jī)器翻譯部門的統(tǒng)計(jì)學(xué)家在茶余飯后的談資就是每次一有語(yǔ)言學(xué)家離開(kāi)他們的團(tuán)隊(duì),翻譯質(zhì)量就會(huì)好一點(diǎn)。
當(dāng)亞馬遜的貝索斯發(fā)現(xiàn)算法推薦能促進(jìn)銷量增加的時(shí)候,他就不再需要書(shū)籍評(píng)論員了。
“有風(fēng)險(xiǎn)才有回報(bào)。”
更明智的選擇是讓自己受益,汽車制造商與供貨商的例子十分精彩,感興趣的可以參見(jiàn)原書(shū)p171.
上班高峰期交通狀況的變好說(shuō)明失業(yè)率增加,即經(jīng)濟(jì)狀況變差。
谷歌和亞馬遜:數(shù)據(jù)、技能和思維三者兼?zhèn)涞膬?yōu)秀公司。
數(shù)據(jù)的擁有者可能沒(méi)有使用數(shù)據(jù)的動(dòng)機(jī)和強(qiáng)制要求。
外行人的思維不受專業(yè)限制,可能做出有更有價(jià)值的發(fā)現(xiàn)。
數(shù)據(jù)科學(xué)家是統(tǒng)計(jì)學(xué)家、軟件程序員、圖形設(shè)計(jì)師和作家的結(jié)合體。
谷歌首席經(jīng)濟(jì)學(xué)家范里安認(rèn)為統(tǒng)計(jì)學(xué)家是世界上最棒的職業(yè),“如果你想成功,你不應(yīng)該成為一個(gè)普通的、可被隨意替代的人,你應(yīng)該成為稀缺的、不可替代的那類人。”“數(shù)據(jù)非常之多,但是真正缺乏的是從數(shù)據(jù)提取價(jià)值的能力。”
DataMarket向人們提供其他機(jī)構(gòu)(如聯(lián)合國(guó)、世界銀行和歐盟統(tǒng)計(jì)局等)的免費(fèi)數(shù)據(jù),真的嗎??
無(wú)形資產(chǎn),如數(shù)據(jù)占到美國(guó)上市公司價(jià)值的75%。
政府才是大數(shù)據(jù)的原始采集者,因此奧巴馬說(shuō)的很好,“面對(duì)懷疑,公開(kāi)優(yōu)先”,就是政府應(yīng)該承擔(dān)的責(zé)任。
丹麥癌癥協(xié)會(huì)的案例:手機(jī)是否增加致癌率。他們使用的數(shù)據(jù)集原本根本不是用來(lái)研究這個(gè)問(wèn)題的,基于“樣本=總體”,做出了重大發(fā)現(xiàn):使用移動(dòng)電話與癌癥風(fēng)險(xiǎn)增加不存在任何關(guān)聯(lián)。這項(xiàng)研究彰顯了“重組數(shù)據(jù)(二次利用)”的魅力。
思維的轉(zhuǎn)換案例:零售商在店內(nèi)安裝監(jiān)控?cái)z像頭不僅能認(rèn)出商店扒手,還能跟蹤在商店購(gòu)物的顧客和他們停留的位置。零售商利用后面的信息可以設(shè)計(jì)店面的最佳布局并判斷營(yíng)銷活動(dòng)的有效性。在此之前,監(jiān)控?cái)z像頭僅用于安保,現(xiàn)在則變成的一種可以增加收入的投資。
同樣是亞馬遜和谷歌的案例,AOL和Nuance與他們合作簡(jiǎn)直虧死了,大公司真可怕!
同樣是震撼的案例:
“數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。”
1)Farecast利用機(jī)票銷售數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的機(jī)票價(jià)格;2)谷歌重復(fù)使用搜索關(guān)鍵詞來(lái)預(yù)測(cè)流感的傳播;3)麥格雷戈博士用嬰兒的生命體征預(yù)測(cè)傳染病的發(fā)生;4)莫里重新利用老船長(zhǎng)的日志而發(fā)現(xiàn)了洋流。
幾十年的試驗(yàn)和錯(cuò)誤才實(shí)現(xiàn)現(xiàn)有加油站的有效分配,但電動(dòng)汽車的充電站的需求和設(shè)置點(diǎn)目前還不得而知。
哈哈,“魚(yú)不知道自己是濕的”,真的嗎??
驗(yàn)證碼的發(fā)明人路易斯27歲時(shí)獲得了50萬(wàn)美元的麥克阿瑟的“天才獎(jiǎng)”。(題外話:2012年美國(guó)的最低工資是7.25美元/小時(shí),一天工作八小時(shí)的話,則是348元人民幣。)
一點(diǎn)點(diǎn)的不精確比完全精確更有效。
當(dāng)?shù)匕鍞?shù)據(jù)化的時(shí)候,它能滋生無(wú)窮無(wú)盡的用途。
大數(shù)據(jù)分析表明:個(gè)人償還債務(wù)的可能性和其朋友償還債務(wù)的可能性正相關(guān),物以類聚,人以群分啊!
UPS最佳行車路徑:盡量少左轉(zhuǎn),因?yàn)樽筠D(zhuǎn)要求貨車在交叉路口穿過(guò)去,所以更容易出事故。貨車往往需要等待一會(huì)才能左轉(zhuǎn),因此更耗油,減少左轉(zhuǎn)使得行車的安全性和效率都得到了大幅提升。
萊維斯:“預(yù)測(cè)給我們知識(shí),而知識(shí)賦予我們智慧和洞見(jiàn)。”
iPhone本身就是一個(gè)“移動(dòng)間諜”,同樣包括安卓的和微軟的手機(jī)。
谷歌,一個(gè)喜歡跨界的叛逆的大數(shù)據(jù)公司。亞馬遜深諳數(shù)字化內(nèi)容的意義,而谷歌觸及了數(shù)據(jù)化內(nèi)容的價(jià)值。
哈佛大學(xué)的研究人員發(fā)現(xiàn)5000億個(gè)單詞中有一半以上在字典中無(wú)法找到,真的嗎?
1900年以前,“因果關(guān)系(causality)”這個(gè)詞比“相關(guān)關(guān)系”(correlation)使用頻率高,但在1900年之后,情況相反。(Google Ngram Viewer)
“Data”這個(gè)詞在拉丁文里是“已知”的意思。
鄧肯說(shuō):一旦你知道了結(jié)果,一切都很容易。
感冒與穿戴之間沒(méi)有直接關(guān)系。
“數(shù)據(jù)表明,早產(chǎn)兒的穩(wěn)定不但不是疾病好轉(zhuǎn)的標(biāo)志,反而是暴風(fēng)雨前的寧?kù)o,就像是身體要它的器官做好抵抗困難的準(zhǔn)備。”類似于回光返照啊!
“一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問(wèn)題的。”冰凍三尺非一日之寒!
達(dá)爾文的表弟費(fèi)朗西斯-高爾頓爵士就注意到了人的身高與前臂長(zhǎng)度的關(guān)系,達(dá)爾文家族真是厲害,好像每個(gè)人都是科學(xué)家!
相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。
印象派的畫(huà)風(fēng):近看每一筆都是混亂的,退后一步看卻是一副偉大的作品。
快速獲得事物的一個(gè)大概的輪廓和發(fā)展脈絡(luò),就要比嚴(yán)格的精確性要重要的多。
偉大的物理學(xué)家開(kāi)爾文男爵:測(cè)量就是認(rèn)知。
一個(gè)在關(guān)系網(wǎng)內(nèi)有著眾多好友的人的重要性不如一個(gè)與很多關(guān)系網(wǎng)外的人有聯(lián)系的人,說(shuō)明多樣性的額外價(jià)值。------Structureand tie strengths in mobile communication networks.
擁有全部或幾乎全部的數(shù)據(jù),我們就能夠從不同的角度,更細(xì)致地觀察和研究數(shù)據(jù)的方方面面。
大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。
異常值也是很有用的信息,如甄別信用卡詐騙。
我們不能滿足于正態(tài)分布一般中庸平凡的景象,生活中真正有趣的事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析法無(wú)法捕捉到這些細(xì)節(jié)。
“采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。當(dāng)樣本數(shù)量達(dá)到某個(gè)值后,我們從個(gè)體身上得到的信息越來(lái)越少。”---p33,但這只是傳統(tǒng)的數(shù)據(jù)收集方法,且必須保證“隨機(jī)性”才是成立的!
“寶貝不止一個(gè),每個(gè)數(shù)據(jù)集內(nèi)部都隱藏著某些未被發(fā)覺(jué)的價(jià)值。”
“相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何發(fā)生,但是它會(huì)提醒我們這個(gè)事情正在發(fā)生。”
“大數(shù)據(jù)的核心就是預(yù)測(cè)。”
“物理學(xué)和生物學(xué)都告訴我們,當(dāng)我們改變規(guī)模時(shí),事物的狀態(tài)也有也會(huì)發(fā)生改變。”
“數(shù)據(jù)的奧妙只為謙遜、愿意聆聽(tīng)且掌握聆聽(tīng)手段的人所知。”
谷歌為測(cè)試檢索詞條,總共處理了4.5億個(gè)不同的數(shù)學(xué)模型,驚嘆!
“越是萬(wàn)能的,就越是空洞的。”----至理名言!
大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念上的三大轉(zhuǎn)變:要全體不要抽樣、要效率不要絕對(duì)精確、要相關(guān)不要因果。
“最重要的是人們可以在很大程度上從對(duì)于因果關(guān)系的追求中解脫出來(lái),轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上,只要發(fā)現(xiàn)兩個(gè)現(xiàn)象之間存在的顯著相關(guān)性,就可以創(chuàng)造巨大的經(jīng)濟(jì)和社會(huì)效益,而弄清二者為什么相關(guān)可以留待學(xué)者們慢慢研究。”---謝文
大數(shù)據(jù)在公共衛(wèi)生、商業(yè)服務(wù)領(lǐng)域的應(yīng)用:不再追求精確性,不再追求因果關(guān)系,而是承認(rèn)混雜性,探索相關(guān)關(guān)系。
我覺(jué)得可以以下面一小段話結(jié)束全文:關(guān)于大數(shù)據(jù),我們或許還不能完全適應(yīng),因?yàn)槲覀兡X海里一種根深蒂固的對(duì)因果關(guān)系和精準(zhǔn)數(shù)據(jù)的追求。而我們的下一代,一群被“大數(shù)據(jù)觀念”陶冶長(zhǎng)大的家伙,會(huì)發(fā)自肺腑地認(rèn)為“量化一切”并從中學(xué)習(xí)對(duì)于社會(huì)是至關(guān)重要的。(改寫(xiě)自原書(shū)p126)
文中列舉的文獻(xiàn)也比較有意思:
谷歌的2009年的Nature論文
PLoS ONE: Human Mobility Networks,Travel Restrictions, and the Global Spread of 2009 H1N1 Pandemic
呂林媛2012年P(guān)hysics Reports的Recommendation Systems
PNAS: Structure and tie strengths inmobile communication networks
張子柯:Tag-aware recommendersystems: A state-of-the-art survey
丹麥癌癥協(xié)會(huì)的案例:手機(jī)是否增加致癌率Use of mobile phones and risk of brain tumours: update of Danish cohort study
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13698.html