劉德寰:不關(guān)注人性的大數(shù)據(jù)已成大忽悠

責(zé)任編輯:editor006

2014-08-15 17:07:41

摘自:騰訊科技

大數(shù)據(jù)實際上有三個主要的理解:大數(shù)據(jù)確實帶來了大的機(jī)會;大數(shù)據(jù)本身非常像大忽悠;大數(shù)據(jù)也引來了大風(fēng)險。谷歌在2008年的時候開發(fā)一個非常重要的東西,叫流感趨勢預(yù)測,最初它預(yù)測的結(jié)果比美國疾控中心的預(yù)測結(jié)果還準(zhǔn),轟動了全球。

劉德寰:不關(guān)注人性的大數(shù)據(jù)已成大忽悠

8月14日,2014夏季騰訊思享會“中國說”在北京舉辦。本次思享會的兩個主題演講“大數(shù)據(jù)開啟時代轉(zhuǎn)型”和“基因技術(shù)把人類帶向何方”,分別邀請了北大傳播學(xué)系教授劉德寰、華大基因研究院董事長汪建。歷史學(xué)者吳思、社會學(xué)者于建嶸、郭于華、知名IT評論人謝文、《大數(shù)據(jù)時代》譯者周濤等數(shù)十位知名科學(xué)家、學(xué)者在論壇環(huán)節(jié)跨界碰撞,共同探討大數(shù)據(jù)與社會轉(zhuǎn)型、新技術(shù)發(fā)展對中國社會產(chǎn)生的深刻影響。

劉德寰教授在“大數(shù)據(jù)開啟時代轉(zhuǎn)型”的主題演講中,指出大數(shù)據(jù)開啟了一個新的時代,帶來了新機(jī)會,但更需要冷靜面對,“大數(shù)據(jù)本身很像大忽悠”,數(shù)據(jù)本身是有局限的。挖掘數(shù)據(jù)離不開其他人文學(xué)科相關(guān)專業(yè)的基礎(chǔ)知識支撐,商業(yè)應(yīng)用中的數(shù)據(jù)挖掘如果忽視人性,精準(zhǔn)挖掘就成了精準(zhǔn)騷擾,大數(shù)據(jù)則會淪為大忽悠。

以下為演講全文:

劉德寰(北京大學(xué)新聞與傳播學(xué)院教授):“大數(shù)據(jù)”實際上現(xiàn)在是一個非常重要,非常熱的詞匯。22年前我開了一門課叫“數(shù)據(jù)分析”,冷的不能再冷了?,F(xiàn)在突然熱了,甚至熱得讓人受不了。

大數(shù)據(jù)實際上有三個主要的理解:大數(shù)據(jù)確實帶來了大的機(jī)會;大數(shù)據(jù)本身非常像大忽悠;大數(shù)據(jù)也引來了大風(fēng)險。我的演講主題從這三個點(diǎn)上展開。

大數(shù)據(jù)帶來大機(jī)會:各行各業(yè)突飛猛進(jìn)地運(yùn)用打大數(shù)據(jù)

先說大數(shù)據(jù)。大數(shù)據(jù)到來之后,包括電子商務(wù),零售企業(yè),交通運(yùn)輸,信息產(chǎn)業(yè),公共衛(wèi)生,教育以及生產(chǎn)企業(yè)對零部件的監(jiān)測,各個產(chǎn)業(yè)實際上都在突飛猛進(jìn)地運(yùn)用大數(shù)據(jù)。在這當(dāng)中,在全球范圍內(nèi)形成了很多重要的案例,我簡單介紹幾個。

在大數(shù)據(jù)領(lǐng)域做的最好的一個公司叫Target。它用抽樣調(diào)查和大數(shù)據(jù)結(jié)合,構(gòu)造了整個智能的廣告推送系統(tǒng),做得非常非常好,后面我會用一個案例來講。

有一個在全球范圍內(nèi)影響力非常大的公司叫TESCO,在中國叫樂購。它用的是一個抽樣實驗加分析,然后進(jìn)行大數(shù)據(jù)推送。TESCO能夠保證任何一個人只要在這里有了一個完整的消費(fèi)之后,你出來的那一剎那看到的廣告和你進(jìn)來時是完全不一樣的。因為他會根據(jù)你的需求來推送完全不同的東西。但是大家也要注意,這當(dāng)中的前提是實驗。TESCO每天都在進(jìn)行上百個實驗。

另外一個是大家都比較熟悉的服裝品牌ZARA。ZARA玩的是一個比較傳統(tǒng)的方式。它用視頻監(jiān)測,不僅僅看你是否偷了衣服,更重要的是記錄你的行為。每一個店長就是調(diào)查員,每天收集幾千個數(shù)據(jù),找尋消費(fèi)者的需求,這也可以叫調(diào)查。歷時很長的話就有數(shù)據(jù)量的影響。

在整個信息產(chǎn)業(yè)當(dāng)中,尤其電商中做得比較好的是亞馬遜。它在大數(shù)據(jù)應(yīng)用中最典型的傳統(tǒng)的方式是行為痕跡的建模和文本挖掘的結(jié)合,構(gòu)建它的數(shù)據(jù)系統(tǒng)。

還有一個是沃爾瑪。它花錢買了一個不到100人的做社交大數(shù)據(jù)分析的公司Kosmix,同時還建了一個倉儲的大數(shù)據(jù)工具。這是幾個非常典型的國外的例子。實際上國內(nèi)也一樣,我本人參與了幾個。

我們理解大數(shù)據(jù)的時候可能都知道一個概念叫“尿布與啤酒”。實際上這個案例在那個時代還沒有大數(shù)據(jù)的情況下,用零售數(shù)據(jù)發(fā)現(xiàn)了某種規(guī)律,然后用傳統(tǒng)的思想研究陪伴購物構(gòu)建出來的。但是現(xiàn)在來應(yīng)用這種方式,只要我們把這些信息補(bǔ)全之后,構(gòu)造的連帶關(guān)系的分析和購物籃的分析要遠(yuǎn)遠(yuǎn)超過“尿布與啤酒”。

我們看下面的案例,假設(shè)一個人買了A牌的衛(wèi)生紙,B牌的護(hù)手霜,他買C牌牛奶的可能性是其他人的4.84倍,買某種餅干的可能性是其他人的4.82倍。如果他買了某種牌子的鹽,那他買某品牌香煙的可能性是其他人的4.44倍。這只是把它截斷出來,實際上這個數(shù)據(jù)是一個非常長的購物籃技術(shù)。在這類分析中,實際上我們會發(fā)現(xiàn)它本身依賴的確實有大數(shù)據(jù)的源頭,但是真正在分析當(dāng)中也會面臨其他問題。所以,我今天更重要的是要講大數(shù)據(jù)與大忽悠。

現(xiàn)在“云”很多,到底是浮云還是真正的計算云不好說。如果我們要分析的話,大數(shù)據(jù)引領(lǐng)的一個時代是一個非常有意思的事情。在沒有總結(jié)總體性規(guī)律的時候,我們直接對個體進(jìn)行理解,這實際上跟我們常識性的學(xué)術(shù)研究的邏輯相違背。這種方法簡單、實用、粗暴。實際驗證的結(jié)果不一定有效。后面我拿谷歌的案例來看。

現(xiàn)在有一本書很重要,叫《大數(shù)據(jù)時代》。今天譯者周濤也在。書里有兩個非常值得商榷的觀點(diǎn),一個是對抽樣的極端蔑視,另一個是無原則地推崇相關(guān)。我會在后面把這兩個點(diǎn)進(jìn)行比較詳細(xì)的展開。

大數(shù)據(jù)引來的大風(fēng)險:到處都是假規(guī)律

實際上大數(shù)據(jù)帶來了幾個非常重要的風(fēng)險。

第一是計算速度。現(xiàn)在速度快極了。Hadoop速度非常快,是調(diào)取、存儲和歸整數(shù)據(jù)的極好的工具。但是對挖掘數(shù)據(jù)來講,這個工具并沒有那么好。前一段時間,我們做了一個歷時半年的900萬用戶的智能手機(jī)使用習(xí)慣的研究。在數(shù)據(jù)建模的時候我們發(fā)現(xiàn),計算速度實際是一個非常大的問題。我們把16臺頂級服務(wù)器連成一個超級計算機(jī),在這個基礎(chǔ)上把模型建好,運(yùn)算全數(shù)據(jù)的過程花了整整21天。我相信航天這些的運(yùn)算速度沒有問題,但是學(xué)界的,商用的的東西中,計算速度存在著非常大的問題。

第二,海量數(shù)據(jù)非常危險。只要玩大數(shù)據(jù)的人會發(fā)現(xiàn)到處都是假規(guī)律。我拿一個小數(shù)據(jù),比如五千個樣本做一個非常簡單的線性回歸的時候發(fā)現(xiàn)有三個變量線性顯著。但是沒做任何變化,把這個變量復(fù)制倍,顯著的比例可能五個了,到33萬的時候可能所有變量之間的關(guān)系都顯著了。問題是統(tǒng)計上都顯著了,但所有這些結(jié)果都是錯的。當(dāng)數(shù)據(jù)運(yùn)算量大到大約33萬到70萬之間時,我們會發(fā)現(xiàn)一個非常重要的哲學(xué)問題。這個哲學(xué)問題是什么呢?——萬物都是有聯(lián)系的。這件事情非??膳路浅B闊?,到底什么是真的規(guī)律? 1970年有一個學(xué)者安德森說過“多帶來不同”,那個時代提出這個觀點(diǎn)非常好。但是現(xiàn)在“多”帶來的真的是不同嗎?帶來的是迷茫,自我高潮和假規(guī)律。這點(diǎn)非常危險。

斯坦福大學(xué)的Trevor Hastie說了一句著名的話,“在稻草里找一根針”。問題是很多稻草長得跟針是一樣的,這是所有大數(shù)據(jù)研究面臨的最大風(fēng)險。數(shù)據(jù)太大之后帶來的實際上是規(guī)律的喪失和失真,所以千萬不要忽視了抽樣。我們在900萬用戶的分析中,如果當(dāng)時直接拿出900萬的數(shù)據(jù),用6個月的時間,進(jìn)行移動互聯(lián)網(wǎng)行為建模,估計到今天我這個模型也建不出來。我們用的事不斷探測的過程辦法,等于先在里面抽了40萬,然后在40萬中又抽了2000人做問卷調(diào)查,來理解這套數(shù)據(jù)的邏輯。用40萬進(jìn)行常識性建模,然后再在900萬中進(jìn)行建模,再優(yōu)化它,形成最后的結(jié)果。不要忽視抽樣,不要因為我們有了大數(shù)據(jù)就把傳統(tǒng)的知識去掉。

第三個風(fēng)險也是非常重要的。現(xiàn)在的數(shù)據(jù)是斷裂而封閉的。比如騰訊說我有全數(shù)據(jù),你是很全,但你到底有沒有百度的?有沒有京東的?阿里的?如果沒有怎么談得上全呢?最近出現(xiàn)了一個好的形象性的詞匯——“數(shù)據(jù)孤島”。我們在喊大數(shù)據(jù)的過程中形成一個個數(shù)據(jù)孤島,在這些孤島沒有打破之前,我們基本上談不上“全”這個詞,更甭說這個數(shù)據(jù)內(nèi)部的斷裂結(jié)構(gòu)。

第四個風(fēng)險是缺失。對所有的大數(shù)據(jù)來講,分析一個小問題的時候,數(shù)據(jù)量都不大。幾百萬,一千萬,這個數(shù)據(jù)量都是可控可選的。對于所有人來講,要是進(jìn)行一個全分析時都是缺損永遠(yuǎn)多于數(shù)據(jù)。在這種建構(gòu)過程中,在數(shù)學(xué)統(tǒng)計學(xué)上有兩個很重要的詞,一個叫技術(shù)矩陣,一個叫程序矩陣。單獨(dú)分析都問題不大,最怕的是這兩個混合。微博、微信合在一起一定是容易的。但是微博和一個非常小的技術(shù)合在一起,就是一個信息一個技術(shù),怎么分析它?這點(diǎn)難度是極大的。

大數(shù)據(jù)時代真的是來了,它教育了一種觀念。所以,我覺得《大數(shù)據(jù)時代》這本書非常好,我要求我的學(xué)生必須讀,但是在批判的視角下讀,因為里面有一些比較危險的結(jié)論。

大數(shù)據(jù)本身很像大忽悠:精準(zhǔn)營銷如何變成了精準(zhǔn)騷擾?

第二個要講忽悠的問題。我們實際上沒看明白幾個詞,數(shù)據(jù)整理、展示、描述和挖掘是完全不同的概念。整理、描述、展示一個數(shù)據(jù),用CRM、ERP很容易,它是簡單問題。但是挖掘是一個復(fù)雜問題。如果我們整理數(shù)據(jù)會發(fā)現(xiàn)有一些所謂大數(shù)據(jù)模型是這樣的:用一個模型代替重要的發(fā)展用戶。但是問題是同樣一種行為或者同一個人,我們的想法完全不一樣,怎么可能用一個模型能夠替代了呢?這個實際上你會發(fā)現(xiàn)它就是一個空中樓閣一樣,因為只見數(shù)據(jù)不見人是非常危險的。

數(shù)據(jù)展示形成一個非常重要的流派叫數(shù)據(jù)可視化,我對這些朋友心存敬意。因為國外的可視化技術(shù)到最后基本上是藝術(shù)。漂亮嗎?很漂亮,但是得出了什么結(jié)論呢?誰粉絲多誰轉(zhuǎn)化率高。于建嶸老師比我粉絲多多了,他的轉(zhuǎn)發(fā)量一定比我高,轉(zhuǎn)發(fā)率呢?可視化的感受非常好,但它只屬于展示,并沒有分析內(nèi)在的規(guī)律。

我們曾經(jīng)做過一個簡單的抽樣調(diào)查。我們建模分析的是2003年淘寶在全中國運(yùn)行之后,對中國網(wǎng)絡(luò)帶來的影響。這個時候總共用一張圖展現(xiàn)不了,得用16張圖展示一個現(xiàn)象。我可能有點(diǎn)兒孤陋寡聞,但現(xiàn)在還沒有見到其他研究使用這種比較深入的分析方式。

真正數(shù)據(jù)挖掘在國外的經(jīng)典案例當(dāng)中,Target的案例最有典型意義。生活改變會導(dǎo)致購物行為的變化,然后會有一些大數(shù)據(jù)推送方式的變化。營銷學(xué)、廣告學(xué)、公共衛(wèi)生學(xué)、心理學(xué)、數(shù)據(jù)分析、數(shù)據(jù)挖掘,所有這些知識是混合性知識,大數(shù)據(jù)恰恰需要這種混合才可能做好。

前兩天我買了一個5升的洗衣液,家里人再多,我至少也得用一個月。同時你也要知道我買的時候我是別的什么都沒看,直接到那兒下完單就走了,這說明我是品牌忠誠者。你應(yīng)該做的不是在我一上網(wǎng)的時候就推送一大堆各種品牌的洗衣,你應(yīng)該告訴我這個品牌洗衣液在什么時間打折,這才叫大數(shù)據(jù)分析。

數(shù)據(jù)挖掘的商業(yè)本質(zhì)要簡單不能再簡單,但是過程非常復(fù)雜。不是簡單的CRM、ERP跑一圈兒就給你推送。那是從精準(zhǔn)營銷蛻變?yōu)榫珳?zhǔn)騷擾。

所以,數(shù)據(jù)挖掘不是黑箱,不是一個調(diào)動數(shù)據(jù)的方法,也不是整理數(shù)據(jù)的方法。它實際上需要在思想的基礎(chǔ)上做。真正進(jìn)行跟人相關(guān)的大數(shù)據(jù)挖掘的時候一定要關(guān)注人性。很多人說網(wǎng)購起來之后實體店不行了。如果實體店真的不行了,年輕女孩到哪兒揮灑青春?沒勁兒了。逛街的核心在逛,不在于買。要了解人性再去建那種模型才會有意義。很多人說喬布斯不相信調(diào)查。喬布斯最基本的習(xí)慣,經(jīng)常整天躲在蘋果體驗店前的灌木叢中看體驗店里的人在干嘛。這是典型的觀察法,是人類研究問題最早期的研究方法。所以,知覺、體驗、靈機(jī)一動、體會、內(nèi)省,所有這些看起來跟大數(shù)據(jù)無關(guān)的東西可能恰恰是大數(shù)據(jù)的核心,因為它是思想。

谷歌在2008年的時候開發(fā)一個非常重要的東西,叫流感趨勢預(yù)測,最初它預(yù)測的結(jié)果比美國疾控中心的預(yù)測結(jié)果還準(zhǔn),轟動了全球。結(jié)果接下來你會發(fā)現(xiàn)它那個東西越來越亂,嚴(yán)重高估了流感的狀態(tài)。為什么?就是因為剛才談到的維克多·邁爾-舍恩伯格這一流派在談大數(shù)據(jù)的時候重相關(guān)不重因果。無論真相關(guān)假相關(guān),相關(guān)就中,正是假相關(guān)造就了谷歌的失敗。假相關(guān)怎么來的?某一次流感發(fā)病的時間點(diǎn),比如跟美國中學(xué)生籃球賽那個時間點(diǎn)是完全一致的。你說這倆概念能有關(guān)系嗎?問題是只要搜索中學(xué)生的籃球賽,就構(gòu)成了流感預(yù)測的一個主要的詞之一。類似的東西太多了,為什么?因為在谷歌預(yù)測的時候,沒有找疾控專家。這些東西才是進(jìn)行大數(shù)據(jù)預(yù)測的一個很重要的前提。

雖然谷歌不斷調(diào)整和完善算法,但它一旦把這個事情說出來之后,為了驗證一下這件事兒,很多人開始使用這個產(chǎn)品。消費(fèi)者的好奇心是驚人的,他們一玩兒就使這個數(shù)變的非常大。所以,從那以后一次也沒有預(yù)測準(zhǔn)美國的流感。人的行為在這里面的作用實際上是計算機(jī)考慮不到的。這里面就是過度擬合、虛假相關(guān)和人性這幾個問題造就了谷歌的錯誤。

這時你也會發(fā)現(xiàn)這些商業(yè)公司在做的時候,更多是跟商業(yè)邏輯相關(guān)的一個概念。它真的不是純的研究,而且我們并不知道它整個計算的完整過程。所以,掌握大數(shù)據(jù)本身并不等于是擁有良好的數(shù)據(jù)。這是美國《科學(xué)》雜志在系統(tǒng)評估谷歌的時候說出來的一句話。

大數(shù)據(jù)只是一個工具,不能替代基礎(chǔ)知識

在實際的商業(yè)應(yīng)用中,現(xiàn)在這個時代,要一攬子把大數(shù)據(jù)這個概念說透,我覺得神仙也做不到。在現(xiàn)實的應(yīng)用中,大數(shù)據(jù)小應(yīng)用是一個核心方式。前面我提到的五個國外的比較好的成功案例當(dāng)中,沒有一個不包含抽樣,沒有一個不包含小數(shù)據(jù)。也就是說大數(shù)據(jù)不能忽視各個專業(yè)的基礎(chǔ)知識,比如歷史學(xué)、法學(xué)、政治學(xué)、社會學(xué)、心理學(xué),大數(shù)據(jù)本身不構(gòu)成帶來知識的積累,它只是帶來一個數(shù)的變化。

算法如果依賴了對這個獨(dú)立領(lǐng)域的深度理解,再去跟IT、數(shù)學(xué)的技能連在一起,會做出一個比較好的大數(shù)據(jù)分析。只靠一個算法得到得那種知識非常快,但是從現(xiàn)來看,錯誤率也是極高的。算法本身還是依賴于人。所以,人工智能的中文翻譯真是挺好的,沒有人工,無法智能,所以叫“人工智能”,這是確確實實有道理的一個概念。

從我個人理解來講,大數(shù)據(jù)運(yùn)算本身構(gòu)造給大家一個有更多能力的新的算盤,你說算盤有用嗎?確確實實有用,但是算盤代表了所有知識嗎?不可能。它是給我們提供了一個各個領(lǐng)域都能夠用的一個工具。

商業(yè)本質(zhì)當(dāng)中,純IT人員可能真的無法做好挖掘這個概念。能做好整理、展示、調(diào)取,但是挖掘很難,可能需要市場研究的、營銷方面的專業(yè)人員。另外如果是歷史就讓歷史學(xué)家同時介入,如果社會就讓社會學(xué)家同時介入,這個時候可能能把東西做好。

當(dāng)然,大數(shù)據(jù)還有一個小主題就是風(fēng)險。風(fēng)險這一塊兒很多人在談,有治安的問題,有侵犯個人隱私的問題?,F(xiàn)在尤其在車聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展過程中,甚至以后我們買的任何一個東西,我們的油煙機(jī)、冰箱、洗衣機(jī)、電視里面都有定位。因為那時一個定位裝置可能就十塊錢,非常便宜。你的位置,你在這個城市大概的覆蓋的邏輯我都知道了,然后我能夠傳到網(wǎng)絡(luò)上去。如果我們滿屋子都是Wifi的時候,會不會造成公共健康問題?我不是這個領(lǐng)域的人,我真的不知道會不會有。未來如果真的建構(gòu)出了那種智能性的機(jī)器人,說實話,我們在座的這些人合在一起絕對打不過一個機(jī)器人。謝謝大家。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號