有些數(shù)據(jù)分析中常踩的坑,當(dāng)心別掉進(jìn)去

責(zé)任編輯:editor005

作者:鄒昕

2016-07-08 14:16:38

摘自:知乎日?qǐng)?bào)

經(jīng)典的冰淇凌銷量和游泳溺水人數(shù)成正比的數(shù)據(jù),這并不能說明冰淇凌銷量的增加會(huì)導(dǎo)致更多的人溺水,而只能說明二者相關(guān),比如因?yàn)樘鞜崴远邤?shù)量都增加了

錯(cuò)把相關(guān)性當(dāng)成因果性 correlation vs. causation

經(jīng)典的冰淇凌銷量和游泳溺水人數(shù)成正比的數(shù)據(jù),這并不能說明冰淇凌銷量的增加會(huì)導(dǎo)致更多的人溺水,而只能說明二者相關(guān),比如因?yàn)樘鞜崴远邤?shù)量都增加了。這個(gè)例子比較明顯,說起來可能會(huì)有人覺得怎么會(huì)有人犯這樣的錯(cuò)誤,然而在實(shí)際生活、學(xué)習(xí)、工作中,時(shí)不時(shí)的就會(huì)有人犯這樣的錯(cuò)誤。

舉個(gè)栗子

數(shù)據(jù)顯示,當(dāng)科比出手 10-19 次時(shí),湖人的勝率是 71.5%;當(dāng)科比出手 20-29 次時(shí),湖人的勝率驟降到 60.8%;而當(dāng)科比出手 30 次或者更多時(shí),湖人的勝率只有 41.7%。

數(shù)據(jù)分析

  圖片來源: statisticshowto.com

幸存者偏差 survivorship bias

數(shù)據(jù)分析中看到的樣本是“幸存了某些經(jīng)歷”才被觀察到的,進(jìn)而導(dǎo)致結(jié)論不正確。

比如比爾蓋茨、喬布斯、扎克伯格都沒有念完大學(xué),所以大家都應(yīng)該退學(xué)去創(chuàng)業(yè)。這一結(jié)論的最大問題在于那些退學(xué)而又沒有成功的例子,很多時(shí)候我們是看不到的。另一方面,他們是因?yàn)榕1撇磐藢W(xué),而不是退學(xué)才牛逼的,看,相關(guān)性 / 因果性真是限魂不散。

再比如某打車軟件發(fā)現(xiàn)新用戶有 10 塊錢優(yōu)惠券,但是平均評(píng)價(jià)卻只有 3 星。相反,第二次再用的時(shí)候沒有優(yōu)惠券了,評(píng)價(jià)卻高達(dá) 4 星半。這說明,不給優(yōu)惠券用戶評(píng)價(jià)會(huì)更高,果然用戶雖然愛用優(yōu)惠券,但內(nèi)心還是覺得便宜沒好東西的?很明顯,幸存者偏差在這個(gè)例子里體現(xiàn)在那些打一星二星評(píng)價(jià)的用戶,之后可能就沒有第二次了。更明顯的,這個(gè)例子是我瞎扯的。

  圖片來源: Tumblr

樣本跟整體存在著本質(zhì)的不同

以知乎為例,會(huì)有種錯(cuò)覺人人年薪百萬,985/211 起,各種 GFSBFM,中國(guó)收入水平直逼灣區(qū)碼工。然而一方面這是幸存者偏差,知乎大 V 們的發(fā)聲更容易被看到(看,幸存者偏差也是陰魂不散)。另一方面,不要小瞧知乎跟中國(guó)網(wǎng)民的差別,以及中國(guó)網(wǎng)民跟中國(guó)老百姓的差別——樣本跟整體的差別。

類似的例子有水木的工作版塊、步行街的收入和華人網(wǎng)站的貧困線。

  圖片來源: http://i.stack.imgur.com/yZQgZ.gif

過于追逐統(tǒng)計(jì)上的顯著性 statistical significance

統(tǒng)計(jì) 101 告訴我們,要比較兩組數(shù)是否不同,最基本的一點(diǎn)可以看它們的區(qū)別是不是統(tǒng)計(jì)上顯著。

比如 LinkedIn 又要改版了(我為什么要說又呢),有兩個(gè)版本 A 和 B. 灰度測(cè)試發(fā)現(xiàn),跟現(xiàn)有版本比起來,A 的日活比現(xiàn)有版本高 20%,但是統(tǒng)計(jì)不顯著。而 B 的日活跟現(xiàn)有版本雖然只高了 3%,但是統(tǒng)計(jì)顯著。于是 PM 拿出統(tǒng)計(jì) 101 翻到第二頁說,來,咱們把統(tǒng)計(jì)顯著的版本 B 上線吧??啾频臄?shù)據(jù)科學(xué)家 DS 說,等一下!并不是所有時(shí)候都選統(tǒng)計(jì)顯著的那一個(gè),咱們?cè)倏纯窗姹?A 的數(shù)據(jù)吧(具體分析略過一萬字)。

很顯然,這個(gè)例子也是我瞎扯的。

  圖片來源: pinimg.com

不做數(shù)據(jù)可視化,以及更可怕的:做出錯(cuò)誤或者帶誤導(dǎo)性的數(shù)據(jù)可視化

比如 @謝科 這個(gè)回答里提到的

「數(shù)據(jù)會(huì)說謊」的真實(shí)例子有哪些? - 謝科的回答

在趨勢(shì)圖中,為了說明增長(zhǎng)趨勢(shì)多明顯,把 Y 調(diào)成不從 0 開始。這樣差距會(huì)看起來很大,增長(zhǎng)很大,但是如果把 Y 軸從 0 開始看的話,會(huì)顯得基本沒有差距。

  圖片來源: amazonaws.com

(一下步就是要編排一個(gè) Twitter 的例子了 23333,因?yàn)閿?shù)據(jù)分析表明,有 Twitter 公司這樣的例子讀起來會(huì)更有趣)

數(shù)據(jù)分析提供的結(jié)果和建議不具有可行性

Twitter 通過分析文本數(shù)據(jù)發(fā)現(xiàn)……

算了,我編不出來,由此可見,不具有可行性的結(jié)果雖然是“理論正確‘的分析結(jié)果,然并卵……

  圖片來源: twimg.com

不做數(shù)據(jù)分析

別笑,據(jù)某公司 PM 說,這是真的。

最后的大招:如何解釋 p-value

具體我就不講了, 講錯(cuò)了我明天還怎么面對(duì)老板和同事啊。

有興趣解釋 p-value 的歡迎留言。

  圖片來源: blogspot.com

  扣小米, 經(jīng)濟(jì)學(xué)博士生,在德國(guó)

不少容易出現(xiàn)的錯(cuò)誤在這個(gè)問題里都已經(jīng)介紹過: 「數(shù)據(jù)會(huì)說謊」的真實(shí)例子有哪些? - 數(shù)據(jù)

我只補(bǔ)充一個(gè),就是要保證研究的 可重復(fù)性(reproducibility) ,也就是說別人用同樣的數(shù)據(jù)和同樣的方法,能夠得出同樣的結(jié)果。這樣的好處是能夠保證分析結(jié)果的客觀,沒有人為篡改數(shù)據(jù),而且能夠很容易的發(fā)現(xiàn)哪里出現(xiàn)了問題。

為了保證可重復(fù)性,應(yīng)該堅(jiān)持對(duì)數(shù)據(jù)每一步的處理都有記錄。如果你使用的是寫代碼的軟件,當(dāng)然就不存在這個(gè)問題。不過如果使用的是點(diǎn)擊操作的軟件,比如 Excel(非 VBA),那就要小心。Excel 雖然方便,但是處理完數(shù)據(jù)后,很快就會(huì)忘了之前對(duì)數(shù)據(jù)做了些什么,如果之后出現(xiàn)什么問題就很難再查找了。

還有原始數(shù)據(jù)要保存好,我一般都會(huì)把原始數(shù)據(jù)(網(wǎng)上收集的、下載的、別人傳過來的等等)都備份一下,這樣之后如果要追根溯源也可以找到數(shù)據(jù)最開始的出處。

重要代碼多保存幾份,不管是放到云上還是本地硬盤?;蛘哂?GitHub。

“可重復(fù)性”對(duì)數(shù)據(jù)科學(xué)方面的專業(yè)人士來說可能是常識(shí),但在其他領(lǐng)域的學(xué)術(shù)研究中,不少人會(huì)忽視這一點(diǎn)。

因此,在 Coursera 上開數(shù)據(jù)分析課程的幾位統(tǒng)計(jì)學(xué)教授,專門在課上強(qiáng)調(diào)了這個(gè)問題,并在這篇文章中對(duì)可重復(fù)性研究的方法做了簡(jiǎn)單介紹:

Instead of research on reproducibility, just do reproducible research · Simply Statistics

客官,這篇文章有意思嗎?

原文鏈接:http://daily.zhihu.com/story/8539004?utm_source=tuicool&utm_medium=referral

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)