579国产精彩视频在观看,国产精品福利午夜h视频

有些數(shù)據(jù)分析中常踩的坑，當(dāng)心別掉進(jìn)去

責(zé)任編輯：editor005

作者：鄒昕

2016-07-08 14:16:38

摘自：知乎日?qǐng)?bào)

經(jīng)典的冰淇凌銷量和游泳溺水人數(shù)成正比的數(shù)據(jù)，這并不能說明冰淇凌銷量的增加會(huì)導(dǎo)致更多的人溺水，而只能說明二者相關(guān)，比如因?yàn)樘鞜崴远邤?shù)量都增加了

錯(cuò)把相關(guān)性當(dāng)成因果性 correlation vs. causation

經(jīng)典的冰淇凌銷量和游泳溺水人數(shù)成正比的數(shù)據(jù)，這并不能說明冰淇凌銷量的增加會(huì)導(dǎo)致更多的人溺水，而只能說明二者相關(guān)，比如因?yàn)樘鞜崴远邤?shù)量都增加了。這個(gè)例子比較明顯，說起來可能會(huì)有人覺得怎么會(huì)有人犯這樣的錯(cuò)誤，然而在實(shí)際生活、學(xué)習(xí)、工作中，時(shí)不時(shí)的就會(huì)有人犯這樣的錯(cuò)誤。

舉個(gè)栗子

數(shù)據(jù)顯示，當(dāng)科比出手 10-19 次時(shí)，湖人的勝率是 71.5%;當(dāng)科比出手 20-29 次時(shí)，湖人的勝率驟降到 60.8%;而當(dāng)科比出手 30 次或者更多時(shí)，湖人的勝率只有 41.7%。

數(shù)據(jù)分析

　　圖片來源： statisticshowto.com

幸存者偏差 survivorship bias

數(shù)據(jù)分析中看到的樣本是“幸存了某些經(jīng)歷”才被觀察到的，進(jìn)而導(dǎo)致結(jié)論不正確。

比如比爾蓋茨、喬布斯、扎克伯格都沒有念完大學(xué)，所以大家都應(yīng)該退學(xué)去創(chuàng)業(yè)。這一結(jié)論的最大問題在于那些退學(xué)而又沒有成功的例子，很多時(shí)候我們是看不到的。另一方面，他們是因?yàn)榕１撇磐藢W(xué)，而不是退學(xué)才牛逼的，看，相關(guān)性 / 因果性真是限魂不散。

再比如某打車軟件發(fā)現(xiàn)新用戶有 10 塊錢優(yōu)惠券，但是平均評(píng)價(jià)卻只有 3 星。相反，第二次再用的時(shí)候沒有優(yōu)惠券了，評(píng)價(jià)卻高達(dá) 4 星半。這說明，不給優(yōu)惠券用戶評(píng)價(jià)會(huì)更高，果然用戶雖然愛用優(yōu)惠券，但內(nèi)心還是覺得便宜沒好東西的?很明顯，幸存者偏差在這個(gè)例子里體現(xiàn)在那些打一星二星評(píng)價(jià)的用戶，之后可能就沒有第二次了。更明顯的，這個(gè)例子是我瞎扯的。

　　圖片來源： Tumblr

樣本跟整體存在著本質(zhì)的不同

以知乎為例，會(huì)有種錯(cuò)覺人人年薪百萬，985/211 起，各種 GFSBFM，中國(guó)收入水平直逼灣區(qū)碼工。然而一方面這是幸存者偏差，知乎大 V 們的發(fā)聲更容易被看到(看，幸存者偏差也是陰魂不散)。另一方面，不要小瞧知乎跟中國(guó)網(wǎng)民的差別，以及中國(guó)網(wǎng)民跟中國(guó)老百姓的差別——樣本跟整體的差別。

類似的例子有水木的工作版塊、步行街的收入和華人網(wǎng)站的貧困線。

　　圖片來源： http://i.stack.imgur.com/yZQgZ.gif

過于追逐統(tǒng)計(jì)上的顯著性 statistical significance

統(tǒng)計(jì) 101 告訴我們，要比較兩組數(shù)是否不同，最基本的一點(diǎn)可以看它們的區(qū)別是不是統(tǒng)計(jì)上顯著。

比如 LinkedIn 又要改版了(我為什么要說又呢)，有兩個(gè)版本 A 和 B. 灰度測(cè)試發(fā)現(xiàn)，跟現(xiàn)有版本比起來，A 的日活比現(xiàn)有版本高 20%，但是統(tǒng)計(jì)不顯著。而 B 的日活跟現(xiàn)有版本雖然只高了 3%，但是統(tǒng)計(jì)顯著。于是 PM 拿出統(tǒng)計(jì) 101 翻到第二頁說，來，咱們把統(tǒng)計(jì)顯著的版本 B 上線吧?？啾频臄?shù)據(jù)科學(xué)家 DS 說，等一下!并不是所有時(shí)候都選統(tǒng)計(jì)顯著的那一個(gè)，咱們?cè)倏纯窗姹?A 的數(shù)據(jù)吧(具體分析略過一萬字)。

很顯然，這個(gè)例子也是我瞎扯的。

　　圖片來源： pinimg.com

不做數(shù)據(jù)可視化，以及更可怕的：做出錯(cuò)誤或者帶誤導(dǎo)性的數(shù)據(jù)可視化

比如 @謝科這個(gè)回答里提到的

「數(shù)據(jù)會(huì)說謊」的真實(shí)例子有哪些? - 謝科的回答

在趨勢(shì)圖中，為了說明增長(zhǎng)趨勢(shì)多明顯，把 Y 調(diào)成不從 0 開始。這樣差距會(huì)看起來很大，增長(zhǎng)很大，但是如果把 Y 軸從 0 開始看的話，會(huì)顯得基本沒有差距。

　　圖片來源： amazonaws.com

(一下步就是要編排一個(gè) Twitter 的例子了 23333，因?yàn)閿?shù)據(jù)分析表明，有 Twitter 公司這樣的例子讀起來會(huì)更有趣)

數(shù)據(jù)分析提供的結(jié)果和建議不具有可行性

Twitter 通過分析文本數(shù)據(jù)發(fā)現(xiàn)……

算了，我編不出來，由此可見，不具有可行性的結(jié)果雖然是“理論正確‘的分析結(jié)果，然并卵……

　　圖片來源： twimg.com

不做數(shù)據(jù)分析

別笑，據(jù)某公司 PM 說，這是真的。

最后的大招：如何解釋 p-value

具體我就不講了，講錯(cuò)了我明天還怎么面對(duì)老板和同事啊。

有興趣解釋 p-value 的歡迎留言。

　　圖片來源： blogspot.com

　　扣小米，經(jīng)濟(jì)學(xué)博士生，在德國(guó)

不少容易出現(xiàn)的錯(cuò)誤在這個(gè)問題里都已經(jīng)介紹過：「數(shù)據(jù)會(huì)說謊」的真實(shí)例子有哪些? - 數(shù)據(jù)

我只補(bǔ)充一個(gè)，就是要保證研究的可重復(fù)性(reproducibility) ，也就是說別人用同樣的數(shù)據(jù)和同樣的方法，能夠得出同樣的結(jié)果。這樣的好處是能夠保證分析結(jié)果的客觀，沒有人為篡改數(shù)據(jù)，而且能夠很容易的發(fā)現(xiàn)哪里出現(xiàn)了問題。

為了保證可重復(fù)性，應(yīng)該堅(jiān)持對(duì)數(shù)據(jù)每一步的處理都有記錄。如果你使用的是寫代碼的軟件，當(dāng)然就不存在這個(gè)問題。不過如果使用的是點(diǎn)擊操作的軟件，比如 Excel(非 VBA)，那就要小心。Excel 雖然方便，但是處理完數(shù)據(jù)后，很快就會(huì)忘了之前對(duì)數(shù)據(jù)做了些什么，如果之后出現(xiàn)什么問題就很難再查找了。

還有原始數(shù)據(jù)要保存好，我一般都會(huì)把原始數(shù)據(jù)(網(wǎng)上收集的、下載的、別人傳過來的等等)都備份一下，這樣之后如果要追根溯源也可以找到數(shù)據(jù)最開始的出處。

重要代碼多保存幾份，不管是放到云上還是本地硬盤?；蛘哂?GitHub。

“可重復(fù)性”對(duì)數(shù)據(jù)科學(xué)方面的專業(yè)人士來說可能是常識(shí)，但在其他領(lǐng)域的學(xué)術(shù)研究中，不少人會(huì)忽視這一點(diǎn)。

因此，在 Coursera 上開數(shù)據(jù)分析課程的幾位統(tǒng)計(jì)學(xué)教授，專門在課上強(qiáng)調(diào)了這個(gè)問題，并在這篇文章中對(duì)可重復(fù)性研究的方法做了簡(jiǎn)單介紹：

Instead of research on reproducibility, just do reproducible research · Simply Statistics

客官，這篇文章有意思嗎?

原文鏈接：http://daily.zhihu.com/story/8539004?utm_source=tuicool&utm_medium=referral

謝科數(shù)據(jù)可視化