大數(shù)據(jù)文摘作品,歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈;其他機(jī)構(gòu)、自媒體轉(zhuǎn)載,務(wù)必后臺(tái)留言,申請(qǐng)授權(quán)。
前言
在分析領(lǐng)域中,因果性和相關(guān)性的使用是不精確的。人們傾向于互換使用這兩個(gè)詞,但并不知道隱藏其中的基本邏輯。顯然,人們被這兩個(gè)詞的(英文)發(fā)音所迷惑,最終將它們用在錯(cuò)誤的地方。但我要提醒注意的是,除了發(fā)音相似,這兩個(gè)詞并沒有很多相同之處。事實(shí)上,它們的基本含義可謂相去甚遠(yuǎn)!
讓我們通過以下的一些例子,來理解因果性和相關(guān)性之間的區(qū)別。分析下面這些場(chǎng)景,請(qǐng)回答在兩個(gè)事件X和Y之間是否有因果性。答案在后面。
例1:X( 學(xué)生被錄取的學(xué)院的級(jí)別)=> Y (畢業(yè)后的收入)
假設(shè):精英商學(xué)院學(xué)生的收入比平均水平高。這些商學(xué)院是獲得更好工作的原因嗎?
例2: X (抽煙)=> Y(精神壓力水平)
假設(shè):抽煙的人被發(fā)現(xiàn)精神壓力更大。抽煙是導(dǎo)致壓力的原因嗎?
例3:X(有孩子)=> Y (成熟度)
假設(shè):人們?cè)谟辛撕⒆雍蟾墒?有孩子是成熟度更高的原因嗎?
例4: X (海拔)=> Y(溫度)
假設(shè):我們觀測(cè)到海拔較高時(shí),溫度較低。這意味著,海拔越高就越冷。那么,更高的海拔是導(dǎo)致更低溫度的原因?
希望上面的例子會(huì)觸發(fā)你的學(xué)習(xí)欲望,并且讓你興奮地想多學(xué)一點(diǎn)。盡管這不是一個(gè)剛被發(fā)現(xiàn)的話題,但是人們?nèi)詻]有切實(shí)掌握使用這些術(shù)語。因此,我試圖用最簡(jiǎn)單的方式來解釋因果性和相關(guān)性的各個(gè)方面。
本文中,我將解釋因果性和相關(guān)性之間的區(qū)別,接著學(xué)習(xí)只有相關(guān)性還是有因果關(guān)系。如果你想在分析行業(yè)有扎實(shí)的基礎(chǔ),理解這個(gè)概念是非常必要的,而目前分析就像在一些黑匣子上工作。這些技術(shù)(因果性和相關(guān)性)不只是局限于分析行業(yè),它們的應(yīng)用遍及所有的行業(yè)。
一起來看看答案:
例1:不存在因果性。比如,只有那些從精英商學(xué)院中被選中的雄心勃勃且聰明的人,后來才獲得比平均水平高的收入。因此,就算這些學(xué)生沒有在那些精英商學(xué)院學(xué)習(xí),他們?nèi)耘f可能得到比平均水平高的收入。于是,在這種情況下,我們有可替代的推理。
例2:不存在因果性。我們可以基于逆因果性來推翻假設(shè)。比如,較大的精神壓力事實(shí)上能讓一個(gè)人去抽煙。
例3:不存在因果性。再一次地,我們可以基于逆因果性來推翻假設(shè)。比如,只有成熟的人可能準(zhǔn)備好了要生孩子。我們也可以用年齡作為潛在的原因來替代。更大的年齡導(dǎo)致想生孩子和更成熟。
例4:不存在因果性 。我們當(dāng)然知道,逆因果性是不可能存在的??商娲脑蚧蛳嗷オ?dú)立的關(guān)系也是不存在的。
結(jié)論:如果你能正確地回答這所有的4個(gè)問題,你可以進(jìn)入下一個(gè)概念了。假如你做錯(cuò)了任何一題,你也許需要在因果性問題上多加練習(xí)。
什么是建立因果關(guān)系的關(guān)鍵點(diǎn)?
建立因果關(guān)系的關(guān)鍵點(diǎn)對(duì)(X = > Y)是:
1、可替換推理:若存在一個(gè)可替換的原因(Z),Z確實(shí)對(duì)X和Y都有影響,即Z => X和Z => Y為真,就那么可以推翻假設(shè)X => Y。
2、逆因果性:如果可以用Y影響X來替換X影響Y,那么可以根據(jù)逆因果性來推翻假設(shè)X => Y。
3、相互獨(dú)立:有時(shí)候X和Y也許是“被相關(guān)”,而再無其它聯(lián)系。在這樣的情況下,根據(jù)相互獨(dú)立性可以推翻假設(shè)。
我們?nèi)绾文艽_定得到因果性?
在類似制藥領(lǐng)域中,建立因果對(duì)是非常重要的。這正是制藥領(lǐng)域要完成足夠多的研究來找到因果對(duì)的原因。在開始數(shù)學(xué)推導(dǎo)前,要理解下面的一些定義。
1、隨機(jī)實(shí)驗(yàn)數(shù)據(jù):一種實(shí)驗(yàn)通常被定義成在不同條件下隨機(jī)分配觀測(cè)單元,條件隨著對(duì)觀測(cè)單元的處理而不同。“處理”(treatment)是一個(gè)通用的術(shù)語,在醫(yī)療應(yīng)用中最容易翻譯(例如,不同情況對(duì)病患得到不同的治療),但是它也適用于其它領(lǐng)域。
2、觀測(cè)數(shù)據(jù):如果沒有太多的錢做隨機(jī)測(cè)試,就不得不在已有數(shù)據(jù)資源上下功夫。在不受控的情況下,這樣的事件已經(jīng)發(fā)生了。因此,選擇不是隨機(jī)的。
由觀測(cè)數(shù)據(jù)推導(dǎo)出因果關(guān)系是非常困難的,且不具有結(jié)論性。在因果關(guān)系上要獲得具有結(jié)論性的結(jié)果,需要做隨機(jī)測(cè)試。
為什么觀測(cè)數(shù)據(jù)不具有結(jié)論性?
觀測(cè)數(shù)據(jù)不具有結(jié)論性,是因?yàn)橛^測(cè)數(shù)據(jù)不是隨機(jī)選擇的。我們永遠(yuǎn)無法從單個(gè)的因果對(duì)上得出結(jié)論。
2. 例如,如果大量從精英商學(xué)院畢業(yè)的學(xué)生獲得更高收入;這不能推出因果性,因?yàn)檫x擇是基于最初的表現(xiàn)。
3.無論如何,如果隨機(jī)從精英商學(xué)院中選取學(xué)生,這個(gè)分析將會(huì)在建立因果性上更具有結(jié)論性。
為什么不是每一次都進(jìn)行隨機(jī)測(cè)試來建立因果性?
你將會(huì)因?yàn)槎喾N原因被要求利用觀測(cè)數(shù)據(jù)而不是測(cè)試數(shù)據(jù)工作。
第一個(gè)原因是,做測(cè)試需要資金。例如,如果你的假設(shè)是給消費(fèi)者免費(fèi)的iPhone,這個(gè)活動(dòng)會(huì)對(duì)蘋果公司的銷售帶來增量收益。在不知道任何因果關(guān)系時(shí),做這個(gè)測(cè)試當(dāng)然是個(gè)耗資巨大的提議。
第二個(gè)原因是,不是所有的測(cè)試在道德上都是被允許的。例如,如果想知道抽煙是否對(duì)精神壓力產(chǎn)生影響,需要讓正常人抽煙,而這從道德上來說是不被允許的。
在那種情況下,如何利用觀測(cè)數(shù)據(jù)建立因果性?
在這一具體問題上,已經(jīng)完成了大量的研究。這些方法的整體目標(biāo),是消除任何未觀測(cè)到變量的影響。下面,將介紹一些眾所周知的技術(shù):
一、面板模型(普通回歸):若至少在一個(gè)維度上,不可觀測(cè)到的維度是不變的,那么用這個(gè)方法就非常方便。例如,如果在時(shí)間上,不可觀測(cè)到的維度是不變的,就可以試著建立一個(gè)面板模型,從不可觀測(cè)到的維度上分離出偏差。比如,以商學(xué)院=>高收入為例子,假設(shè)不可觀測(cè)到的維度不隨著時(shí)間而改變。
來試試這個(gè)方法。
下面是個(gè)Y(收入)的回歸方程,以精英商學(xué)院(下標(biāo)T)和不可觀測(cè)到的維度(下標(biāo)U)為變量
2. 但是,因?yàn)椴豢捎^測(cè)到的維度不隨著時(shí)間而改變,可以將方程簡(jiǎn)化如下:
3. 現(xiàn)在,可以通過隨著時(shí)間產(chǎn)生的差別來消除不可觀測(cè)到因素
現(xiàn)在,問題是在商學(xué)院和收入之間找到因果性的確切系數(shù)。
二、模擬控制:觀測(cè)數(shù)據(jù)最大的問題是在同一個(gè)數(shù)據(jù)點(diǎn),無法同時(shí)獲取得到處理和未經(jīng)處理的數(shù)據(jù)。比如,在前面提到的抽煙例子里, 一個(gè)人不能同時(shí)既是抽煙者又是不抽煙者。
但是,如果可以為得到處理的數(shù)據(jù)在未經(jīng)處理組找到看起來很像的數(shù)據(jù),然后在相似數(shù)據(jù)中比較得到處理的反應(yīng)結(jié)果。這是在如今的行業(yè)中應(yīng)用最普遍的方法。
這種相似性可以在近鄰算法、k-d樹或其它算法中找到。打個(gè)比方,兩個(gè)人,他們年齡一樣,性別一樣,收入一樣等等。其中一人開始抽煙,另一人則不抽煙?,F(xiàn)在,如果其它條件沒有變化,那么可以在一段時(shí)間內(nèi)比較他們的壓力水平。
從理論上講,這個(gè)方法聽起來讓人非常興奮,它通常是難以創(chuàng)建純模擬或虛擬控制,有時(shí)它能產(chǎn)生也許不正確的結(jié)論。這事實(shí)上是將來另外一篇不同文章的主題。
三、輔助變量(IV):這或許是最難實(shí)施的。下面是實(shí)施這技術(shù)的步驟:
找到因果對(duì)。
2.找到跟原因有關(guān)的屬性,但是這跟通過回歸因果對(duì)獲得的誤差無關(guān)。這個(gè)變量就是已知的輔助變量(IV)。
3.現(xiàn)在利用輔助變量(IV)估計(jì)原因變量。
4.試試回歸估計(jì)因果對(duì)來找到因果性的實(shí)際參數(shù)。
到目前為止,我們完成了什么?
利用觀測(cè)數(shù)據(jù),在因果對(duì)中使用任何回歸技術(shù)都有偏差系數(shù)。用這種方式,可以得到無偏差的估計(jì)。比如,在抽煙——精神壓力對(duì)中,我們也許認(rèn)為會(huì)被逆因果性所影響。
現(xiàn)在,如果可以找到和卷煙消費(fèi)量而不是和精神壓力有關(guān)的信息,也許能找到真正的關(guān)系。通常,輔助變量(IV)是基于調(diào)整的變量。例如,我們發(fā)現(xiàn)稅收管理只提高了卷煙的價(jià)格,導(dǎo)致整個(gè)模型里的卷煙消費(fèi)量下降?,F(xiàn)在可以試試按上面提到的4個(gè)步驟來找找精神壓力因果性。
4. 回歸不連續(xù)性設(shè)計(jì):這是我最喜愛的選擇。它使得觀測(cè)數(shù)據(jù)真正接近實(shí)驗(yàn)設(shè)計(jì)。
在下圖中,我們發(fā)現(xiàn)一個(gè)維度,其上有一個(gè)峰值,該峰值位于得到處理和未經(jīng)處理的群體比例上。假設(shè),我們想測(cè)試在課程結(jié)束時(shí),獎(jiǎng)學(xué)金對(duì)大學(xué)生成績(jī)的影響。注意,獎(jiǎng)學(xué)金是提供給在入學(xué)考試中得分在80分以上的學(xué)生。發(fā)生扭轉(zhuǎn)的地方就在這里:因?yàn)檫@些學(xué)生已經(jīng)很聰明,未來他們也許繼續(xù)保持頂尖水平。因此,這是一個(gè)難以破解的因果性。
但是,如果把成績(jī)剛剛在80分以下(比如說79.9分)的學(xué)生和成績(jī)剛剛在80分之上(比如說80.1分)的學(xué)生在學(xué)期結(jié)束時(shí)的成績(jī)做一比較。假設(shè)那些得分為79.9的學(xué)生和得分為80.1的學(xué)生不會(huì)有很大的差別,只有獎(jiǎng)學(xué)金的作用可以改變。這就是所謂的準(zhǔn)隨機(jī)選擇。
因此,得到的結(jié)果會(huì)很接近完美的因果性結(jié)論。使用這種方式的唯一挑戰(zhàn),在于得到這樣一個(gè)維度是非常難的,而它能在得到處理和未經(jīng)處理的群體之間進(jìn)行很好的劃分。
結(jié)束語
在分析領(lǐng)域中,建立因果性也許是最難的任務(wù)。得到錯(cuò)誤因果性的概率異常高。本文章討論的關(guān)鍵概念將較好地幫助你解決因果性問題。
就以這些幽默的話題結(jié)束這篇文章吧。這里有些圖片顯示了相關(guān)性和因果性的不同。
虛假的相關(guān)性:
文章來源:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/
大數(shù)據(jù)文摘編譯者簡(jiǎn)介
姚佳靈家庭主婦,對(duì)數(shù)據(jù)分析和數(shù)據(jù)處理方面的知識(shí)很感興趣,正在努力學(xué)習(xí)中??敌⌒啦┦?,多年從事圖像及數(shù)據(jù)處理和分析、計(jì)算機(jī)視覺、模式識(shí)別、機(jī)器學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的技術(shù)研究和創(chuàng)新應(yīng)用,現(xiàn)為西門子中國(guó)研究院高級(jí)研究員。希望借此平臺(tái),與大數(shù)據(jù)分析愛好者以及專家學(xué)者交流、合作。