特朗普“意外”勝選并不是大數(shù)據(jù)出了錯(cuò)
北京時(shí)間11月15日消息,據(jù)外媒報(bào)道,希拉里在大選投票開始前曾一路領(lǐng)先,在各種統(tǒng)計(jì)數(shù)據(jù)上她都力壓特朗普,大多數(shù)人堅(jiān)信她會(huì)成為美國首任女總統(tǒng)。不過結(jié)果大家也知道,希拉里輸了。于是人們開始怪罪數(shù)據(jù),覺得它們并非萬能。
不過,其實(shí)希拉里的敗選并非數(shù)據(jù)之錯(cuò),真正出問題的是預(yù)測和分析,而這兩項(xiàng)任務(wù)是人類來主導(dǎo)的。數(shù)據(jù)還是那個(gè)數(shù)據(jù),但分析的人卻缺乏深度。
大數(shù)據(jù)之辯
關(guān)于這次大選預(yù)測和分析失誤的爭論一般都集中在兩點(diǎn):1.民調(diào)方式是否出錯(cuò);2.民調(diào)數(shù)據(jù)未能反映社會(huì)真實(shí)狀況。
確實(shí),許多民調(diào)都低估了特朗普支持者的實(shí)力。上周二的大選也成了民調(diào)行業(yè)的又一個(gè)黑歷史,此前它們就因?yàn)轭A(yù)測錯(cuò)誤而廣遭質(zhì)疑,同時(shí),它們還面臨著數(shù)個(gè)結(jié)構(gòu)性難題。不過,民調(diào)的本意并非用來預(yù)測,它們只是盛滿數(shù)據(jù)點(diǎn)眾多籃子中的一個(gè)。
本次大選結(jié)果跌破眼鏡的主要原因是我們未能跳出民調(diào)的牢籠并找出提升政治預(yù)測準(zhǔn)確度的數(shù)據(jù)集,而這將成為情緒波動(dòng)時(shí)代預(yù)測大選的關(guān)鍵。
數(shù)據(jù)的準(zhǔn)確度并未降低,只是我們必須以創(chuàng)新的眼光看待它。
就拿數(shù)據(jù)分析公司Predata來說,它們就換了個(gè)方式來理解數(shù)據(jù)。鑒于路邊采訪的民調(diào)逐漸向互聯(lián)網(wǎng)轉(zhuǎn)變,該公司專門開發(fā)了采集網(wǎng)民民意變化信號(hào)的方法,為了收集這些信號(hào),該公司每天都要分析成千上萬個(gè)數(shù)據(jù)點(diǎn)。
人類的失誤,非大數(shù)據(jù)之過
在希拉里必勝新聞的刺激下,分析師錯(cuò)估了形勢,忽視了特朗普在佛羅里達(dá)和其他搖擺州的巨大領(lǐng)先優(yōu)勢。這不是數(shù)據(jù)之錯(cuò),而是人之失誤。
所有的數(shù)據(jù)集和數(shù)據(jù)預(yù)測模型,即使是那些依靠人工智能來分析的預(yù)測,從一定程度上來說,都會(huì)帶有它們創(chuàng)造者的偏見。因此,無論是民調(diào)還是預(yù)測,都帶有極強(qiáng)的主觀性。收集數(shù)據(jù)、處理數(shù)據(jù)、解析數(shù)據(jù)的過程是大數(shù)據(jù)分析的必由之路,我們需要懂得的是這些數(shù)據(jù)到底能告訴我們什么,懂得它的潛力和極限并學(xué)會(huì)在不同背景下如何精確的對(duì)其進(jìn)行分析。
彌合極客與詩人間的鴻溝
在大選上,極客(即數(shù)據(jù)科學(xué)家)與詩人(新聞報(bào)道者)之間存在巨大的文化差異,上周二的大選結(jié)果也顯示,兩者都無法獨(dú)占真理。如果想在紛繁的數(shù)據(jù)中去偽存真,就必須將兩者的觀點(diǎn)結(jié)合起來。
也就是說,想要正確預(yù)測大選,我們不但要掌握第一手?jǐn)?shù)據(jù),還得重視各種觀點(diǎn)犀利的報(bào)道,這樣才能將數(shù)據(jù)與現(xiàn)實(shí)相結(jié)合,得出兩者之間的交集。
在大數(shù)據(jù)的海洋中,人類依然是一葉扁舟,大選預(yù)測的偏差并不是我們放棄這一科學(xué)方法的理由。相反,這次挫折是讓我們時(shí)刻保持謙虛,在失敗中成長的催化劑。只有借助靈活的思想和對(duì)極限的認(rèn)識(shí),我們才能讓大數(shù)據(jù)分析重回正軌。