大數(shù)據(jù)預(yù)測(cè)世界杯 八種方法誰(shuí)靠譜

責(zé)任編輯:jacky

2014-06-21 09:27:27

摘自:互聯(lián)網(wǎng)

西班牙、英格蘭連續(xù)兩場(chǎng)失利,小組賽即遭淘汰,不僅讓一些球迷傷心欲絕,讓彩民損失不小,還順便連累了眾多預(yù)測(cè)世界杯的高人欲哭無(wú)淚。微軟:相信EXCEL是萬(wàn)能的,但預(yù)測(cè)足球估計(jì)是萬(wàn)萬(wàn)不能的,不過(guò),人家說(shuō)奧斯卡、大選都預(yù)測(cè)對(duì)了,還是看結(jié)果吧。

西班牙、英格蘭連續(xù)兩場(chǎng)失利,小組賽即遭淘汰,不僅讓一些球迷傷心欲絕,讓彩民損失不小,還順便連累了眾多預(yù)測(cè)世界杯的高人欲哭無(wú)淚。

這屆世界杯在大數(shù)據(jù)火爆之后,不管是民間還是官方,都把大數(shù)據(jù)的概念運(yùn)用到了世界杯預(yù)測(cè)上,但這些預(yù)測(cè)真的準(zhǔn)嗎?下面選取國(guó)內(nèi)外主要的八種世界杯預(yù)測(cè),對(duì)他們的預(yù)測(cè)方法進(jìn)行簡(jiǎn)要的分析,看看誰(shuí)的更準(zhǔn)一些。

百度分析最傳統(tǒng)

據(jù)驗(yàn)證,今年全國(guó)高考作文題目18卷中12卷的作文方向被百度大數(shù)據(jù)預(yù)測(cè)命中,被戲稱“神預(yù)測(cè)”。因此,這次百度收集網(wǎng)上的綜合數(shù)據(jù),然后進(jìn)行整理、分析,最終通過(guò)大規(guī)模機(jī)器學(xué)習(xí)等人工智能技術(shù),開(kāi)始預(yù)測(cè)世界杯。

百度大數(shù)據(jù)研究院利用百度大數(shù)據(jù)全面搜索過(guò)去5年內(nèi)全世界987支球隊(duì)的3.7萬(wàn)場(chǎng)比賽數(shù)據(jù),并與國(guó)內(nèi)著名彩票網(wǎng)站樂(lè)彩網(wǎng)、歐洲必發(fā)指數(shù)獨(dú)家數(shù)據(jù)供應(yīng)商Spdex等公司建立數(shù)據(jù)戰(zhàn)略合作伙伴關(guān)系,將博彩市場(chǎng)數(shù)據(jù)融入到預(yù)測(cè)模型中,構(gòu)建了本次“世界杯預(yù)測(cè)”產(chǎn)品的足球賽事預(yù)測(cè)模型。該模型共涉及到19972名球員和1.12億條相關(guān)數(shù)據(jù),所參考的數(shù)據(jù)包括百度搜索數(shù)據(jù)、球隊(duì)基礎(chǔ)數(shù)據(jù)、球員基礎(chǔ)數(shù)據(jù)、賠率市場(chǎng)數(shù)據(jù)等,所分析的球隊(duì)不僅包括207支國(guó)家隊(duì),還囊括了歐洲、南美、亞洲等聯(lián)賽俱樂(lè)部及低級(jí)別球隊(duì)信息。

評(píng):百度用的是傳統(tǒng)的統(tǒng)計(jì)分析,注重近期球隊(duì)和球員表現(xiàn),這種預(yù)測(cè)是至今為止在技術(shù)上最穩(wěn)定的方法,但受意外因素(如天氣、傷病、裁判等)影響較大。到現(xiàn)在為止,百度成功預(yù)測(cè)對(duì)了智利的黑馬本色,卻遺漏了哥斯達(dá)黎加。

德銀根據(jù)各個(gè)球隊(duì)的FIFA排名、歷史戰(zhàn)績(jī)、球員構(gòu)成和賭場(chǎng)賠率等因素,建立了量化分析模型,并根據(jù)復(fù)雜計(jì)算得到一份奪冠概率表格,從奪冠概率表格中挑選出了前10強(qiáng),依據(jù)“輪流轉(zhuǎn)周期”,由此排除了2014年巴西、意大利和西班牙奪冠的可能性,然后根據(jù)另一個(gè)假設(shè):強(qiáng)隊(duì)會(huì)回來(lái),即奪取過(guò)世界杯的強(qiáng)隊(duì),未來(lái)必然還會(huì)奪取世界杯或至少打入一次決賽。最后,本屆英格蘭隊(duì)有6名隊(duì)員來(lái)自利物浦,而正是在利物浦的球員最多的1966年,英格蘭獲得了歷史上唯一一次世界杯冠軍。同時(shí),德銀報(bào)告的主筆人承認(rèn)自己是利物浦隊(duì)的鐵桿球迷,因此,最后確定英格蘭將獲得世界杯的冠軍。

評(píng):還好,德銀報(bào)告主筆不是中國(guó)隊(duì)的球迷!

高盛模型最神秘

高盛對(duì)世界杯決賽周32支國(guó)家隊(duì)的勝算,有它自己的一套評(píng)估方法(命名Elo),在所有因素中分量最重。Elo是高盛自設(shè)的動(dòng)態(tài)系統(tǒng),不斷根據(jù)球隊(duì)近績(jī)更新評(píng)分和排名。

為此,分析師要收集來(lái)多項(xiàng)數(shù)據(jù),包括:世界各個(gè)國(guó)家足球隊(duì)歷史成績(jī)數(shù)據(jù)庫(kù)給出的各隊(duì)排名得分;比賽中雙方球隊(duì)過(guò)去10場(chǎng)和5場(chǎng)比賽的進(jìn)球數(shù);比賽雙方是不是巴西主場(chǎng);比賽球隊(duì)是不是美洲球隊(duì);還有以往各隊(duì)在世界杯的進(jìn)球數(shù)優(yōu)于平時(shí)多少個(gè)。最后,他們把這幾項(xiàng)數(shù)據(jù)按照一定的權(quán)重相加到一起,可以得出每一個(gè)球隊(duì)在對(duì)陣另外某一個(gè)球隊(duì)時(shí)平均會(huì)進(jìn)多少個(gè)球。按照這樣的方式,從小組賽一路到最后決賽,每一場(chǎng)比賽雙方的進(jìn)球數(shù)都可以期望一番,最后獲得一個(gè)“最平均”的世界杯全程模擬結(jié)果。

評(píng):投行一貫的神秘模型來(lái)忽悠投資者,Elo模型就是高深黑洞,關(guān)鍵環(huán)節(jié)恕不奉告,至于準(zhǔn)確與否,只有神知道。

嚴(yán)格的講,以上幾家的世界杯預(yù)測(cè)都不能算“大數(shù)據(jù)分析”,只是傳統(tǒng)的統(tǒng)計(jì)分析,雖然數(shù)據(jù)“大”,但并未融合多種因素綜合考慮,可見(jiàn)在專業(yè)領(lǐng)域還是相信經(jīng)典理論。

霍金想法最?yuàn)蕵?lè)

霍金收集了大量的數(shù)據(jù),包括歷史記錄、溫度、球場(chǎng)的海拔高度等,把所有數(shù)據(jù)都集中起來(lái),分析你事先不知道的事情,或許能發(fā)現(xiàn)一些規(guī)律。它的原理不是傳統(tǒng)的分析,更多的是基于關(guān)系的一種預(yù)測(cè)。霍金19頁(yè)的分析結(jié)果是關(guān)于如何提高英格蘭隊(duì)的奪冠幾率,但最后卻拋出一個(gè)讓英格蘭球迷傷心的終極結(jié)論:個(gè)人更看好巴西隊(duì)奪冠?;艚鹫J(rèn)為英格蘭隊(duì)首先需要在海拔500米以下的球場(chǎng)比賽,氣溫的提升會(huì)降低贏球可能,在巴西當(dāng)?shù)貢r(shí)間15時(shí)是最好的比賽時(shí)間。從球隊(duì)自身來(lái)說(shuō),433陣型無(wú)疑是奪冠的節(jié)奏,而且必須穿上紅色戰(zhàn)袍。提到點(diǎn)球大戰(zhàn),霍金認(rèn)為助跑必須不少于三步,如果速度上不去,進(jìn)球幾率只有58%。瞄準(zhǔn)上角的點(diǎn)球有84%的命中率,金發(fā)和禿頭的球員射中的概率達(dá)到更高的84%,前鋒的進(jìn)球概率超過(guò)80%,中場(chǎng)與后衛(wèi)遞減。

評(píng):霍金老爺爺最近幾年很喜歡預(yù)測(cè),還預(yù)測(cè)過(guò)世界將在兩百年之后滅亡,這次娛樂(lè)世界杯一下,也算是比黑洞要沾地氣。如果預(yù)測(cè)對(duì)了,建議用這個(gè)理由把早就該屬于霍金的諾貝爾獎(jiǎng)發(fā)了吧。

科隆體育最繁瑣

德國(guó)科隆體育學(xué)院根據(jù)復(fù)雜的計(jì)算機(jī)模擬測(cè)算得出的本屆世界杯預(yù)測(cè)結(jié)果:科隆體育學(xué)院的格羅爾教授領(lǐng)導(dǎo)研究小組以自己設(shè)計(jì)的計(jì)算機(jī)模擬算式一共進(jìn)行了10萬(wàn)次測(cè)算,綜合考慮各隊(duì)的世界排名、足彩賠率、市值、預(yù)選賽表現(xiàn),還包括可能的傷病、戰(zhàn)術(shù)、氣候條件、主場(chǎng)優(yōu)勢(shì)因素。他們預(yù)測(cè),巴西隊(duì)與阿根廷隊(duì)將爭(zhēng)冠,衛(wèi)冕冠軍西班牙有可能止步小組賽,從西荷大戰(zhàn)那個(gè)驚悚的5比1賽果,看來(lái)德國(guó)人的模擬測(cè)算還有靠譜的。

評(píng):德國(guó)人的嚴(yán)謹(jǐn)是出了名的,而且竟然沒(méi)有預(yù)測(cè)德國(guó)奪冠,對(duì)于西班牙卻一語(yǔ)中的,估計(jì)他們現(xiàn)在都在祈禱決賽的預(yù)測(cè)是錯(cuò)誤的,否則作為物理學(xué)家的默克爾總理不會(huì)答應(yīng)。

熊貓預(yù)測(cè)夭折了

世界杯開(kāi)幕前,據(jù)媒體報(bào)道,中國(guó)保護(hù)大熊貓研究中心稱將派出一到兩歲的熊貓寶寶來(lái)預(yù)測(cè)世界杯。小組賽階段,主辦方會(huì)拿出三個(gè)竹筐代表主隊(duì)的勝平負(fù),熊貓寶寶則通過(guò)選擇哪個(gè)筐里的食物來(lái)預(yù)測(cè)比賽結(jié)果。等到了淘汰賽,熊貓寶寶們還會(huì)通過(guò)爬樹(shù)和賽跑來(lái)預(yù)測(cè)結(jié)果。前者是讓熊貓爬上掛有一方球隊(duì)國(guó)旗的樹(shù)木來(lái)預(yù)測(cè),后者則是兩個(gè)熊貓寶寶分別穿上兩隊(duì)球衣,通過(guò)誰(shuí)先跑到目的地來(lái)預(yù)測(cè)比賽結(jié)果。就在世界杯開(kāi)賽之后,“熊貓預(yù)測(cè)世界杯”活動(dòng)已經(jīng)被取消。

評(píng):本來(lái)要頂替章魚(yú)保羅的國(guó)寶沒(méi)了用武之地,國(guó)人還是缺乏點(diǎn)娛樂(lè)精神,借此機(jī)會(huì)宣傳下大熊貓,有何不可,萬(wàn)一要是預(yù)測(cè)對(duì)了,那大熊貓基地豈不成了大師圣地,還愁旅游不火?

微軟相信EXCEL

微軟必應(yīng)大數(shù)據(jù)之前曾多次成功預(yù)測(cè)奧斯卡獎(jiǎng)項(xiàng)、投票大選。微軟的預(yù)測(cè)考慮過(guò)往比賽歷史、主場(chǎng)客場(chǎng)、地理位置、草坪狀況、天氣以及“群眾智慧”等等多種因素,還使用大量的公開(kāi)數(shù)據(jù)——博彩市場(chǎng)、民意調(diào)查、社交媒體以及其它在線數(shù)據(jù),利用大數(shù)據(jù)分析來(lái)判斷每場(chǎng)比賽的結(jié)果。據(jù)說(shuō)這一切都是用EXCEL來(lái)完成的,我們權(quán)當(dāng)其是軟件推廣策劃吧。

微軟:相信EXCEL是萬(wàn)能的,但預(yù)測(cè)足球估計(jì)是萬(wàn)萬(wàn)不能的,不過(guò),人家說(shuō)奧斯卡、大選都預(yù)測(cè)對(duì)了,還是看結(jié)果吧。

雅虎相信網(wǎng)絡(luò)流言

雅虎用輕博客網(wǎng)站Tumblr的數(shù)據(jù)來(lái)估計(jì)每支國(guó)家隊(duì)的優(yōu)勢(shì),最終計(jì)算出最可能獲勝的是巴西。雅虎研究小組分析的前提是,Tumblr上所有有關(guān)世界杯的討論都具有一定價(jià)值。為了查明哪些國(guó)家將相互較量,小組會(huì)根據(jù)之前比賽的結(jié)果為每支隊(duì)伍賦予優(yōu)勢(shì)值。針對(duì)每一次比賽,雅虎會(huì)利用名為泊松分布不同參數(shù)的概率論來(lái)估計(jì)每一支隊(duì)伍可能的進(jìn)球數(shù)量。

評(píng):雅虎相信的是目前最火的社交網(wǎng)絡(luò)數(shù)據(jù),據(jù)說(shuō)可以預(yù)測(cè)傳染病和犯罪現(xiàn)場(chǎng),不知道對(duì)足球是否有效?

(據(jù)說(shuō)美女主持穿什么球衣,什么球隊(duì)就輸球,而美女的球衣選擇是靠網(wǎng)民投票出來(lái)的,所以,也證明了冷門太多)

當(dāng)然,雖然很多人相信大數(shù)據(jù)能夠幫助我們預(yù)測(cè)世界杯,也有不可預(yù)測(cè)派。美國(guó)的洛斯·阿拉莫斯國(guó)家實(shí)驗(yàn)室的三位統(tǒng)計(jì)物理學(xué)家曾經(jīng)對(duì)大型體育比賽的賽況進(jìn)行數(shù)據(jù)化分析,發(fā)現(xiàn)在棒球、曲棍球、籃球、橄欖球以及足球五大項(xiàng)目中,足球比賽是其中最具懸念,賽果最具不確定性的,弱旅戰(zhàn)勝?gòu)?qiáng)隊(duì)的概率居高不下,即使使用科學(xué)方法也未能得到準(zhǔn)確的預(yù)測(cè)。

說(shuō)實(shí)話,作為統(tǒng)計(jì)專業(yè)人士,對(duì)足球預(yù)測(cè)不敢太相信,體育比賽確實(shí)可以預(yù)測(cè),足球也不例外,但足球項(xiàng)目影響因素太多,特別是世界杯足球比賽相對(duì)場(chǎng)次不多、間隔周期太長(zhǎng),致使數(shù)據(jù)量很小,比賽中又有太多的主觀因素(比如裁判),有時(shí)候這種比賽的預(yù)測(cè)和算命沒(méi)什么差別。

如果要問(wèn)為何總有人預(yù)測(cè)正確?正如一家報(bào)紙所說(shuō),每屆世界杯都會(huì)有無(wú)數(shù)的“保羅”,大部分都在前幾次猜測(cè)失敗后從媒體視線中消失。貝利也不是真正的烏鴉嘴,只不過(guò)他預(yù)測(cè)成功的時(shí)候沒(méi)有后續(xù)報(bào)道。預(yù)測(cè)大師都是這樣練成的!

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)