大數(shù)據(jù)分析技術(shù)應(yīng)用 揭秘谷歌票房預(yù)測模型

責(zé)任編輯:editor004

作者:史源

2015-01-08 11:30:57

摘自:36大數(shù)據(jù)

2013年6月,谷歌公布了一項重要研究成果 – 電影票房預(yù)測模型。(橫軸是預(yù)告片搜索量,縱軸是首周票房收入,灰色點對應(yīng)實際某部電影的首周票房收入,紅色點對應(yīng)預(yù)測的首周票房收入)

2013年6月,谷歌公布了一項重要研究成果 – 電影票房預(yù)測模型。該模型能夠提前一個月預(yù)測電影上映首周的票房收入,準確度高達94%。這在業(yè)內(nèi)引起了強烈討論,不少內(nèi)人士認為該模型非常適合好萊塢電影公司通過預(yù)測票房來及時調(diào)整電影營銷戰(zhàn)略,但同時也有吐槽者暗示谷歌的票房預(yù)測模型別有用心,旨在鼓動電影公司購買其搜索引擎廣告。那么,孰是孰非,谷歌票房預(yù)測模型以及大數(shù)據(jù)在電影行業(yè)的應(yīng)用是噓頭,還是大有來頭,讓我們來一探究竟。

谷歌票房預(yù)測模型的基礎(chǔ):電影相關(guān)的搜索量與票房收入的關(guān)聯(lián)

谷歌的票房預(yù)測模型是大數(shù)據(jù)分析技術(shù)在電影行業(yè)的一個重要應(yīng)用。隨著互聯(lián)網(wǎng)的發(fā)展,人們越來越習(xí)慣于在網(wǎng)上搜索電影信息。據(jù)谷歌統(tǒng)計,從2011到2012年,電影相關(guān)的搜索量增長了56%.谷歌發(fā)現(xiàn),電影相關(guān)的搜索量與票房收入之間存在很強的關(guān)聯(lián)。

圖1顯示了2012年電影票房收入(紅色)和電影的搜索量(灰色)的曲線(注:本文的所有圖片均引用自谷歌的白皮書:Quantifying Movie Magic with Google Search)??梢钥吹?,兩條曲線的起伏變化有著很強的相似性。

電影票房預(yù)測模型

 ?。t色是票房收入,灰色是搜索量,橫軸是月份,縱軸是數(shù)量)

更進一步地,谷歌把電影的搜索分成了兩類:

I. 涉及電影名的搜索(Movie Title Search);

II. 不涉及電影名的搜索(Non-Title Film-Related Search)。這類搜索不包含具體的名字,而是一些更寬泛的關(guān)鍵詞搜索,如“熱門電影”、“愛情片”、“好萊塢電影”等。

圖2顯示了票房收入與這兩類搜索量之間的關(guān)系。從圖上可以看到,大部分情況下,第I類搜索量超過第II類搜索量。但在電影淡季的時候(圖中灰色橢圓區(qū)域,這時候票房收入較低),第I類搜索量會低于第II類搜索量。這符合常理,因為在淡季的時候知名度高的電影很少,人們往往用更寬泛的搜索來尋找想看的電影。

電影票房預(yù)測模型

  圖2. 2012年票房收入和兩類搜索量的曲線

(紅色代表票房收入,藍色代表第I搜索,灰色代表第II類搜索,橫軸是月份,縱軸是數(shù)量)

這一發(fā)現(xiàn)對電影的網(wǎng)絡(luò)營銷來說有一定的指導(dǎo)意義:在淡季的時候,電影公司可多購買相對寬泛的關(guān)鍵詞的廣告,而在旺季的時候,多購買涉及電影名的、更具體的關(guān)鍵詞的廣告。

「提前一周預(yù)測票房,可達到92%的準確度」

上面的討論表明用電影的搜索量來預(yù)測票房是有可能的。那么,如果單純使用搜索量來預(yù)測首周票房收入,效果怎么樣?通過對2012年上映的99部電影的研究,谷歌發(fā)現(xiàn)僅依靠搜索量來預(yù)測是不夠的。谷歌嘗試構(gòu)建了一個線性的模型,但只達到了70%的準確度(如圖3)。

電影票房預(yù)測模型

  圖3. 搜索量與首周票房收入之間的關(guān)系

(橫軸是搜索量,縱軸是首周票房收入,灰色點對應(yīng)某部電影的搜索量與首周票房收入)

為了構(gòu)建更加精確的預(yù)測模型,谷歌最終采用了四類指標:

(1)(電影放映前一周的)電影的搜索量

(2)(電影放映前一周的)電影廣告的點擊量

(3)上映影院數(shù)量

(4)同系列電影前幾部的票房表現(xiàn)

其中每類指標又包含了多項類內(nèi)指標。

在獲取到每部電影的這些指標后,谷歌構(gòu)建了一個線性回歸模型(linear regression model)模型,來建立這些指標和票房收入的關(guān)系。線性回歸模型,在大數(shù)據(jù)分析領(lǐng)域里算是最基本的模型之一,它認為票房收入與這些指標之間是簡單的線性關(guān)系。

圖4展示了模型的效果,其中灰色點代表了實際的票房收入,紅色點代表了預(yù)測的票房收入??梢钥吹剑A(yù)測的結(jié)果與實際的結(jié)果差異很小。

電影票房預(yù)測模型

  圖4. 提前一周預(yù)測票房的效果

(橫軸是搜索量,縱軸是首周票房收入,灰色點對應(yīng)某部電影的首周票房收入,紅色點對應(yīng)預(yù)測的首周票房收入)

「提前一個月預(yù)測票房,可達到94%的準確度」

盡管提前一周預(yù)測可以達到92%的準確度,對于電影的營銷來說,價值并不大,因為一周的時間往往很難調(diào)整營銷策略,改善營銷效果。因此,谷歌又進一步研究,使得模型可以提前一個月預(yù)測首周票房。

實現(xiàn)提前一個月預(yù)測的關(guān)鍵在于:谷歌采用了一項新的指標 – 電影預(yù)告片的搜索量。谷歌發(fā)現(xiàn),預(yù)告片的搜索量比起電影的直接搜索量而言,可以更好的預(yù)測首周票房表現(xiàn)。這一點不難理解,因為在電影放映前一個月的時候,人們往往更多地搜索預(yù)告片。

僅使用預(yù)告片的搜索量仍然不夠,因此谷歌的模型最終采用了三類指標:

(1)電影預(yù)告片的搜索量

(2)同系列電影前幾部的票房表現(xiàn)

(3)檔期的季節(jié)性特征

其中每類指標又包含了多項類內(nèi)指標。

在獲取到每部電影的這些指標后,谷歌再次構(gòu)建了一個線性回歸模型(linear regression model)模型,來建立這些指標和票房收入的關(guān)系。

圖5展示了模型的效果,其中灰色點代表了實際的票房收入,紅色點代表了預(yù)測的票房收入??梢钥吹?,預(yù)測結(jié)果與實際結(jié)果非常接近。

電影票房預(yù)測模型

  圖5 提前一個月預(yù)測票房的效果

(橫軸是預(yù)告片搜索量,縱軸是首周票房收入,灰色點對應(yīng)實際某部電影的首周票房收入,紅色點對應(yīng)預(yù)測的首周票房收入)

為什么谷歌采用了這么簡單的模型

前面的分析中已經(jīng)提到,谷歌采用的是數(shù)據(jù)分析中最簡單的模型之一-線性回歸模型。這對很多讀者來說多少有點意外。為什么谷歌用的模型如此簡單?

首先,線性模型雖然簡單,但已經(jīng)達到了很高的準確度(94%)。簡單且效果好,是我們在實際應(yīng)用中一直追求的。

其次,簡單的模型易于被人們理解和分析。大數(shù)據(jù)分析技術(shù)的優(yōu)勢正是能夠從大量數(shù)據(jù)中挖掘出人們可以理解的規(guī)律,從而加深對行業(yè)的理解。正是因為谷歌使用了線性預(yù)測模型,所以它很容易對各項指標的影響做出分析。例如谷歌的報告中給出了這樣的分析結(jié)論:“距離電影上映一周的時候,如果一部影片比同類影片多獲得25萬搜索量,那么該片的首周票房就很可能比同類影片高出430萬美元。若一部電影有搜索引擎廣告,我們也可以通過其廣告的點擊量來推測票房表現(xiàn)——如果點擊量超出同類電影2萬,那該片首周票房將領(lǐng)先750萬美元”。

對于電影的營銷來說,掌握各項指標對票房收入的影響,可以優(yōu)化營銷策略,降低營銷成本。谷歌的報告中指出,用戶一般會通過多達13個渠道來了解電影的信息。票房預(yù)測模型的出現(xiàn)無疑使得營銷策略的制定更加有效。

大數(shù)據(jù)分析在電影行業(yè)的應(yīng)用前景:把模糊的行業(yè)經(jīng)驗變得更科學(xué),更精準

票房預(yù)測模型的公布,讓業(yè)內(nèi)人士再次見證了大數(shù)據(jù)的成功應(yīng)用。近年來,大數(shù)據(jù)在電影行業(yè)的應(yīng)用越來越引起關(guān)注,比如此前谷歌利用搜索數(shù)據(jù)預(yù)測了奧斯卡獲獎?wù)?,Neflix通過大數(shù)據(jù)分析深度挖掘了用戶的喜好,捧紅了《紙牌屋》等。但大數(shù)據(jù)對電影行業(yè)的價值到底如何,仍然眾說紛紜。夢工廠CEO卡森伯格最近接受騰訊財經(jīng)專訪時發(fā)表了一個似乎悲觀的態(tài)度:電影創(chuàng)作靠創(chuàng)造力,不靠數(shù)據(jù)分析。

要理解大數(shù)據(jù)對電影行業(yè)的影響,首先需要對大數(shù)據(jù)分析有正確的認識。大數(shù)據(jù)分析的本質(zhì),在于通過數(shù)據(jù),更精準地挖掘用戶的需求。而誰能掌握用戶的需求,誰就可以引領(lǐng)行業(yè)的發(fā)展。谷歌的票房預(yù)測模型,本質(zhì)上也是通過搜索量,挖掘出用戶對電影的需求有多大,進而預(yù)測出票房收入。值得注意的是,谷歌的模型基于的只是宏觀的搜索量的統(tǒng)計,對用戶需求的挖掘相對表面。如何從搜索數(shù)據(jù)中更深地挖掘用戶的需求將是未來的趨勢之一。

既然大數(shù)據(jù)分析的核心是挖掘用戶需求,所以一大核心問題是:哪些用戶的需求是可以從數(shù)據(jù)中挖掘到的?要知道,并不是任何需求都可以被挖掘到,或者說可以被精準地挖掘到。能夠通過大數(shù)據(jù)分析挖掘到的需求,一般是符合行業(yè)經(jīng)驗的,應(yīng)當是業(yè)內(nèi)人士覺得可以被挖掘的(有時候,挖掘出的需求可能會超出行業(yè)經(jīng)驗,甚至產(chǎn)生顛覆性的影響)。谷歌的預(yù)測模型的基本假設(shè),是符合行業(yè)直覺的,即電影的搜索量越大,往往票房收入越大。模型能夠提前一個月預(yù)測票房,也符合行業(yè)經(jīng)驗,正如谷歌的一項行業(yè)調(diào)研揭示的:大多數(shù)觀眾會在電影首映4周前去了解電影。數(shù)據(jù)分析技術(shù),是把這種模糊的行業(yè)經(jīng)驗,變得更科學(xué),變得更精準。而這一過程,很可能會深層次地改變電影行業(yè)。

要將大數(shù)據(jù)分析更廣泛地應(yīng)用于電影行業(yè),可以從以下幾個方面去探索:

一. 我們可以獲得哪些數(shù)據(jù)。大數(shù)據(jù)時代的特點是數(shù)據(jù)來源廣泛,可以是業(yè)內(nèi)發(fā)布的數(shù)據(jù),也可以是來自搜索引擎、社交媒體等的數(shù)據(jù)。有些數(shù)據(jù)看似關(guān)聯(lián)不強(比如社交媒體數(shù)據(jù)),但往往能從中挖掘到用戶的潛在需求。

二. 從數(shù)據(jù)中,我們想挖掘什么信息。谷歌的模型,挖掘了搜索量等數(shù)據(jù)與票房收入的關(guān)聯(lián);Netflix的模型,則挖掘了觀眾對不同電影的偏好,以及其他的行為特點。挖掘什么信息,一方面取決于我們有哪些數(shù)據(jù),另一方面也取決于什么樣的信息可能有助于商業(yè)決策。

三. 有什么行業(yè)經(jīng)驗是可以結(jié)合的。單純地數(shù)據(jù)分析,可能會找到很多規(guī)律,但這些規(guī)律未必是有實際價值的。只有當數(shù)據(jù)結(jié)合行業(yè)經(jīng)驗,才更容易形成精準的行業(yè)模型,從而產(chǎn)生巨大的價值。

而卡森伯格說的“不靠數(shù)據(jù)”,更多的是強調(diào)電影創(chuàng)作本身。電影的創(chuàng)作充滿了藝術(shù),是很難形成科學(xué)的規(guī)律的。即便如此,大數(shù)據(jù)對電影創(chuàng)作也可以起到一定的輔助作用。畢竟,了解觀眾的需求,也是電影創(chuàng)作的重要參考。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號