百度使用數(shù)據(jù)分析對2014高考作文題目預測這件事,值得再寫篇文章。這是一次相當成功的預測,據(jù)有人分析,預測“命中了全國18卷中12卷作文方向”。其實在我看來還不止如此,甚至可以說全中。不過這些都不重要,甚至高考也不重要。重要的是,大數(shù)據(jù)的這種玩法,會給世界帶來什么改變。
百度高考預測可以勝任高三考生報考決策指南的角色,它可以分析出全國大學和專業(yè)哪些熱門、哪些好考
錘子和釘子
中國高考作文的出題方法有個固定的套路:給你講一段小故事,然后讓你根據(jù)這個故事,想想自己受到什么啟發(fā),寫篇文章。換句話說你的作文重點根本不是這個故事,故事只是你要寫的主題的一個素材。
同一個素材,各人思考角度不同,可以對應不同的主題。但更重要的是,不同的素材可以對應同樣的主題。
比如全國卷的一個題目是“不要給野生動物喂食,否則它會喪失自己的覓食能力”。出題者的意圖顯然不是讓人寫一篇關于野生動物喂養(yǎng)的科普文章。
一個角度是把自己想象成野生動物,主題是年輕人應該自己闖蕩,不能依賴前人經驗的灌輸。這不就是百度預測“生命的多彩”中的“奮斗”、“自由”和“青春”嗎?而使用同樣的主題,只要把文章稍加修改,完全還可以對付上海市的作文題:“你可以選擇穿越沙漠的道路和方式,所以你是自由的;你必須穿越這片沙漠,所以你又是不自由的。”
另一個角度則是把自己想象成面對野生動物的人,那么主題就是要尊重自然,保護環(huán)境。這不就是百度預測“發(fā)展的困惑”中的“自然”、“環(huán)境”和“尊敬”嗎?同樣的主題下把文章稍加修改又可以對付遼寧省的作文題:“可惜漫天繁星沒有了,滄海桑田轉眼之間啊!當年那些祖先山洞邊點燃篝火,看月亮初升天漢燦爛,他們欣賞的也許才是美景。”
現(xiàn)在我們的關鍵問題來了。到底是主題多呢,還是素材多?答案當然是素材多。素材怎么編都可以,但全體高中生都能想明白和說明白的道理就那么幾個 — 具體說來,據(jù)百度數(shù)據(jù)分析發(fā)現(xiàn),只有六個方面而已。
只要一個人熟讀這六個方面各種可能主題的文章,掌握其寫作套路,不管高考出什么素材都能應對自如。
這就正如有句諺語說“如果你手里有一把錘子,你看什么東西都是釘子”。這句諺語本來是貶義的,意思是告誡人們不要把什么東西都往自己掌握的有限理論上套。比如近年來人們學會了進化心理學之后,就不管看到什么社會現(xiàn)象都想用進化心理學解釋,以至于我現(xiàn)在一聽進化心理學就渾身起雞皮疙瘩。
可是如果把這個錘子精神用在準備考試上,那是最好不過了 — 只不過你需要掌握的不是一把,而是六把錘子 — 有了這六把錘子就可以對付幾乎所有的高考釘子。其實錘子精神還可以用在領導講話上,任何事情都必須“高舉中國特色社會主義偉大旗幟,以鄧小平理論、“三個代表”重要思想為指導,深入貫徹落實科學發(fā)展觀……”這方面目前一共有三把常用錘子,它們總是同時出現(xiàn)。
那么百度發(fā)現(xiàn)這些錘子用的是什么技術呢?
主題模型
給你一篇文章,你怎么能看出來這篇文章是說什么的呢?具體說來,你怎么能讓機器知道這篇文章是說什么的呢?這個思想叫做“主題模型(topic modeling)”。
百度作文預測使用的主題模型技術叫做“隱含狄利克雷分布(Latent Dirichlet allocation,LDA)”。這是一個2003年才被提出的新技術,它的發(fā)明人之一正是剛剛加入百度,負責“百度大腦”項目的吳恩達。
LDA的基本思想非常簡單。計算機認為文章只不過是一些詞匯的集合。而每個主題,也只是一些關鍵詞的集合。計算機沒必要“理解”每個主題或者每個詞的意思,甚至根本不用管這些詞出現(xiàn)的先后順序。
我們人為地設定一些主題,并且在數(shù)據(jù)分析的幫助下給每個主題設定好關鍵詞。比如“狗”的主題下的關鍵詞可以包括“骨頭”、“汪星人”、“忠誠”、“朋友”等等,如果是最近的研究恐怕還要加上“廣西玉林”。這些關鍵詞的設定沒必要非常嚴格,到底哪個詞更重要可以交給機器去發(fā)現(xiàn)。
這樣我們就有了一個主題的集合,每個主題又都是一大堆關鍵詞的集合。同樣一個詞可以在多個主題中出現(xiàn),但是在不同主題下出現(xiàn)的概率是不同的。
計算機要做的僅僅是使用一定的數(shù)學方法對根據(jù)每篇文章中的詞匯進行分析。一篇文章拿過來,你要做的就是把事先設定的所有主題一個一個的過一遍,計算這篇文章中的詞匯對應每個主題的可能性是多少。計算結果,就是這篇文章說的是每個主題的概率大小。一篇文章也許可以有超過一個主題,這不是問題。關鍵在于,計算機可以判斷一篇文章最有可能說的是什么主題,第二可能說的是什么主題……這就相當于計算機已經“讀懂”了這篇文章。
百度只要把海量的作文都用這種方法分析一遍,就得到了各種不同主題的出現(xiàn)總概率。更進一步,再結合年度風云搜索信息和當年的熱點新聞信息,就可以判斷現(xiàn)在最流行的作文主題是什么了。
LDA有很多應用。只要把“文章”改成“圖像”,把“主題”改成“物體”,它就可以用來分析一張圖片中都有什么物體,并用于給圖像分類。它還可以用來分析音樂的樂句,再結合每首歌的受喜愛程度,就可以用于歌曲推薦。我猜主題模型的方法還可以用于分析新聞報道、電影劇本、小說和游戲情節(jié),這樣機器就能比任何文化批評家更早意識到現(xiàn)在流行什么。
如果機器如此厲害,人又當如何呢?
未來
設想幾年之后,所有考生都知道了百度能預測作文題。這些考生將會熟練掌握百度指出的任何主題。這樣一來,他們的高考作文成績將會非常接近 — 而這是出題者所不愿意看到的,因為高考的作用不是為了證明學生學得好,而是為了選拔,選拔要求必須有比分差距。
出題者怎么辦?他們必須打破俗套,發(fā)明全新主題!從這個意義上講數(shù)據(jù)分析帶來了社會進步。
但這有一個問題。數(shù)據(jù)分析會迅速發(fā)現(xiàn)這個新主題,并且促使它以比以往快得多的速度流行開來。等到所有考生都掌握了新的主題,這個新主題就又沒用了。
所以數(shù)據(jù)分析的真正作用是能讓好東西迅速流傳開來……然后迅速消亡。這里說的當然不只是高考作文,更重要的是電影劇情之類。
華爾街的金融公司使用各種數(shù)學模型進行股票交易。這些模型的特點是一開始如果只有你在用,你也許可以非常賺錢,可是一旦別人也開始用同樣的模型,那么市場就會在這方面變得越來越有效率,以至于這個模型的回報率就越來越低。于是你就只能再去發(fā)明一個新模型,一個更復雜的模型。直到這個模型也變得不好使。
結果華爾街就永遠需要新模型,而且越來越復雜,越來越不容易賺錢。這是一場軍備競賽。
主題也是如此。一個好使的主題會因為有太多人使用而變得不再好使,人們被迫發(fā)明新主題,但新主題也將會變得不好使。
這都是互聯(lián)網和數(shù)據(jù)分析帶來的。整個過程的節(jié)奏可能會越來越快。