運(yùn)用大數(shù)據(jù)分析方法,借助“機(jī)器文學(xué)算法”,北京郵電大學(xué)信息安全中心主任楊義先教授進(jìn)行了有趣的“唐詩(shī)揭秘”——對(duì)詩(shī)仙李白、詩(shī)圣杜甫等的詩(shī)詞進(jìn)行了“用字習(xí)慣”分析。
有些結(jié)果與直觀想像很接近;但是,確實(shí)另有一些結(jié)果比較出人意料,例如如果不允許李白使用姓氏字來(lái)寫(xiě)詩(shī),那么,他連一個(gè)完整的詩(shī)句都寫(xiě)不成,更甭談一首詩(shī)了。但是如果讓李白只使用姓氏字來(lái)寫(xiě)詩(shī),他也寫(xiě)不出,但是杜甫卻能夠?qū)懗鋈自?shī)來(lái)!神奇嗎?
【寫(xiě)詩(shī),原來(lái)是典型的大數(shù)據(jù)問(wèn)題!】
楊義先帶領(lǐng)的靈創(chuàng)團(tuán)隊(duì)告訴我們,從計(jì)算機(jī)科學(xué)角度來(lái)看,“寫(xiě)詩(shī)”其實(shí)是一個(gè)典型的“大數(shù)據(jù)分析與綜合”的過(guò)程。
關(guān)于綜合,先人們?cè)缇椭?ldquo;熟讀唐詩(shī)三百首,不會(huì)吟詩(shī)也會(huì)吟”。這其實(shí)就是大數(shù)據(jù)綜合!“綜合”越好,詩(shī)的水平就越高,因此,詩(shī)仙李白和詩(shī)圣杜甫可謂是“綜合高手”了。楊義先曾發(fā)布過(guò)能讓文盲寫(xiě)詩(shī)的《出詩(shī)表》,正是綜合大數(shù)據(jù)的最直觀的案例。
關(guān)于分析,最著名的歷史典故,該算賈島的“僧推月下門”或“僧敲月下門”了。但是,由于缺乏有力的分析工具,也由于樣本太小,因此,自古以來(lái),詩(shī)詞的分析過(guò)程都僅僅限于局部,比如,是“推”還是“敲”。
“分析”是“綜合”的基礎(chǔ)。反過(guò)來(lái),大量“綜合”知識(shí)的積累,又有利于提高“分析”的精準(zhǔn)度,從而大大改善“綜合”的結(jié)果。幾乎所有的現(xiàn)代和古代詩(shī)人都只 是在潛意識(shí)地進(jìn)行著,而且還將繼續(xù)進(jìn)行下去。如果能夠把這些思維過(guò)程,明確地呈現(xiàn)出來(lái),甚至建立相應(yīng)的模型,那么,肯定有助于高效地提高詩(shī)人的修養(yǎng),而 且,還有助于搞清楚人類的文學(xué)創(chuàng)作過(guò)程。在大數(shù)據(jù)時(shí)代,樣本素材的獲取有了重大改善,算法工具也開(kāi)始出現(xiàn),可以揭示某些千年以來(lái)不為人知的秘密。
【為何采用“姓氏”來(lái)分析詩(shī)中用詞?】
靈創(chuàng)團(tuán)隊(duì)使用機(jī)器文學(xué)算法、集合論的邏輯推理等分析工具,前者是其團(tuán)隊(duì)自主開(kāi)發(fā)的的一套計(jì)算機(jī)軟件,涉及到許多數(shù)學(xué)和密碼學(xué)的技巧,分析的基礎(chǔ)字集則是簡(jiǎn)單的《新華字典》、《中華單姓氏字集》等簡(jiǎn)單工具書(shū)。
按傳統(tǒng),每個(gè)朝代都有自己的官方字典。除了姓名等字之外,當(dāng)朝百姓和官文用字基本上都限于本朝的官方字典,而且,隨著朝代的成熟和穩(wěn)定,這種“向官方字典 靠攏”的現(xiàn)象會(huì)更加明顯。比如看看最重要的《十八大報(bào)告》:雖然它洋洋灑灑8萬(wàn)字,但是,其中互不相同的漢字卻只有897個(gè),而且,這897個(gè)字全都出自 《新華字典》,只有118個(gè)字不屬于《中華單姓氏字集》,可見(jiàn),姓氏字是多少普遍,竟然占有87%的用字比例?。?br />
從純粹的研究角度看,官方字典有一個(gè)嚴(yán)重缺點(diǎn),那就是它的不穩(wěn)定性。大清的《康熙字典》與《新華字典》可謂是天壤之別。但是,有一個(gè)字集卻是超級(jí)穩(wěn)定的,那就是《中華姓氏字集》,不管朝代如何更替,不管發(fā)生什么天災(zāi)人禍,姓氏字永遠(yuǎn)是代代相傳的。
【分析李白詩(shī)集:兩個(gè)“萬(wàn)萬(wàn)沒(méi)想到”】
李白一生,寫(xiě)詩(shī)約979首,共約8萬(wàn)字,其中只有3471個(gè)字是不重復(fù)的,兩個(gè)有感覺(jué)的分析結(jié)果是:
如果人人都是皇帝,即,其姓氏字都得避諱,那么,情況會(huì)怎么樣?答案是,李白的所有五言或七言詩(shī)中,沒(méi)有一個(gè)詩(shī)句是完整的,更不可能有一首完整的詩(shī)了!可見(jiàn),《中華姓氏字集》的“殺傷力”有多大!那么,《中華姓氏字集》的建設(shè)力大嗎?
這帶來(lái)第二個(gè)情況,如果只允許使用姓氏字,那么,情況又會(huì)怎么樣?這個(gè)答案也許就出乎您的意料了!因?yàn)?,如果只允許使用姓氏字,那么,李白一生竟然連一首詩(shī)也不能發(fā)表!
因此,對(duì)李白的詩(shī)集來(lái)說(shuō),《中華姓氏字集》的建設(shè)力非常有限。
【《唐詩(shī)三百首》的大數(shù)據(jù)分析揭秘】
既然李白能夠被《中華姓氏字集》搞傻,那么,唐朝的其它詩(shī)人命運(yùn)又怎樣?其它,結(jié)果也大同小異,但是,杜甫同志的命運(yùn)相對(duì)奇好!比如:
情況1)如果人人都是皇帝,即,其姓氏字都得避諱,那么,《唐詩(shī)三百首》中的每個(gè)詩(shī)句都會(huì)被殺死,更不可能有一首完整的詩(shī)了!即,《中華姓氏字集》的“殺傷力”很大!
情況2)如果只允許使用姓氏字,那么,《唐詩(shī)三百首》中也只有如下區(qū)區(qū)八首詩(shī)能夠幸存下來(lái),死亡率高達(dá)97%!可見(jiàn)《中華姓氏字集》的建設(shè)力非常有限。但是,杜甫運(yùn)氣特好,竟然有三首都是他的!注意:從宏觀上看,杜甫的用字,比李白更遠(yuǎn)離《中華姓氏字集》。
綜合而言,根據(jù)離開(kāi)《新華字典》和《中華姓氏字集》的距離,按從遠(yuǎn)到近的順序排列,結(jié)果是:杜甫、李白、《唐詩(shī)三百首》、《十八大報(bào)告》。但是,杜甫有三首詩(shī)的字全都來(lái)自于《中華姓氏字集》,而李白(運(yùn)氣不好)連一首也沒(méi)有!