甲骨文研究搭上大數(shù)據(jù)快車
甲骨文研究中,考釋和綴合是公認(rèn)的重點(diǎn)和難題。隨著時(shí)代的發(fā)展,傳統(tǒng)的甲骨文研究手段逐漸遇到瓶頸:已發(fā)現(xiàn)的5000多個甲骨文字中能夠明確破譯出來的只有1500字左右,余下的3000多字,或音不可卒讀,或義不可明喻,或形不可構(gòu)照,考釋難度非常大,傳統(tǒng)考釋方法效果非常不明顯,如何才能解決這些難題?
探尋大數(shù)據(jù)云計(jì)算新路徑
大數(shù)據(jù)、云計(jì)算的發(fā)展為甲骨文研究提供了新的路徑和方法。2000年,地處甲骨文發(fā)源地的安陽師范學(xué)院組建了甲骨文信息化處理團(tuán)隊(duì)。16年來,圍繞甲骨文信息處理,學(xué)院積極整合校內(nèi)資源,組成一支跨專業(yè)、多學(xué)科聯(lián)合攻關(guān)的學(xué)術(shù)團(tuán)隊(duì)。憑借已經(jīng)建成的甲骨文數(shù)據(jù)庫的優(yōu)勢,安陽師范學(xué)院甲骨文信息處理團(tuán)隊(duì)開始嘗試?yán)谜Z言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、信息技術(shù)對甲骨文進(jìn)行語義、語法處理和知識挖掘。
“我們希望通過努力,實(shí)現(xiàn)甲骨文研究從傳統(tǒng)的‘文獻(xiàn)查閱—經(jīng)驗(yàn)積累—突發(fā)冥想的研究范式’到‘大數(shù)據(jù)分析—多源異構(gòu)信息融合—機(jī)器學(xué)習(xí)和知識推理’的新的甲骨文研究范式。”安陽師范學(xué)院副院長姚遠(yuǎn)峰說。
開發(fā)甲骨文數(shù)字化平臺
開創(chuàng)新的研究范式,就要探索新的研究方法。安陽師范學(xué)院甲骨文信息處理團(tuán)隊(duì)根據(jù)成員自身研究方向和甲骨文研究趨勢,重點(diǎn)開展了甲骨文語義、語法、字形、數(shù)據(jù)挖掘研究。
韓江蘇是安陽師范學(xué)院歷史與文博學(xué)院的博士,在研究中她發(fā)現(xiàn)甲骨文的考辨研究成果豐富,但因?yàn)槿狈θ嫦到y(tǒng)的整理,檢索起來非常困難。能不能把圖、文、字結(jié)合起來,開發(fā)一個既全面又便捷的信息化資料庫?為了將這一想法付諸實(shí)踐,2001年,韓江蘇牽頭成立了“甲骨文信息化課題組”,并于2004年申報(bào)國家社科基金課題。十年辛苦磨一劍,2011年11月,課題最終成果——“甲骨文圖文資料庫”迎來了專家組的檢查驗(yàn)收。資料庫收錄了《甲骨文合集》《補(bǔ)編》《英藏》等九種甲骨著錄共72264片甲骨。5位國家社科基金鑒定專家認(rèn)為,該資料庫是目前世界上資料最全、檢索最為方便、功能定位最明確的甲骨文資料庫。
劉永革是安陽師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院院長,也是甲骨文數(shù)字化平臺研究小組的負(fù)責(zé)人。劉永革介紹,他們團(tuán)隊(duì)建設(shè)的甲骨文數(shù)字化平臺已錄入7萬多條甲骨片資料,是目前國內(nèi)外最大最全的甲骨文電子信息庫。
電腦上輸入甲骨文字,查找相應(yīng)釋義,還能查看該字多種寫法的所有甲骨圖片,這是以前想都不敢想的事情,現(xiàn)已變成現(xiàn)實(shí)。劉永革說:“甲骨文數(shù)字化平臺為甲骨文研究者提供了一個多方位研究手段,未來,我們將朝著把‘一片甲骨驚天下’變成‘數(shù)字甲骨驚天下’的方向不斷努力。”
讓計(jì)算機(jī)成為“甲骨文專家”
甲骨文專家知識對甲骨文信息處理起著至關(guān)重要的作用,但是甲骨文專家知識的共享和傳承程度極低。如何讓計(jì)算機(jī)享有甲骨文專家的知識,為甲骨文進(jìn)行知識挖掘奠定基礎(chǔ)?構(gòu)建甲骨文知識圖譜是甲骨文信息處理團(tuán)隊(duì)一直努力的方向。“將甲骨文及相關(guān)學(xué)科的知識構(gòu)建成大規(guī)模知識網(wǎng)絡(luò),這樣我們就可以讓計(jì)算機(jī)成為‘甲骨文專家’,我們就可以借此開展進(jìn)一步的研究。”甲骨文信息處理團(tuán)隊(duì)成員熊晶說。甲骨文是目前發(fā)現(xiàn)最早的成系統(tǒng)的文字,現(xiàn)代漢字在語法和造字上與甲骨文是一脈相承的,熊晶以此還提出了以甲骨文為源頭的“漢字基因”和“漢字家族”的概念,漢字的演變歷史就是“漢字基因”的選擇、交叉和變異過程。“我希望通過漢字的遺傳算法計(jì)算,找到甲骨文破譯的突破口。”熊晶說。
此外,安陽師范學(xué)院甲骨文信息處理團(tuán)隊(duì)還著手構(gòu)建甲骨文拓片網(wǎng)絡(luò)——借助甲骨拓片數(shù)據(jù)庫,針對每個未識別甲骨字,通過多次計(jì)算,保留該字“可能性最大的前10~20個語義”,并把這個結(jié)果作為輔助考釋線索提供給甲骨文專家,再由專家針對這些數(shù)量不多的“可能性最大的語義”進(jìn)行下一步專業(yè)的推測和判斷;甲骨文單字網(wǎng)絡(luò)——構(gòu)建包括甲骨文演化、拓片、語義、構(gòu)件的多源異構(gòu)復(fù)雜網(wǎng)絡(luò),進(jìn)而利用復(fù)雜網(wǎng)絡(luò)的自組織演化、可控性、信息挖掘和智能算法優(yōu)化等多個方面解決甲骨文的重大問題;甲骨文語言可拓模型——將甲骨文語言形式化為可拓模型,建立起可拓甲骨文語言模型庫,再通過對可拓模型的變換與推理使計(jì)算機(jī)用可拓方法理解甲骨文語言,為甲骨學(xué)研究提供一種新的計(jì)算機(jī)輔助研究方法。
安陽師范學(xué)院院長黑建敏表示,甲骨文是祖先賜給我們的珍貴禮物,未來,學(xué)院將利用大數(shù)據(jù)、云平臺等現(xiàn)代技術(shù)手段,進(jìn)一步加大甲骨文研究力度,傳承好、發(fā)揮好甲骨文的作用,為弘揚(yáng)中華文明作出安師人應(yīng)有的貢獻(xiàn)。