“計(jì)算歷史學(xué)”(Computational Historiography或者干脆Computational History)是一個(gè)我杜撰的詞兒,一方面是迎合目前啥事前面都加“計(jì)算”的時(shí)尚,比如最唯物的有“計(jì)算廣告學(xué)”(Computational Advertising),最唯心的有“計(jì)算形而上學(xué)”(Computational Metaphysics),中間隔著計(jì)算數(shù)學(xué)、計(jì)算物理學(xué)、計(jì)算化學(xué)、計(jì)算生物學(xué)、計(jì)算語(yǔ)言學(xué)等等。這年頭,跳大神兒的要是不會(huì)個(gè)計(jì)算,都不好意思上春晚或江蘇衛(wèi)視。另一方面也是給中國(guó)做歷史的提個(gè)醒:大部分的中國(guó)哲學(xué)家翻譯水平已經(jīng)被谷歌或百度翻譯器趕超了,歷史學(xué)家要是再不上進(jìn),也快沒飯了。歷史學(xué)最近屢被自然科學(xué)進(jìn)犯,這不,前腳遺傳學(xué)剛走,大數(shù)據(jù)和計(jì)算又來了。隨便一個(gè)科學(xué)家都能到這兒玩?zhèn)€票。倒不是嚇唬誰(shuí),這回介紹個(gè)神器: Google Books Ngrams。不信不服。
谷歌的兩位創(chuàng)始人在斯坦福讀書時(shí)都在數(shù)字圖書館項(xiàng)目里干過活。早在2002年,谷歌還沒出大名時(shí),就啟動(dòng)了Google Print項(xiàng)目,要把全世界的數(shù)字圖書館項(xiàng)目統(tǒng)一起來。拉里·佩奇訪問了他的本科母校密歇根大學(xué),那里的圖書館學(xué)院是美國(guó)排名最靠前的之一,當(dāng)時(shí)正有數(shù)字圖書館項(xiàng)目,就是用數(shù)字掃描儀把圖書館的所有書掃描然后做字符識(shí)別。佩奇參觀了這個(gè)項(xiàng)目,結(jié)論是密歇根需要一千年才能把本校圖書館的書掃完。佩奇向校長(zhǎng)建議:我六年就能掃完全世界的。這還真不算什么,掃描和字符識(shí)別都是成熟的技術(shù),更重要的是谷歌有人,有錢,有效率。佩奇隨后又訪問了牛津最古老的Bodley圖書館,受到震撼,由此也和更多的大學(xué)圖書館結(jié)成伙伴關(guān)系:谷歌和這些圖書館合作數(shù)字化他們的所有書,從英文開始。
但三年后,谷歌迎來了兩場(chǎng)官司,一場(chǎng)是作者組織的集體訴訟,另一場(chǎng)則來自出版商。焦點(diǎn)自然是版權(quán)。2008年谷歌和出版商達(dá)成協(xié)議,同意為出版商和作者提供補(bǔ)償。谷歌隨后將Google Print項(xiàng)目改名為Google Books,在Google Books中,版權(quán)已過期的書全部公開,版權(quán)沒過期但得到授權(quán)的可通過“預(yù)覽”功能(Preview)部分地公開。但美國(guó)作協(xié)(Authors Guild,不知是不是中國(guó)作協(xié)的姐妹單位)對(duì)谷歌和出版商的協(xié)議不滿,認(rèn)為出版商不能代表作家的利益,于是又對(duì)谷歌提起訴訟。2011年,一位聯(lián)邦法官拒絕了谷歌和出版商的協(xié)議,于是“作協(xié)對(duì)谷歌”的案子正式進(jìn)入訴訟程序,直到2013年11月,聯(lián)邦法官陳卓光(Denny Chin)做出對(duì)谷歌有利的判決,他的根據(jù)是“公平使用”(fair use)原則。哈佛圖書館館長(zhǎng)羅伯特·達(dá)恩頓(Robert Darnton)2010年寫了本書講了這個(gè)案子的早期發(fā)展,書名很有意思,叫The Case for Books,但中文版譯名為《閱讀的未來》,沒有了原名的多重隱意。達(dá)恩頓作為歷史學(xué)家,只看到谷歌掃描書這一回事,卻并沒有意識(shí)到Google Books不止掃描,更多是企圖用機(jī)器理解被掃描的書的內(nèi)容。
到2010年,谷歌已經(jīng)掃了一千五百萬冊(cè)書,這時(shí)谷歌決定將已經(jīng)掃過的書的某些統(tǒng)計(jì)結(jié)果公開,這就是Google Books Ngrams。Ngrams是在文本中統(tǒng)計(jì)詞頻的算法。也就是說,書的內(nèi)容不一定公開,但關(guān)于書的詞頻統(tǒng)計(jì)結(jié)果可以公開,并且Google為Ngrams做了一個(gè)“顯示器”(Viewer),它可以畫出輸入的任何詞或詞組的詞頻統(tǒng)計(jì)結(jié)果。到2013年4月,已經(jīng)有超過三千萬冊(cè)書納入Google Books。一開始這些結(jié)果只被計(jì)算機(jī)科學(xué)家和計(jì)算語(yǔ)言學(xué)家所知,但現(xiàn)在越來越多的人文學(xué)者也開始玩起Ngrams了,估計(jì)用不了多久,這東西會(huì)成為字典一樣的必備工具。
下面通過幾個(gè)例子介紹Ngrams的用法。
例一、“黑鬼-黑人-非裔美國(guó)人”
上世紀(jì)六十年代美國(guó)黑人民權(quán)運(yùn)動(dòng)爆發(fā)之前,“黑人”普遍被歧視地稱為“黑鬼”(nigger),隨后則被稱為“黑人”。而近年來,“非裔美國(guó)人”變成更為政治正確的叫法。在Ngrams里輸入,nigger,black people和African-American,可以清晰地看到這一趨勢(shì)。橫坐標(biāo)是時(shí)間,縱坐標(biāo)是詞頻。(見圖一)
例二、“科學(xué)、哲學(xué)與宗教”
按照羅素在《西方哲學(xué)史》里的打油說法,科學(xué)是確定性的知識(shí),神學(xué)是不訴諸理性的教條,而哲學(xué)則介于兩者之間。比羅素晚一輩的美國(guó)哲學(xué)家蒯因可能不同意,他認(rèn)為哲學(xué)壓根就應(yīng)該是科學(xué)化的(Scientific Philosophy),但蒯因的學(xué)生輩大概是最后一撥科學(xué)化的哲學(xué)家:新起的一大票邏輯學(xué)家都出自數(shù)學(xué)系和計(jì)算機(jī)系,哲學(xué)系已剩不下什么“科學(xué)”的玩意兒了。如果哲學(xué)家們還不爭(zhēng)氣,再過個(gè)十年,也許Ngrams真會(huì)驗(yàn)證這個(gè)預(yù)測(cè)。在Ngrams中,分別輸入首字母大寫的“Science, Philosophy, Religion”,和小寫的“science, philosophy, religion”,我們得到如下兩張圖。在大寫的圖中(圖二),可以清楚看到在公元1600到1800年間,宗教是壓倒性強(qiáng)勢(shì),然后是哲學(xué),相比之下,科學(xué)還是沒影的事。但1850年是轉(zhuǎn)折點(diǎn),科學(xué)慢慢占據(jù)優(yōu)勢(shì),比宗教和哲學(xué)加起來都大。在小寫的圖中(圖三),科學(xué)和宗教的位置互換,晚了一百年。研究文化史和科學(xué)史的恐怕各自都有解讀。
科學(xué)史家勞拉·施耐德(Laura Snyder)寫過一本很有意思的微觀科學(xué)史著作《哲學(xué)早餐俱樂部》(The Philosophical Breakfast Club: Four Remarkable Friends Who Transformed Science and Changed the World)。講的是十九世紀(jì)初,四位劍橋的學(xué)生:查爾斯·巴貝奇(Charles Babbage,數(shù)學(xué)家兼工程師,某種意義上,他發(fā)明了最早的計(jì)算機(jī)), 約翰·赫歇爾(John Herschel, 天文學(xué)家兼數(shù)學(xué)家),胡威立(William Whewell,科學(xué)家、哲學(xué)家、神學(xué)家)和理查德·瓊斯(Richard Jones,經(jīng)濟(jì)學(xué)家),他們每個(gè)周日早上一起聚餐,討論科學(xué)問題。他們后來對(duì)科學(xué)事業(yè)和科研社團(tuán)(如皇家學(xué)會(huì))在英國(guó)的發(fā)展做出了巨大貢獻(xiàn)。那時(shí),他們不滿意被別人稱為“自然哲學(xué)家”,其中胡威立最早提出了“科學(xué)家”這個(gè)詞。這段有趣的故事提供了科學(xué)從哲學(xué)中分離的微觀歷史。如果在Ngrams里輸入“natural philosopher,scientist”,可以和勞拉的故事互為佐證。把微觀的課題放在宏觀的歷史語(yǔ)境(context)中,我們會(huì)學(xué)到更多。
例三、 文壇座次
中國(guó)文壇講究排座次,魯郭茅巴老曹,等等。前幾年也不知哪個(gè)瞎起哄非要把金庸也拉入伙。二話不說,先把老哥幾個(gè)的名字一順給Ngrams,看看咋說。注意:魯、郭的名字七十年代前的拼法分別為L(zhǎng)u Hsun和Kuo Mo-jo。兩秒鐘出結(jié)果:瞧人家畫的這圖,跟炒股曲線似的(見圖四)??梢钥闯鲷敔斀匚徊豢蓜?dòng)搖,八十年代末九十年代初有點(diǎn)技術(shù)性下滑,隨后又呈上升態(tài)勢(shì)。但貌似三四十年代,魯略輸郭。不明白為啥曹禺就不帶玩了呢,即使輸入老拼法Tsao Yu也不濟(jì)。金庸按說是這老幾位里英文最好的吧,但就是不受待見,把他小名路易·查良鏞(Louis Cha Leung-yung)算上,也不管用。這張小圖夠北大復(fù)旦那啥系的博導(dǎo)們喝一壺吧。順便再給中國(guó)作家們支個(gè)招:以后要想名垂千古,就給你們家子孫后代都取同一個(gè)名,英文名也一樣,無論性別,只要女眷能分清自己爺們就行。這招特適合代筆抄襲的。
例四、 美國(guó)歷史
過去是數(shù)學(xué)家研究自己的歷史,所以有“數(shù)學(xué)的歷史”,現(xiàn)在是數(shù)學(xué)家研究別人的歷史,所以有“歷史的數(shù)學(xué)”(Mathematics of History),這個(gè)詞兒還真不是我瞎編的,哈佛的兩位應(yīng)用數(shù)學(xué)家艾略茲·利伯曼·埃頓(Erez Lieberman Aiden)和讓-巴蒂斯特·米歇爾(Jean-Baptiste Michel)最近的主營(yíng)業(yè)務(wù)就是研究歷史,他們的任職單位是哈佛的IQSS(“定量社會(huì)科學(xué)研究所”),同時(shí)也在谷歌兼職,對(duì)谷歌的Ngrams項(xiàng)目有所貢獻(xiàn)。哥倆最近寫了本書《用大數(shù)據(jù)透視人類文化》(Uncharted: Big Data as a Lens on Human Culture),用通俗筆法介紹了他們的工作。書中提到了一個(gè)更有意思的例子。大家知道美國(guó)剛立國(guó)那會(huì)兒,各州之間是松散耦合,所以國(guó)名叫合眾國(guó)(United States),烏合之眾的意思。但內(nèi)戰(zhàn)之后,聯(lián)邦的凝聚力增強(qiáng),中央政府的權(quán)力也越來越大。埃頓和米歇爾用Ngrams查了兩個(gè)詞組:“United States are”和“United States is”??梢郧宄吹?,美國(guó)內(nèi)戰(zhàn)之前,民眾的心態(tài)確實(shí)烏合,“合眾國(guó)”原本是復(fù)數(shù),所以大家自己的認(rèn)同就是“are”,但現(xiàn)在的認(rèn)同自然是鐵板一塊的“is”了。他們半開玩笑地說:美國(guó)內(nèi)戰(zhàn)其實(shí)是單數(shù)和復(fù)數(shù)之戰(zhàn),最后單數(shù)贏了。(見圖五)
還是中國(guó)老人有智慧,啥事想不明白,就說:這事留給我們子孫后代解決。過去以為這是托辭,現(xiàn)在有了“計(jì)算”,覺得還真是那么回事。過去整不明白的事現(xiàn)在能“算”出來。1996年,IBM“深藍(lán)”計(jì)算機(jī)逼得最牛的人類棋手卡斯帕羅夫認(rèn)輸,就是靠的計(jì)算:“深藍(lán)”比卡斯帕羅夫能多看半步棋?,F(xiàn)在人所謂“下一盤很大的棋”就是比其他人多看好幾步。過去中國(guó)人追求“行萬里路,讀萬卷書”,其實(shí)就是抱著三字經(jīng)滿腦子范冰冰,坐高鐵去趟鐵嶺。但瞧人家谷歌—論行路:無人駕駛車已經(jīng)在加州辦好駕照了,而論讀書:Google Books把全世界的書都讀遍了,而且有問必答。這要是用下圍棋做比喻,人家得讓錢鍾書或者艾茲拉-龐德們多少子啊。
以賽亞·伯林當(dāng)年寫過篇文章“論科學(xué)化的歷史學(xué)”(The Concept of Scientific History),主旨是探討歷史學(xué)是否也能像科學(xué)那樣有個(gè)客觀標(biāo)準(zhǔn),憑那時(shí)的手段和見識(shí),這問題自然無解。也怪伯老師在牛津待的時(shí)間忒長(zhǎng),沒和同時(shí)代劍橋的圖靈過過招。但是伯林引用了英國(guó)前輩歷史學(xué)家亨利·托馬斯·巴克爾(Henry Thomas Buckle)的話說:歷史學(xué)之所以沒變成科學(xué),主要是因?yàn)闅v史學(xué)家的智力不如自然科學(xué)家。他設(shè)想如果伽利略、牛頓、拉普拉斯有時(shí)間順手玩點(diǎn)歷史的話,歷史學(xué),說不定早就變成科學(xué)的一分子了。話雖損了點(diǎn),但是出自歷史學(xué)家自己之口,至少誠(chéng)懇,而且還不能隨便給他扣“智商歧視”的帽子,就像黑人或猶太人開自己同胞的玩笑,外人管不著。依我看,“科學(xué)化的歷史學(xué)”擱現(xiàn)在就是“計(jì)算歷史學(xué)”。
司馬遷被腐刑之后,中國(guó)就沒人干實(shí)地考據(jù)了。即使人家都做好了,也懶得看?,F(xiàn)而今,坐綠皮火車去趟莫斯科圖書館回來就算中國(guó)史學(xué)界大事兒。其實(shí)要是真不想去做實(shí)際工作,莫斯科都太遠(yuǎn),去東莞整一山寨手機(jī),躺床上就能指導(dǎo)博士生。不信?我先出個(gè)題:“女權(quán)運(yùn)動(dòng)五百年全球發(fā)展史”。然后在Google Ngrams里偷偷敲“penis-逗號(hào)-clitoris”,并把起始時(shí)間設(shè)在公元1500年。瞧好吧,您吶。所謂“秀才不出門,便知天下事”。對(duì)了,這句話百度譯為:Without going outdoors, scholar knows all the worlds affairs。也可以意味深長(zhǎng)地簡(jiǎn)化為:Lying in the beds, the world can be in your heads。