目前清華大學(xué)圖書館館藏紙質(zhì)書達(dá)300多萬種,電子書600多萬種、近7萬種電子期刊、幾億篇文章,并采用專業(yè)的資源發(fā)現(xiàn)系統(tǒng)為用戶提供紙質(zhì)書和電子資源的整合檢索。資源發(fā)現(xiàn)系統(tǒng)自帶的知識庫包含7億多條高品質(zhì)的文章級元數(shù)據(jù),是龐大的元數(shù)據(jù)倉儲;此外,清華大學(xué)圖書館還在發(fā)現(xiàn)系統(tǒng)平臺匯集融合了從維基百科下載的開放數(shù)據(jù),以及由圖書館員收集整理的清華教工的學(xué)術(shù)簡介等。基于上述數(shù)據(jù)基礎(chǔ),清華大學(xué)圖書館在以下兩方面進(jìn)行了探索和實(shí)踐。
數(shù)據(jù)集成。清華大學(xué)圖書館嘗試在檢索平臺“水木搜索”上綜合運(yùn)用多來源數(shù)據(jù)。將書、刊、文章等元數(shù)據(jù)匯聚在一起用于檢索,用戶可通過開放鏈接技術(shù)定位及獲取資源;維基百科的詞條、清華教工簡介、豆瓣書評、清華學(xué)生打過的標(biāo)簽則在展示層與檢索結(jié)果關(guān)聯(lián),用戶可在一個檢索結(jié)果頁面獲得不同層次、不同角度的信息內(nèi)容。
挖掘數(shù)據(jù)價值。從目前情況看,圖書館的數(shù)據(jù)規(guī)模以及對數(shù)據(jù)處理的實(shí)效性雖遠(yuǎn)未達(dá)到大數(shù)據(jù)處理的需求,但是基于大數(shù)據(jù)開展的挖掘數(shù)據(jù)價值、提取知識的理念卻深深影響了圖書館的服務(wù)模式。
海量權(quán)威的元數(shù)據(jù)匯集到一起,蘊(yùn)藏了大量的知識,對基于數(shù)據(jù)的知識服務(wù)帶來重要影響。清華大學(xué)圖書館嘗試對這些數(shù)據(jù)集合做一些分析工作,即從元數(shù)據(jù)倉儲中提取關(guān)鍵詞等信息,分析關(guān)鍵詞走向,分析作者與合作者的關(guān)系,建立以人為中心的知識關(guān)聯(lián)網(wǎng)絡(luò)。
基于時間軸進(jìn)行趨勢分析。研究某學(xué)科領(lǐng)域在一個時間段的發(fā)展趨勢對了解該學(xué)科的發(fā)展脈絡(luò)、預(yù)測未來的發(fā)展方向至關(guān)重要。清華大學(xué)圖書館采用提取文章關(guān)鍵詞并分析關(guān)鍵詞在時間軸上分布的方法來給出該領(lǐng)域的發(fā)展趨勢。該服務(wù)的初步嘗試已得到讀者的良好反饋。
建立以學(xué)者為中心的知識關(guān)聯(lián)網(wǎng)絡(luò)。清華大學(xué)圖書館以海量多來源數(shù)據(jù)為基礎(chǔ),通過分析海量文獻(xiàn)數(shù)據(jù)的特點(diǎn),自動甄別出清華大學(xué)目標(biāo)學(xué)者(ThuRID),獲取目標(biāo)學(xué)者的學(xué)術(shù)出版物、與其緊密關(guān)聯(lián)的合作者、期刊會議等信息,應(yīng)用開放鏈接技術(shù)準(zhǔn)確定位清華學(xué)者學(xué)術(shù)出版物的全文,采用可視化視圖的方式直觀展示學(xué)者的學(xué)術(shù)歷程,以及以學(xué)者為中心的科研網(wǎng)絡(luò)。目前,清華大學(xué)圖書館已經(jīng)成功甄別出清華50位專家學(xué)者,并建立了以他們?yōu)橹行牡闹R關(guān)聯(lián)網(wǎng)絡(luò)。
清華大學(xué)圖書館用于分析的主要數(shù)據(jù)集合還是英文數(shù)據(jù),我們期待著和中國知網(wǎng)這樣的國內(nèi)數(shù)據(jù)提供商在數(shù)據(jù)挖掘及增值應(yīng)用方面有更多的合作。此外,中國知網(wǎng)在國內(nèi)外大力推廣數(shù)字出版,這使得建設(shè)一個從資源產(chǎn)生到資源應(yīng)用的快速通道成為可能,我們也在積極思考如何和中國知網(wǎng)攜手共建這個快速通道,也希望數(shù)字出版能從資源誕生那一刻起即考慮到與應(yīng)用環(huán)節(jié)的有機(jī)銜接,共同促進(jìn)知識的傳播與再利用。