文化資源是體現(xiàn)一個國家文化實力的核心要素,也是國家文化及文化產(chǎn)業(yè)發(fā)展的基礎和源頭。我國對各類物質(zhì)和非物質(zhì)文化資源數(shù)字化工作的開展,為我們利用大數(shù)據(jù)分析等先進技術,加強對中華文化的充分認知和深入挖掘利用提供了前所未有的契機和條件。
如何利用大數(shù)據(jù)等先進信息技術的手段,進一步加深對中華民族幾千年文明史的系統(tǒng)了解和認知,在更好地支撐我國文化產(chǎn)業(yè)發(fā)展的同時,促進中華文化血脈的傳承延續(xù),是科技部高技術中心在組織開展科技部委托的“國家文化科技創(chuàng)新戰(zhàn)略研究”項目過程中意識到的重大問題。
日前,由該中心主辦的主題為“大數(shù)據(jù)技術在文化資源管理中的應用”的“西苑沙龍”在京召開。沙龍邀請了國內(nèi)研究大數(shù)據(jù)技術和模式識別、中文信息處理、知識挖掘等先進信息技術以及有關文化藝術創(chuàng)作、文化企業(yè)等方面的專家學者,圍繞著大數(shù)據(jù)技術在加強文化資源管理中的作用、需求和技術途徑等方面問題,展開了一場跨學科、跨領域的深刻討論。
歷史文化資源大數(shù)據(jù)與分析技術
大數(shù)據(jù)是指數(shù)據(jù)量大,但究竟怎樣的量才算大,目前并沒有統(tǒng)一的定義。一般認為,大數(shù)據(jù)的數(shù)量級至少應該達“太字節(jié)”(tb)以上。因為達到了這個量級以上的數(shù)據(jù),利用現(xiàn)有it技術和軟硬件工具將難以實現(xiàn)在可容忍的時間內(nèi),對其進行有效感知、獲取、管理、處理和利用,必須要開發(fā)新的數(shù)據(jù)管理和處理軟硬件技術,才能滿足應用需求。
隨著各類數(shù)字化文化資源信息的不斷產(chǎn)生,各類數(shù)字化文化資源庫的不斷建立與完善,在客觀上為我們建立了一個龐大的、具有大數(shù)據(jù)特征的數(shù)據(jù)庫和資源庫。這為我們進一步利用大數(shù)據(jù)分析等先進的信息技術手段,實現(xiàn)對這些文化資源信息的整合、梳理、分析、凝練,提供了前所未有的基礎和條件。
其中,基于數(shù)字化的歷史文化資源大數(shù)據(jù)是有計劃地對各類歷史文化資源數(shù)字化所形成的大數(shù)據(jù)信息。對這類數(shù)據(jù)的有效管理和充分挖掘、利用,或許是大數(shù)據(jù)及其分析技術最為重要的應用角度和需求。
1947年春天,一名牧童在死海附近的一個山洞里發(fā)現(xiàn)了一些殘缺不堪的手稿。1948年至1956年間,研究人員又在死海西北基伯昆蘭曠野陸續(xù)發(fā)現(xiàn)11個藏有手稿的洞穴。十多年間,考古學家發(fā)掘出近4萬古卷殘片,種類多達600多種。這些手稿大部分用希伯來文寫在羊皮上,公元前二三世紀到公元70年間寫成,記錄了大量關于《圣經(jīng)》和基督教起源的重要信息。這在近代考古史上非常罕見,被稱為20世紀最偉大的考古發(fā)現(xiàn)之一。這就是著名的“死海古卷”。
利用數(shù)據(jù)處理技術,“死海古卷”機器近幾年自動修復的效率,已經(jīng)與數(shù)百人類專家過去一個世紀的成果相當。另外,梵高、勃魯蓋爾等大師畫作鑒別精準度達到了95%以上。這些都是目前利用大數(shù)據(jù)分析技術進行畫作鑒別、古文獻修復、歷史文物分析等取得的驚人成果。
中華文化與信息孤島
一個國家、民族的文化資源是其文明發(fā)展的歷史過程中沉積形成的獨有資產(chǎn),具有唯一性和不可擴展等特點。因此,具有不可估量的文化、經(jīng)濟和社會價值和意義,是代表一個國家文化軟實力的核心內(nèi)容和象征要素,也是各類文化藝術產(chǎn)品創(chuàng)作的基礎資料和源泉。
青花瓷背后還有哪些我們不知曉的特點?手工織造對于現(xiàn)代工藝是否有所啟發(fā)?經(jīng)過幾千年的文化沉淀,先輩給我們留下了無數(shù)的財富,但僅靠少數(shù)的專家一件一件文物的深究,對于進一步發(fā)掘文明成果來說,是否仍不成體系,不甚具體,不夠全面?或者在這些文化瑰寶里,有著更多我們不了解的東西?
大數(shù)據(jù)分析技術在歷史文化分析研究的成果,對于我們進一步加深對中華民族文明發(fā)展的歷史,認知、辨識中華文化“基因”、延續(xù)文脈,明確我國文化建設應加強保護、傳承和對外傳播的重點內(nèi)容,制定國家文化發(fā)展戰(zhàn)略具有重要的意義。
第三次文物普查表明,現(xiàn)在在不可移動文物總數(shù)已經(jīng)達到了76.6722萬件;在可移動文物,預計在3億件組的規(guī)模。每年我國有100個博物館新增,平均三天就出現(xiàn)一個博物館。目前很多博物館、圖書館,以及非物質(zhì)文化遺產(chǎn)保護組織與部門,正在以不同方式、為不同的應用目的,開展著對各類歷史文化資源的數(shù)字化工作,客觀上形成了一個前所未有的難得的中華文化資源大數(shù)據(jù)匯集。
但由于這些數(shù)字化資源分散在不同的單位、部門,且基本沒有統(tǒng)一的格式標準,形成了一系列新的“信息孤島”。出于各種原因,各自獨守一攤,各類數(shù)據(jù)如果無法匯集到一起,也就難以充分發(fā)揮其應有的作用。
文化部民族民間文藝發(fā)展中心主任李松認為,傳統(tǒng)文化資源數(shù)字化整備技術應用能力低下,體制機制制約使得資源碎片化,行政制約非常嚴重。國家文物局博物館與社會文物司副司長羅靜表示,在數(shù)據(jù)融合方面,信息的“孤島”也是非常嚴重的。就海量數(shù)據(jù)來說,如果沒有通過一定的融合、整合,其實它還是海量數(shù)據(jù),而不是大數(shù)據(jù)。此外,文化數(shù)據(jù)整體框架上面也存在碎片化的狀態(tài)。
文化與科技的共同任務
如何消除這些信息孤島?如何有效整合各自整理出的數(shù)字化文化資源?如何利用大數(shù)據(jù)分析技術對這些資源的價值進行進一步的挖掘和利用?
在現(xiàn)行體制下,專家期望通過一定的技術手段,以及適宜的共享共建機制,構建一個實際或虛擬的數(shù)據(jù)交匯中心或平臺,整合各類數(shù)據(jù)資源。以便在此基礎上,進一步發(fā)揮計算機中文信息處理、模式識別、知識挖掘等大數(shù)據(jù)分析技術的優(yōu)勢,加強文化研究,促進我們對中華文化的認知和保護利用。
也正因此,面向各類文化研究、文化藝術創(chuàng)作、文化管理等用戶提供更為優(yōu)質(zhì)、高效的信息服務,便成為了一個需要文化與科技相關領域共同探討、推進的任務。
專家們認為,根據(jù)歷史文化資源數(shù)據(jù)信息來源及其結構多元、主要應用領域、方式與用戶多樣等特點,面向歷史文化資源管理的大數(shù)據(jù)分析系統(tǒng),應是數(shù)據(jù)來源和應用端開放的,能夠實現(xiàn)對數(shù)據(jù)提供相關主體和各類用戶共建共享的數(shù)據(jù)管理平臺。
為建立開放共享的數(shù)據(jù)交匯中心,需要建立技術系統(tǒng)構架,并需解決的四方面的技術問題:建立數(shù)字化標準;設計統(tǒng)一的跨平臺中間件;實現(xiàn)高效的數(shù)據(jù)共享;加強對應用于文化資源大數(shù)據(jù)分析的基礎技術的集成利用。
同時,加強各類數(shù)字文化資源的共享利用,不但需要有適宜的技術支撐,同時也需要面對應用需求和客觀現(xiàn)實條件,加強頂層設計,在組織管理模式和保障措施上有所創(chuàng)新。
首先應加強對我國文化數(shù)字資源管理的系統(tǒng)規(guī)劃。明確總體目標、任務和發(fā)展戰(zhàn)略,提出有利于促進國家文化資源信息大數(shù)據(jù)管理利用的,由國家和社會相關機構共享共建的組織機制、商業(yè)模式和技術框架與標準。
第二可通過國家層面的文化資源管理與共享工程的組織,引導有關圖書、文物、非遺保護部門以及各類文化企業(yè)、研究機構等有關單位和組織,共同圍繞國家文化資源管理的發(fā)展戰(zhàn)略和目標,開展各類歷史文化數(shù)字資源庫的建設,及其價值挖掘研究和綜合利用產(chǎn)品開發(fā)。
第三可通過建立國家數(shù)字文化資源整合管理虛擬平臺等方式,從技術上為各類、各源的文化資源大數(shù)據(jù)的整合、交匯和綜合利用,以及安全維護、利益分配和知識產(chǎn)權保護等提供支撐。
第四是開展形式多樣的應用示范,選擇若干重點文化主題,組織開展系統(tǒng)深入的文化研究;并充分發(fā)揮市場和各類文化企業(yè)的作用,開展基于中國歷史文化資源的,形式多樣的文化、藝術服務產(chǎn)品開發(fā),為提升我國文化產(chǎn)品的文化內(nèi)涵和中華文化的國際傳播力和影響力提供支撐。
“文化原動力是國家建設的基礎性建設,需要科技部跟文化部共同有一些軟研究在頂層設計上,然后在架構好的時候給科技一些力量,余下的由業(yè)界來做。”中科院自動化研究所研究員徐波說。
■專家視點
李松 文化部民族民間文藝發(fā)展研究中心主任:
我強烈呼吁關注改善文化資源整備的技術環(huán)境,包括各類資源搶救、修復、復原、記錄的相關技術,提高各類形式媒介注錄效能的相關技術,加強大數(shù)據(jù)管理、清晰、分析的相關技術,進一步融合到各類資源信息的標準化體系建設。
我建議在國家戰(zhàn)略層面應該構建大型的文化系統(tǒng)工程,建設文化研究和文化傳承的數(shù)字化廣泛應用體系。
羅靜 國家文物局博物館與社會文物司副司長:
從國外來看,行業(yè)的數(shù)字化相關工作可以分為幾類,政府主導、博物館主導、ngo主導、企業(yè)主導的相關工作。從需求提出、數(shù)據(jù)采集、數(shù)據(jù)融合、數(shù)據(jù)挖掘、智慧應用方面來看,大數(shù)據(jù)技術在文化資源管理中依舊存在很多問題,整體的框架不清楚,而且大多數(shù)文化機構在做的工作都是局部的探索性的工作。
孫茂松 清華大學計算機科學與技術系教授:
關于國內(nèi)對大數(shù)據(jù)在文化資源管理上的應用,我提出這么兩條建議:1)做基礎的應用。例如,現(xiàn)在所有《二十四史》都已信息化,但處于原生態(tài),連最起碼的分詞都沒有。2)構建中國傳統(tǒng)文化本體體系和知識圖譜的工程。
孫一鋼 中國國家圖書館研究員:
現(xiàn)在是傳統(tǒng)圖書館和數(shù)字圖書館并行的階段。數(shù)字圖書館很重要,在承擔一個國家文化傳承的職責。從數(shù)字圖書館技術服務體系來講,大數(shù)據(jù)現(xiàn)在面臨著非常嚴重的知識組織理論和系統(tǒng)的研究問題。
徐波 中國科學院自動化研究所研究員:
不管是小數(shù)據(jù)還是大數(shù)據(jù),還是需要有很好的復雜算法來刻畫豐富的內(nèi)在信息。大數(shù)據(jù)模式識別技術聚焦,一個是怎么感知深度學習,另一個是認知層面的知識圖譜和推演,這是兩個很共性的問題。
總而言之,我認為整個模式識別技術原來是比較分散的研究模式,可能會面向終極創(chuàng)新大科學工程的研究模式方面發(fā)展,然后慢慢逼近人的智能水平。
不管是博物館、圖書館還是非遺,最后形成的就是文本、圖像、影像、聲音,核心就是文化資源的管理和應用。文化的資源管理,首先是應用的問題。
周志華 南京大學計算機軟件新技術國家重點實驗室教授:
數(shù)據(jù)挖掘也就是機器學習提供數(shù)據(jù)分析技術再加上數(shù)據(jù)庫提供數(shù)據(jù)管理技術一起來成為數(shù)據(jù)挖掘,這在醫(yī)學、考古等方面有諸多的應用。關于大數(shù)據(jù),有3個誤區(qū):有大數(shù)據(jù),“模型”不重要;大數(shù)據(jù),只要“相關”,不要“因果”;大數(shù)據(jù),需搭配新的方法。
金海 華中科技大學計算機科學與技術學院教授:
在海量的知識管理和推理方面,通過海量數(shù)據(jù)甄別推演新的文化知識,這些技術為文化創(chuàng)新提供多元文化要素轉型升華。云計算是大數(shù)據(jù)技術的支撐環(huán)節(jié),對大數(shù)據(jù)資源挖掘提供了基礎的設施,同時包括大規(guī)模的離線數(shù)據(jù)處理、流式數(shù)據(jù)處理、內(nèi)存計算技術等為大數(shù)據(jù)挖掘提供技術支撐。云計算的主要目的為文化創(chuàng)新提供軟硬件的支撐平臺。
曾成鋼 清華大學美術學院教授:
大數(shù)據(jù)雖然跟美術沒有直接關聯(lián),但提供了很多支撐技術,對業(yè)務來說至關重要,開辟了新的方法和途徑。
關健 上海方正數(shù)字出版技術有限公司副總經(jīng)理:
方正公司利用大數(shù)據(jù)技術,做了數(shù)據(jù)收集和聚合的引擎,匯集很多文化教育信息,基于傳統(tǒng)的數(shù)據(jù)庫技術,做圖書出版類的決策和分析,包括從內(nèi)容匯聚到最后內(nèi)容重新組織展現(xiàn)的完整解決方案。
張加萬 天津大學國家示范性軟件學院教授:
大數(shù)據(jù)技術在文物保護方面相關的工作現(xiàn)在是做得較多的,例如文物的三維數(shù)字化及應用等。總的來說,有四個方面的工作是非常重大的。第一,如何把館藏文物的資源和網(wǎng)絡資源進行整合,通過建立分布式、異構、虛擬文物知識庫及應用平臺。不僅要把分析放進去,還要把知識放進去。第二,關于基于大數(shù)據(jù)準入的標識和鑒別。第三,基于大數(shù)據(jù)分析的文物劣化機理研究。最后,基于大數(shù)據(jù)分析的觀眾和游客行為及個性化服務技術。從人、物、環(huán)境的角度進行研究,并且來解決服務質(zhì)量的問題。
許魯 中國科學院計算技術研究所研究員:
從文化資源的管理角度,我們需要公平自由的文化共享,需要大數(shù)據(jù)技術的支撐,存儲技術的作用明顯。