歐洲生物信息研究所(EMBL)的研究人員開創(chuàng)了一個新途徑,可以將數(shù)據(jù)資料存儲在DNA里,而DNA是一種可以存放數(shù)萬年的材料。利用該存儲法,有可能將至少1億小時的高清錄像存儲在大約一茶杯的DNA中。
全世界擁有巨量的數(shù)字信息,而且新的數(shù)字內(nèi)容仍不斷地大量涌入,這給數(shù)據(jù)存儲工作帶來了真正的挑戰(zhàn)。硬盤不但昂貴,而且需要不斷地供電;甚至質(zhì)量最好的“非耗電”歸檔材料(如磁帶),在10年之內(nèi)質(zhì)量就會有所下降。這在生命科學領(lǐng)域是一個越來越突出的問題,該領(lǐng)域有大量包括DNA測序在內(nèi)的數(shù)據(jù)資料,構(gòu)成了科學記錄的基礎(chǔ)。
“我們已經(jīng)了解到,DNA是存儲信息的可靠途徑,因為我們可以從猛犸象的骨頭里提取DNA,而猛犸象可以追溯到幾萬年之前,因此我們了解到這是個存儲的好方法。”歐洲分子生物學實驗室生物信息研究所的尼克·高曼解釋說,“DNA分子極小,但密度大,儲存時不需要電力,因而運輸、保存都很容易。”
讀取DNA相當簡單,但是到目前為止,編寫DNA一直是把DNA存儲變?yōu)楝F(xiàn)實的主要障礙。主要存在兩種挑戰(zhàn):首先,利用目前的方法只能制造出短鏈DNA;其次,不管是編寫DNA還是讀取DNA都很容易出錯,特別是當同一個DNA字符出現(xiàn)重復(fù)時,尤其容易出錯。研究人員正著手創(chuàng)建一種可以解決上述兩個問題的編碼。
“我們知道,我們需要單獨地利用短鏈DNA來進行編碼,而且需要采取一種方法,使我們在編碼時不可能出現(xiàn)一連串的同一字符。因此我們估計,把編碼拆分為許多前后互相搭接的片段,利用索引信息來顯示每個片段在全部編碼中所屬的位置,制定一個不允許重復(fù)的編碼方案。這樣,只有在四個不同的片段中犯同樣錯誤時,編碼才會失敗——這樣的情況極為罕見。”尤恩·伯尼說道。
這個新方法需要通過編碼信息來合成DNA。安捷倫科技公司(Agilent Technologies, Inc)是位于加州的一家公司,自愿為此項研究提供服務(wù)。登錄到安捷倫科技公司的網(wǎng)站,尤恩·伯尼和尼克·高曼給該公司發(fā)送了以下資料的編碼版本:一個mp3格式的馬丁·路德·金的演講《我有一個夢想》;一張jpg格式的EMBL照片;一篇pdf格式的沃森和克里克合作的重要論文《核酸的分子結(jié)構(gòu)》;一份包括所有莎士比亞十四行詩的txt格式文件;還有一份敘述本研究中編碼情況的文件。
“我們從互聯(lián)網(wǎng)上下載了這些文件,并利用這些文件來合成了數(shù)十萬段DNA,合成的結(jié)果看起來就像一小塊泥土。”安捷倫科技公司的埃米莉·勒普勞斯特說。安捷倫科技公司將這個合成樣本郵寄給EMBL,EMBL的研究人員能夠不出差錯地為合成DNA測序,為文件解碼。
“我們利用DNA分子創(chuàng)造了一種容錯編碼,據(jù)我們所知,這種分子形式將會在1萬年甚至更長的時間里保持良好的狀態(tài)。”尼克·高曼說,“只要有人知道這種編碼是什么,利用一臺可以讀取DNA的機器就能夠獲取編碼所存儲的文件。”
盡管還有許多實際的問題需要解決,但是DNA固有的高密度性和耐久性使之成為引人矚目的存儲媒介。研究人員下一步將要完善這種編碼方案,使DNA存儲早日付諸實用。