生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲(chǔ)100年?

責(zé)任編輯:zhaoxiaoqin

2019-12-23 17:02:08

一個(gè)人的基因組,它的原始大小大概是3個(gè)GB左右,包含了30億個(gè)堿基,由A、T、C、G四個(gè)堿基對(duì)組成的。在全基因測(cè)序過(guò)程中,為了保證基因數(shù)據(jù)的完整性,需要平行測(cè)序30次,當(dāng)最終測(cè)序完成后,全基因組數(shù)據(jù)將達(dá)到大概100GB左右,只僅僅是一個(gè)單體,可想而知在廣泛的人口中,這是一個(gè)非常龐大的數(shù)據(jù)量。

大咖介紹:(從左往右)

宋家雨,Dostor存儲(chǔ)在線(xiàn)總編輯

謝長(zhǎng)生,華中科技大學(xué)武漢光電國(guó)家研究中心教授

曾文君,深圳國(guó)家基因庫(kù)生物信息數(shù)據(jù)庫(kù)主任

孫 斌,浪潮存儲(chǔ)產(chǎn)品線(xiàn)副總經(jīng)理

 

正文:

近日,在DOIT存儲(chǔ)峰會(huì)上,浪潮存儲(chǔ)產(chǎn)品線(xiàn)副總經(jīng)理孫斌、華中科技大學(xué)武漢光電國(guó)家研究中心教授謝長(zhǎng)生、深圳國(guó)家基因庫(kù)生物信息數(shù)據(jù)庫(kù)主任曾文君,共同就基因研究帶來(lái)的數(shù)據(jù)存儲(chǔ)挑戰(zhàn)接受了媒體采訪。

基因庫(kù)建設(shè)對(duì)于社會(huì)發(fā)展具有重要意義,而基因庫(kù)的背后承載的是海量的數(shù)據(jù)存儲(chǔ)。2019年是國(guó)家基因庫(kù)建成的第3周年,現(xiàn)已具備88PB數(shù)據(jù)存儲(chǔ)能力、691萬(wàn)億次/秒計(jì)算能力。截至目前,國(guó)家基因庫(kù)支持著國(guó)內(nèi)外600多個(gè)項(xiàng)目,那么在技術(shù)上如何同時(shí)滿(mǎn)足這些業(yè)務(wù)的需要?基因庫(kù)數(shù)據(jù)有哪些不同的特征?基因數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)保護(hù)和數(shù)據(jù)遷移上面臨著哪些技術(shù)挑戰(zhàn)?讓我們聽(tīng)聽(tīng)大咖的解答。

 

宋家雨:基因是一個(gè)特別熱的話(huà)題,它使人類(lèi)在消病延年的路上不斷向前推進(jìn),在生命科學(xué)基因研究領(lǐng)域,有什么樣的應(yīng)用?對(duì)存儲(chǔ)提出怎樣的需求和挑戰(zhàn)?

深圳國(guó)際基因庫(kù)生物信息數(shù)據(jù)庫(kù)主任 曾文君

 

曾文君:BT(生物技術(shù))的發(fā)展拉著IT在走,在生命科學(xué)領(lǐng)域,有個(gè)詞叫“超存”,因?yàn)閷?duì)存儲(chǔ)的要求非常巨大,遠(yuǎn)超對(duì)算力的要求。

一個(gè)人的基因組,它的原始大小大概是3個(gè)GB左右,包含了30億個(gè)堿基,由A、T、C、G四個(gè)堿基對(duì)組成的。在全基因測(cè)序過(guò)程中,為了保證基因數(shù)據(jù)的完整性,需要平行測(cè)序30次,當(dāng)最終測(cè)序完成后,全基因組數(shù)據(jù)將達(dá)到大概100GB左右,只僅僅是一個(gè)單體,可想而知在廣泛的人口中,這是一個(gè)非常龐大的數(shù)據(jù)量。

整個(gè)基因分析研究,分為基因測(cè)序、基因數(shù)據(jù)分析和基因數(shù)據(jù)歸檔三個(gè)階段。其一,基因測(cè)序的整個(gè)過(guò)程是不允許被中斷的,這就要求支撐測(cè)序應(yīng)用的存儲(chǔ)系統(tǒng),具備極致的穩(wěn)定性和可靠性;另外,基因測(cè)序25微秒采集一幅高清晰圖像,對(duì)性能要求也超過(guò)了現(xiàn)有閃存固態(tài)盤(pán)的最高帶寬,必須采用更快的傲騰固態(tài)盤(pán);其二,基因數(shù)據(jù)分析工作中,對(duì)存儲(chǔ)系統(tǒng)的性能、小文件處理能力提出很高要求;其三,在數(shù)據(jù)歸檔階段,需要將海量基因數(shù)據(jù)長(zhǎng)期、完整、安全的保存起來(lái),存儲(chǔ)系統(tǒng)的采購(gòu)成本、能耗,是一個(gè)很大的挑戰(zhàn)。

總的來(lái)說(shuō),BT(生物技術(shù))的發(fā)展拉著IT在走,數(shù)據(jù)怎么存、怎么算、怎么長(zhǎng)期保存,對(duì)IT來(lái)說(shuō),尤其存儲(chǔ)來(lái)說(shuō),是個(gè)非常巨大的挑戰(zhàn)。我們知道“超算”,它是對(duì)算力的要求,但是在生命科學(xué)領(lǐng)域,有個(gè)詞叫“超存”,因?yàn)閷?duì)存儲(chǔ)的要求非常巨大,遠(yuǎn)超對(duì)算力的要求。

 

宋家雨:生命科學(xué)基因研究背后,面臨著海量數(shù)據(jù)存儲(chǔ)和應(yīng)用的挑戰(zhàn),學(xué)術(shù)界有哪些新的存儲(chǔ)技術(shù)趨勢(shì)?

華中科技大學(xué)武漢光電國(guó)家研究中心教授 謝長(zhǎng)生

謝長(zhǎng)生:“數(shù)據(jù)如何存儲(chǔ)100年,是個(gè)具有挑戰(zhàn)性的問(wèn)題,特別是基因分析研究這種需要長(zhǎng)期存儲(chǔ)的應(yīng)用。全息存儲(chǔ)、玻璃存儲(chǔ)、突破光學(xué)的超衍……這些技術(shù),非常值得我們加快速度去研究。”

計(jì)算機(jī)和數(shù)據(jù)專(zhuān)家提出如何避免數(shù)字黑暗時(shí)代的命題,是指隨著IT硬件的失效和軟件的過(guò)時(shí),很多數(shù)字信息在未來(lái)可能因?yàn)闄C(jī)器和軟件程序無(wú)法讀取而丟失。“數(shù)據(jù)如何存儲(chǔ)100年”,是個(gè)具有挑戰(zhàn)性的問(wèn)題。正如現(xiàn)在的基因數(shù)據(jù),理論上說(shuō)應(yīng)該是永遠(yuǎn)保存下去的。

針對(duì)這一命題,有三種主流的未來(lái)技術(shù)。

首先,最接近產(chǎn)品化的是全息存儲(chǔ)技術(shù)。用這種技術(shù)可以保存50年。全息存儲(chǔ)解決了光盤(pán)介質(zhì)容量小、密度低的問(wèn)題,目前全息存儲(chǔ)技術(shù)已經(jīng)可以做到單張光盤(pán)存儲(chǔ)1.5TB容量,再往后發(fā)展,目標(biāo)是8TB,這樣就解決了存儲(chǔ)容量的問(wèn)題。

其次,玻璃盤(pán)技術(shù)。5微米可以記一層,2毫米可以記幾百層,所以理論上它的容量可以做到很大,一張盤(pán)可以存300TB,而且玻璃是很穩(wěn)定的介質(zhì),可以永久保存。

再次,突破光學(xué)衍射極限的超分辨光存儲(chǔ)技術(shù)。該技術(shù)用雙光束的方法突破了光學(xué)衍射物理極限,將光點(diǎn)縮小到現(xiàn)在的1%。這個(gè)技術(shù)上已經(jīng)實(shí)現(xiàn)了,比現(xiàn)在光盤(pán)面密度提高了100倍,它還可以多層,實(shí)現(xiàn)幾個(gè)數(shù)量級(jí)的提高。

這些技術(shù),非常值得我們加快速度去研究,因?yàn)榇鎯?chǔ)的需求在那里,特別是基因分析研究這種需要長(zhǎng)期存儲(chǔ)的應(yīng)用,在測(cè)序時(shí)要求存儲(chǔ)高性能、高可靠,長(zhǎng)期保存時(shí),要求存儲(chǔ)大容量、高性?xún)r(jià)比,所以面對(duì)這些挑戰(zhàn),我們有技術(shù)正在應(yīng)對(duì),但是這需要時(shí)間的等待。

宋家雨:面對(duì)生命科學(xué)領(lǐng)域的海量數(shù)據(jù)存儲(chǔ)和應(yīng)用需求,浪潮擁有完善的存儲(chǔ)產(chǎn)品線(xiàn),既有分布式存儲(chǔ)也有集中式存儲(chǔ),客戶(hù)到底該如何選擇?

浪潮存儲(chǔ)產(chǎn)品線(xiàn)副總經(jīng)理 孫斌

孫斌:到底是使用分布式架構(gòu)還是集中式架構(gòu),往往是由客戶(hù)的應(yīng)用類(lèi)型、應(yīng)用環(huán)境和所需要的存儲(chǔ)性能、容量、成本、功耗等等這些因素決定的,我們會(huì)根據(jù)種種需求給出最適合業(yè)務(wù)應(yīng)用的解決方案。

我們稱(chēng)2019年是新數(shù)據(jù)時(shí)代元年,在新數(shù)據(jù)時(shí)代,需要有與之對(duì)應(yīng)的新存儲(chǔ)之道,浪潮會(huì)針對(duì)不同行業(yè)、不同領(lǐng)域和不同客戶(hù)應(yīng)用梳理我們的存儲(chǔ)解決方案。而生命科學(xué)領(lǐng)域,是浪潮非常看重的領(lǐng)域,目前我們的客戶(hù)包括生命科學(xué)研究系統(tǒng)、芯片研究企業(yè)、高校等等。

我們發(fā)現(xiàn)生命科學(xué)領(lǐng)域所使用的存儲(chǔ)的架構(gòu),多數(shù)是分布式存儲(chǔ),但還有一部分是集中式存儲(chǔ)架構(gòu)。到底是使用分布式架構(gòu)還是集中式架構(gòu),往往是由客戶(hù)的應(yīng)用類(lèi)型、應(yīng)用環(huán)境和所需要的存儲(chǔ)性能、容量、成本、功耗等等這些因素決定的,我們會(huì)根據(jù)種種需求給出最適合業(yè)務(wù)應(yīng)用的解決方案。

Dostor存儲(chǔ)在線(xiàn)總編輯 宋家雨

在新數(shù)據(jù)時(shí)代下,商業(yè)、技術(shù)、應(yīng)用、需求等等都在發(fā)展和演變,是Scale-up還是Scale-out,沒(méi)有一個(gè)標(biāo)準(zhǔn)答案存在,關(guān)鍵是在于我們要時(shí)刻地關(guān)注最新的存儲(chǔ)技術(shù)發(fā)展,然后結(jié)合最新應(yīng)用需要,把存儲(chǔ)能力運(yùn)用到最好,這就是新存儲(chǔ)之道。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)