引言:
看過(guò)電影《蜘蛛俠》都會(huì)記住一句臺(tái)詞
“能力越大,責(zé)任越大”
男主角因?yàn)榛蛲蛔冇扇跣∽儚?qiáng)大
雖然是虛構(gòu)的故事
但是人們對(duì)于身體的深度發(fā)掘
確實(shí)一直在進(jìn)行
當(dāng)今科技的發(fā)展
人們通過(guò)基因的研究
雖說(shuō)沒(méi)有向科幻片表現(xiàn)的那么神奇
但是通過(guò)基因檢查第一時(shí)間查找
人類的一些疾病
目前取得了巨大的進(jìn)展
基因測(cè)序要求超級(jí)硬件做后盾
但是基因組需要幾十億個(gè)標(biāo)記,如果每秒列出一個(gè)數(shù)字,需要花 96 年才可以數(shù)到 30 億。但是基因檢查需要對(duì)著30億標(biāo)記進(jìn)行至少上30次以上的檢測(cè)。這樣算下下來(lái)幾千年都檢測(cè)不出。這就需要計(jì)算能力超強(qiáng)的高性能計(jì)算集群,來(lái)幫助專家來(lái)研究解決各種病因的基因檢查。正是應(yīng)了那句臺(tái)詞“能力越大,責(zé)任越大”。
翻譯基因組研究院(TGen) 就是針對(duì)神經(jīng)母細(xì)胞瘤試驗(yàn)的下一代基因組測(cè)序技術(shù),這些測(cè)序技術(shù)產(chǎn)生了大量的數(shù)據(jù),為了及時(shí)處理這些信息,TGen 需要構(gòu)建一個(gè)新的 HPC 集群。
戴爾為TGen帶來(lái)的蛻變
為了克服這些挑戰(zhàn),TGen 采用了Dell PowerEdge M710HD 刀片服務(wù)器集群。刀片服務(wù)器運(yùn)行 CentOS Linux,它們被安置在三個(gè) Dell M1000e 模塊化刀片服務(wù)器盤柜中。Dell Force10 C300 和 S4810 10-Gigabit 交換機(jī)為集群的 800 個(gè)核心提供連接。“我們選擇 Dell Force10 交換機(jī)是因?yàn)樗鼈兊拿慷丝诔杀竞蜔o(wú)阻塞性能,”Lowey 說(shuō)。“從我們?cè)械?Cisco CLI 遷移到 Dell Force10 網(wǎng)絡(luò)設(shè)備可以說(shuō)一點(diǎn)也不麻煩。”
對(duì)于數(shù)據(jù)存儲(chǔ),TGen 構(gòu)建了一個(gè)多層次解決方案,它結(jié)合了 Dell Fluid Data架構(gòu)中的多種技術(shù)。“我們將擁有基于Dell 的文件系統(tǒng),支持高速的并行文件訪問(wèn),”Lowey 解釋說(shuō)。“Dell Compellent 存儲(chǔ)將支持更多傳統(tǒng)應(yīng)用程序,如 Microsoft SQL Server 數(shù)據(jù)庫(kù)和實(shí)驗(yàn)室的文件共享。最后,我們期望利用 Dell DX Object Storage Platform 進(jìn)行數(shù)據(jù)歸檔。我們對(duì) Dell DX 平臺(tái)感到很興奮,因?yàn)槊?TB 的成本使得我們可以經(jīng)濟(jì)實(shí)惠地存儲(chǔ)大量的數(shù)據(jù),將數(shù)據(jù)量擴(kuò)展到 PB 級(jí),并且,平臺(tái)將元數(shù)據(jù)與數(shù)據(jù)本身一起存儲(chǔ),這樣的方式將使我們能夠利用高級(jí)工具來(lái)挖掘我們龐大的數(shù)據(jù)集。
此性能提高對(duì)患者可能是生死攸關(guān)的。“我們采取分而治之的方法來(lái)處理數(shù)據(jù),”Corneveaux 說(shuō)。“我們可能會(huì)將 1 個(gè) TB 分割成 1,000 個(gè)不同的作業(yè),讓它們?cè)贒ell 集群上分開運(yùn)行,最后將它們?nèi)恐匦潞喜⒃谝黄稹⑻幚硪粋€(gè)基因組的時(shí)間縮短了幾天,甚至幾周。我們?cè)诤涂赡?5 歲前就會(huì)死亡的患者打交道,所以幾天也極為重要。如果我們能夠幫助醫(yī)生將正確的藥物開給患者,我們就可以幫助讓這種疾病好轉(zhuǎn)。如果沒(méi)有我們?cè)谶@里已經(jīng)建立的架構(gòu),這將是完全不可能的。”
此外,HPC 集群讓 TGen 能夠應(yīng)對(duì)新的數(shù)據(jù)分析挑戰(zhàn)。“我們現(xiàn)在可以解決更大的問(wèn)題,”TGen 的神經(jīng)基因組學(xué)助理教授 Matt Huentelman 說(shuō)。“對(duì)于患有惡性癌癥的病人來(lái)說(shuō),更重要的是,我們可以克服具有高時(shí)效要求的問(wèn)題。在過(guò)去,要求即時(shí)結(jié)果的問(wèn)題是禁地。我們有一條用于分析數(shù)據(jù)的路徑,但我們知道結(jié)果不可能及時(shí)返回來(lái)給予幫助?,F(xiàn)在我們可以深入探究當(dāng)天就需要回答的問(wèn)題。”
蜘蛛俠變身:一個(gè)管理員管理 800 個(gè)服務(wù)器核心
總而言之,集群的最高性能是八萬(wàn)億次浮點(diǎn)運(yùn)算。“我們處理患者數(shù)據(jù)的能力提高了 12 倍,”Lowey 說(shuō)。
TGen 使用在基于 VMware 的虛擬平臺(tái)上運(yùn)行的 Dell OpenManage 來(lái)管理Dell 刀片服務(wù)器。“對(duì)我們的多臺(tái)刀片服務(wù)器實(shí)現(xiàn)單點(diǎn)管理,這大大簡(jiǎn)化了管理工作,”Lowey 說(shuō)。“一個(gè)人就可以輕松管理我們的 800 個(gè)核心,而在此之前,我們將需要至少兩個(gè)人來(lái)做同樣的工作。”
能力越大 責(zé)任越大 攜手拯救生命
現(xiàn)在,Dell 正在幫助 TGen 解決長(zhǎng)距離通信的挑戰(zhàn)。“我們?cè)谘芯宽?xiàng)目中與來(lái)自世界各地的組織的許多不同專業(yè)人才合作,”Suh 說(shuō)。“除了患者以外,我們還與臨床醫(yī)生、病理學(xué)家和從患者身上收集樣本的其他人合作。生物學(xué)家解剖樣本?;?qū)W家對(duì)樣本應(yīng)用最新的基因組學(xué)技術(shù),而生物信息學(xué)家則破譯數(shù)據(jù)。在設(shè)計(jì)臨床研究框架時(shí),我們與生物統(tǒng)計(jì)學(xué)家、計(jì)算機(jī)科學(xué)家和軟件工程師合作。我們需要一個(gè)高吞吐量的環(huán)境,所有這些人都可以用它來(lái)協(xié)同工作。”
TGen 和 Dell 正在開發(fā)一個(gè)基于云的協(xié)作系統(tǒng)來(lái)促進(jìn)這種互動(dòng)。“該項(xiàng)目的目標(biāo)是實(shí)現(xiàn)長(zhǎng)期對(duì)象存儲(chǔ)、站點(diǎn)之間的快速數(shù)據(jù)傳輸,以及從患者到生物信息科學(xué)家、試驗(yàn)管理人員的透明,”知識(shí)計(jì)算架構(gòu)師 Preston Lee 說(shuō)。
“Dell 與我們并肩合作來(lái)交付解決方案,”Mousses 說(shuō)。“有一個(gè)愿意挽起袖子幫助我們解決一些最棘手的 IT 問(wèn)題的合作伙伴在身邊,是非常難能可貴的。”
Lowey 補(bǔ)充說(shuō):“Dell的工程師和架構(gòu)師已經(jīng)反復(fù)證明了他們是一群最聰明的技術(shù)人才。不管我有什么問(wèn)題,每當(dāng)我致電 Dell 時(shí),我都相信自己會(huì)得到一個(gè)滿意的答復(fù)。當(dāng)我們提出問(wèn)題時(shí),Dell 支持服務(wù)人員總是會(huì)迅速而有效地予以答復(fù),并且 Dell 卓越的HPC技術(shù)和整體方案正在幫助我們構(gòu)建一個(gè)十分高效且易于管理的系統(tǒng)。”
小結(jié):
可以看到,戴爾端到端解決方案不僅讓基因組研究院如虎添翼。同時(shí)因?yàn)榇鳡柋旧砘虻牟粩鄰?qiáng)大,也讓戴爾在幫助用戶實(shí)現(xiàn)價(jià)值的能力越來(lái)越強(qiáng)。正是印證了那句話“能力越大、責(zé)任越大”。