一場新型冠狀病毒肺炎疫情,牽動舉國上下。在廣大的醫(yī)務人員奮戰(zhàn)一線的同時,一大批“科技力量”也加入了抗擊疫情的最前線。
在未知病毒以“不明原因肺炎”進入公眾視野時,科研人員已經(jīng)開始嘗試破譯病毒的基因數(shù)據(jù)。病毒基因組,是病毒的生命密碼。借助于分子生物技術(shù),病原學專家通過對病毒標本進行測定,這樣的破譯,最早在2020年1月2日就已完成。隨后,中科院武漢病毒所、中國疾控中心病毒所、上海市公共衛(wèi)生臨床中心分別于1月2日、1月3日、1月5日凌晨,獲得病毒全基因組序列。
那么,病毒基因究竟是如何被一步步解析的?這其中高性能計算(HPC)平臺又起到什么樣的作用?來看看浪潮生命科學行業(yè)方案專家的解讀。
Q:能否舉例子介紹一下新冠病毒基因是如何被測定和解析的?
目前,在獲取病毒基因組序列方面,廣泛應用高通量測序技術(shù)來完成,這種方式是將核酸序列打斷成短片段進行測序,通過分析軟件將測得的短序列進行拼接組裝。對于新發(fā)病毒,在序列組裝過程中會面臨更多難點,因為在測序深度、測序準確性、重復序列比例等方面沒有可供參考的經(jīng)驗值,這就需要將海量的短序列還原出原始的基因組序列。在序列拼裝中還可能會出現(xiàn)測序錯誤,拼接的準確性和完整性不高,拼接難度更高。所以,解析新冠病毒序列,需要在建庫、高通量測序、序列組裝、變異進化分析等多個流程加以管理。
新冠病毒序列組裝解決方案示意
比如在建庫環(huán)節(jié)中,對核酸含量高的樣本進行rRNA去除再建庫,提高有效數(shù)據(jù)占比;對核酸含量低的樣本,直接進行RNA建庫,減少核酸損失,提升建庫成功率,并加大測序深度。在測序環(huán)節(jié)采用更高效專注的測序儀,最后,通過病原鑒定系統(tǒng)對新冠病毒序列進行數(shù)據(jù)分析并采用IDBA方法完成拼接。這樣可以滿足宏轉(zhuǎn)錄組測序病毒序列組裝對數(shù)據(jù)量的要求,保證序列信息的完整性。
我們來還原一下某疾控中心收到的1例新冠病毒肺炎疑似樣本,解析新型冠狀病毒感染病例呼吸道標本宏轉(zhuǎn)錄組測序及病毒序列組裝的流程:
病毒全基因組序列獲取流程
? 首先是文庫制備。針對核酸量不同的樣本,采用不同的建庫策略。經(jīng)反轉(zhuǎn)錄、接頭連接、PCR擴增、純化等一系列操作后獲得文庫產(chǎn)物,再使用滾環(huán)擴增技術(shù),制備DNA納米球。
? 第二步,上機測序。對病例的呼吸道標本進行高深度測序。
? 第三步,數(shù)據(jù)分析。產(chǎn)出32Gb數(shù)據(jù),總序列數(shù)318M。結(jié)合病原感染快速鑒定系統(tǒng),鑒定出230萬余條新型冠狀病毒序列。
? 最后,拼接組裝。分析軟件會自動將230萬條的新型冠狀病毒序列從所有序列中抽出。使用拼接效率高的IDBA方法進行組裝,成功完成新型冠狀病毒的序列組裝,獲得基因組序列。
Q:在冠狀病毒解析過程中,HPC平臺起到了那些作用?
在尋找病毒來源、獲知病毒結(jié)構(gòu)、篩選抗毒小分子方面HPC算力都發(fā)揮了重要的作用。例如在病毒分析領域常用的冷凍電鏡三維重構(gòu)技術(shù),在低溫環(huán)境下利用透射電子顯微鏡對樣品進行成像,再經(jīng)圖像處理和重構(gòu)計算獲得樣品的三維結(jié)構(gòu)。在整個流程中,數(shù)據(jù)采集、圖像處理、三維重構(gòu)是非常核心的三個步驟,對計算和存儲的需求非常高。病毒顆粒結(jié)構(gòu)的解析,其電鏡圖像的數(shù)據(jù)量可高達數(shù)TB,且病毒顆粒相對蛋白質(zhì)顆粒要大得多,在計算上單一進程就需要128GB的內(nèi)存,那么一臺計算節(jié)點就需要至少4TB的內(nèi)存支持。在算法上,基于中央截面定理的重構(gòu)過程依賴大量的單精度或雙精度快速傅里葉(FFT)計算,需要海量算力資源來支持。
在實際應用上,中科院生物物理所與浪潮-Intel中國并行計算聯(lián)合實驗室合作開展的基于MIC異構(gòu)架構(gòu)電子斷層三維重構(gòu)技術(shù)(Electron Tomography,簡稱ET)應用研究。研究團隊共同開發(fā)了ET的MIC單機單卡和單機多卡異構(gòu)高性能集群解決方案,大幅降低了計算時間。實際測試數(shù)據(jù)顯示,單機單卡與串行程序相比性能提升25倍,單機多卡版本與串行程序相比性能提升74倍。
Q:本次疫情將對于HPC在病毒研究領域的應用產(chǎn)生哪些影響
在抗疫的生死競速的賽場上,也許我們算的快一點,我們能救治的病人,能拯救的生命就會多一點。
從短期來看,科技戰(zhàn)疫正加速HPC在醫(yī)療領域的廣泛應用,原來使用HPC最多的是科研院所,在疫情期間醫(yī)院、公共衛(wèi)生防預等機構(gòu)都開始使用HPC。
從長期來看,疫情過后,會誕生各種新興的科學技術(shù)研究和檢測,這些新興的科學研究對高性能計算有很高的需求,將促使HPC技術(shù)跨學科跨領域的融合。
從更大的范圍來看,疫情危機使中國以及全球的醫(yī)療信息化進程加速,可以大膽的預測,HPC將在全球病毒研究領域?qū)呦蛉嫫占啊?/p>