生命科學領(lǐng)域的大數(shù)據(jù)時代已然到來。據(jù)相關(guān)統(tǒng)計,全球每年生物數(shù)據(jù)總量已經(jīng)達到EB量級,完整的人體基因組有約30億個堿基對,個體化基因組差異達6百萬堿基,基于個性化的遺傳背景產(chǎn)生了巨大數(shù)據(jù)。如果能高效、高速地利用這些大數(shù)據(jù),無疑將為生命科學行業(yè)帶來無限機遇。
在不久前由生物谷和華為云服務(wù)聯(lián)合主辦的云服務(wù)與大數(shù)據(jù)知識分享沙龍活動中,演講嘉賓李亦學教授指出,生命科學正面臨從實驗驅(qū)動向數(shù)據(jù)驅(qū)動的轉(zhuǎn)型局面,海量的數(shù)據(jù)將成為生命科學的基礎(chǔ),云服務(wù)、大數(shù)據(jù)等相關(guān)技術(shù)將成為轉(zhuǎn)型重要因素。
李亦學認為,急劇增加的生物數(shù)據(jù)和計算機能力間的巨大差距是大數(shù)據(jù)發(fā)展面臨的首要問題。”放眼國內(nèi)生物科學院,其在運用現(xiàn)有IT技術(shù)處理大數(shù)據(jù)方面無不面臨著部署慢、存儲容量小、成本高等困境。
生物科學高性能計算需要海量的計算資源,且計算擴容速度很快,資源的部署周期長。傳統(tǒng)IT服務(wù),從設(shè)備采購到安裝調(diào)試,需要數(shù)月的時間,難以及時響應(yīng)業(yè)務(wù)的變化;同時,生科計算往往比較復雜,傳統(tǒng)生命科學計算依靠手工進行環(huán)境部署,耗時耗力,效率低下;除此之外,生科計算產(chǎn)生海量數(shù)據(jù),對存儲有高要求,由于存儲能力不足,導致數(shù)據(jù)人工逐行刪除;對于生科企業(yè)來說,自建高性能計算平臺一次需耗費大量資金,且設(shè)備更新?lián)Q代成本高,可能導致面臨資金不足風險等。面對這些問題傳統(tǒng)的IT技術(shù)已經(jīng)顯露出它的弊端,亟需尋找傳統(tǒng)IT的替代。
針對高速有效地分析生物大數(shù)據(jù)所需要的技術(shù), 李亦學認為云服務(wù)或可提供解決有力支撐。
云服務(wù)具備彈性、快速擴展、即租即用等特征,可向用戶提供彈性海量的計算、存儲資源,輕松應(yīng)對大規(guī)模計算處理,幫助用戶快速部署和管理大規(guī)??蓴U展的IT基礎(chǔ)設(shè)施資源。而在生物科學領(lǐng)域,國內(nèi)領(lǐng)先的云服務(wù)商華為云已經(jīng)有一整套成熟完整的解決方案。
華為云服務(wù)能夠為基因工程、蛋白質(zhì)工程、生物制藥等需要高性能計算的業(yè)務(wù)提供海量并行計算資源,以及提供包括云主機、云硬盤、對象存儲服務(wù)、線下傳輸服務(wù)等在內(nèi)的高性能云服務(wù)。華為生科云解決方案是一套基于行業(yè)特性、工作流程、業(yè)務(wù)分析流程的需求,整合強大的計算能力、存儲能力,為用戶提供超算、數(shù)據(jù)存儲等多種服務(wù)的云計算服務(wù)平臺,且操作簡單、靈活多樣。“華為云服務(wù)面向生物科學領(lǐng)域進行的定制開發(fā),運營模式設(shè)計,支撐服務(wù)方面的能力令人印象深刻。”上海生命科學院相關(guān)負責人表示。
華為生科云解決方案由分布式計算引擎、彈性計算云、對象云存儲、線下大數(shù)據(jù)傳輸服務(wù)四部分組成,為客戶提供端到端的解決方案。其中分布式計算引擎所需的行業(yè)模版由客戶自定義或者使用合作伙伴提供的預定義行業(yè)模版,華為負責提供計算和存儲資源,以及調(diào)度能力。
華為云服務(wù)相關(guān)負責人介紹:分布式計算引擎能夠通過用戶定義的業(yè)務(wù)流程,把多步驟的復雜運算過程固化下來,簡化運算過程,提高計算效率,運算過程由分布式計算引擎進行判斷和驅(qū)動,不需要人工干預,實現(xiàn)計算的自動化和流程化。這正好與目前生物科學大數(shù)據(jù)所需要的復雜業(yè)務(wù)需求相匹配。
另外,由分布式計算引擎負責部署計算環(huán)境,提高環(huán)境部署效率,降低部署復雜度;整個業(yè)務(wù)過程以流程圖的形式進行直觀展示,讓業(yè)務(wù)過程一目了然;在計算完成或者出現(xiàn)異常情況,會自動提示操作用戶,進行人工干預或者修正。
最后,分布式計算引擎可以對資源池里的資源進行有效管理,自動投放任務(wù)到空閑節(jié)點;可根據(jù)業(yè)務(wù)需要對資源池里的節(jié)點資源進行增加或者刪除,實現(xiàn)按需使用,按需付費。
這些都是分布式計算引擎受到客戶青睞的重要因素。
除此之外,華為云服務(wù)具有中立、安全、高可靠、低成本的數(shù)據(jù)存儲能力,來滿足用戶的原始數(shù)據(jù)和計算結(jié)果的存儲需求;在商業(yè)模式上,可按需使用、按需付費、即租即用的方式,縮短IT建設(shè)周期,降低初始投資成本,減輕企業(yè)后期運維成本。
隨著基因測序成本等的急劇下降,數(shù)字與生物科學高度融合,大數(shù)據(jù)背景下的云服務(wù)將超越提升效率和降低成本的支撐地位,成為生物科學創(chuàng)新的核心競爭力并將重新定義市場的制高點。 對生科企業(yè)及研究院所來說,在華為公有云平臺上測試和構(gòu)建自己的業(yè)務(wù)模式將是一種經(jīng)濟高效的方式, 基于華為云服務(wù)平臺的生物行業(yè)服務(wù)范式將被全新構(gòu)建。
正如李亦學教授所說,生命科學正面臨從實驗驅(qū)動向數(shù)據(jù)驅(qū)動轉(zhuǎn)型。誰先掌握了技術(shù)誰就掌握了生命科學的命脈。云服務(wù)無疑是生命科學從實驗驅(qū)動向數(shù)據(jù)驅(qū)動轉(zhuǎn)型的重要驅(qū)動因素。
關(guān)于李亦學
李亦學,博士,研究員,博士生導師。上海生物信息技術(shù)研究中心主任,中科院上海生命科學研究院生物信息中心主任, 中科院系統(tǒng)生物學重點實驗室副主任,國家“十一五”863計劃生物與醫(yī)藥領(lǐng)域?qū)<医M成員。2003年上海市勞動模范,2003年度上海市優(yōu)秀學科帶頭人?,F(xiàn)為國家自然科學基金委員會生命科學部自然科學基金評審專家,德國Journal of Integrative Bioinformatics雜志,美國Medical Science Monitor雜志特邀審稿人,國內(nèi)《科學通報》特邀編輯,生物物理和生物化學學報、中國生物工程雜志以及Genomics,Proteomics and Bioinformatics 等雜志編委。