日前,云計(jì)算專家湯姆·威爾基提供了兩個(gè)例證,科學(xué)數(shù)據(jù)集的增長(zhǎng)推動(dòng)向云計(jì)算進(jìn)軍,另外,這將深刻地改變科學(xué)計(jì)算。
今年一月初,倫敦韋爾科姆基金會(huì)邀請(qǐng)生命科學(xué)領(lǐng)域的一些研究人員參會(huì),對(duì)于一個(gè)新的私有學(xué)術(shù)云進(jìn)行數(shù)據(jù)分析初步的結(jié)果進(jìn)行評(píng)定,而這個(gè)私有學(xué)術(shù)云是由七個(gè)學(xué)術(shù)研究機(jī)構(gòu)組成的emedlab聯(lián)盟成立的。而幾個(gè)月前在大西洋的另一邊,美國國家科學(xué)基金會(huì)(NSF)宣布將為Aristotle云聯(lián)盟中的三個(gè)大學(xué)的私人學(xué)術(shù)云連續(xù)5年贈(zèng)予500萬美元的研究資金。
私有云和聯(lián)合云都試圖解決同樣的兩個(gè)科學(xué)問題:如何利用學(xué)術(shù)機(jī)構(gòu)有限的預(yù)算,為分析現(xiàn)代科學(xué)所產(chǎn)生的巨大的數(shù)據(jù)集提供必要的計(jì)算能力?以及如何能夠有效地共享這些數(shù)據(jù)集,而不必重復(fù)這些數(shù)據(jù)集?
這兩個(gè)項(xiàng)目舉例說明行業(yè)人士近期對(duì)高性能云計(jì)算的興趣大增,而在《科學(xué)計(jì)算世界》的二月和三月號(hào)的專題文章中描述:“HPC終于登上云端”。
倫敦大學(xué)學(xué)院研究平臺(tái)總監(jiān)兼emedlab項(xiàng)目經(jīng)理杰克·帕拉斯表示:“很多生物醫(yī)學(xué)工程人員想要訪問相同的核心數(shù)據(jù)集。例如,國際癌癥基因組協(xié)會(huì)的數(shù)據(jù)集就達(dá)到了2PB字節(jié),我們不希望出現(xiàn)如此大規(guī)模的數(shù)據(jù)集在不同的組織復(fù)制的情況。”
來自患者或志愿者的醫(yī)療研究數(shù)據(jù)是敏感的,有著相關(guān)法律和道德的限制,而這些數(shù)據(jù)在物理上來說誰都可以訪問。只是移動(dòng)PB級(jí)的數(shù)據(jù)本身就是一個(gè)挑戰(zhàn),需要大量時(shí)間。帕拉斯估計(jì),即使采用一個(gè)由英國聯(lián)合學(xué)術(shù)網(wǎng)(Janet)提供的專用萬兆網(wǎng)的快速連接,它仍然需要一個(gè)月的時(shí)間才能得到來自歐洲生物信息學(xué)研究所的1PB的emedlab結(jié)構(gòu)數(shù)據(jù)。而復(fù)制非常大的數(shù)據(jù)集,不管是否遷移動(dòng)副本,這個(gè)工作量很快就變得十分繁重。
讓計(jì)算接近數(shù)據(jù)
eMedLab項(xiàng)目團(tuán)隊(duì)為一個(gè)非常緊密耦合的計(jì)算基礎(chǔ)設(shè)施創(chuàng)建背后的驅(qū)動(dòng)程序,其中的一部分就是創(chuàng)建一個(gè)PB級(jí)數(shù)據(jù)存儲(chǔ)系統(tǒng),對(duì)于這種方式,帕拉斯解釋道:“我們可以容納這些大的數(shù)據(jù)集,并讓他們的多個(gè)研究小組對(duì)這些數(shù)據(jù)的不同的問題進(jìn)行分析。”
該聯(lián)盟選擇了云解決方案,而沒有采用一個(gè)簡(jiǎn)單的HPC集群。帕拉斯繼續(xù)說,“因?yàn)樵S多不同的研究小組進(jìn)行了設(shè)想,要求資源針對(duì)不同的問題數(shù)據(jù)集,使用完全不同類型的代碼和分析管道。隨著云計(jì)算的解決方案的采用,生物信息學(xué)研究人員可以建立自己的虛擬機(jī),這是他們的首選管道套件,通過他們的臺(tái)式機(jī)和端口進(jìn)入eMedLab”。為了滿足用戶要求盡可能多的計(jì)算和分析需要,采用的核心處理器的數(shù)量高達(dá)6000個(gè)。
Aristotle云聯(lián)盟面臨著與之驚人相似的挑戰(zhàn)??的螤柎髮W(xué)的高級(jí)計(jì)算中心主任(CAC)和聯(lián)合項(xiàng)目負(fù)責(zé)人戴維·利夫卡表示:“大數(shù)據(jù)就是大美元。人們必須有一個(gè)數(shù)據(jù)管理計(jì)劃,并且說明他們將如何分享這些數(shù)據(jù)并使之有效,人們正為此而努力。在不同的學(xué)科中,特別是基因組學(xué)和天文學(xué),它們都被埋藏在數(shù)據(jù)中。他們沒有共享數(shù)據(jù),而這也不只是復(fù)制其數(shù)據(jù)的一個(gè)很好的方式,當(dāng)你談?wù)摰綇?fù)制是PB級(jí)數(shù)據(jù)是很難的。如果能在源代碼中分析數(shù)據(jù)而不用移動(dòng)數(shù)據(jù),那是一個(gè)非常符合成本效益的模型,使得它更容易管理。”
研究人員驅(qū)動(dòng)
部分的理論基礎(chǔ)也讓研究人員成為技術(shù)驅(qū)動(dòng)的主要因素:“我們認(rèn)為,如果采取學(xué)術(shù)合作,推動(dòng)數(shù)據(jù)共享,那么需要基礎(chǔ)設(shè)施來支持,從而聯(lián)合。如果你有這么多的數(shù)據(jù),你就需要為多個(gè)機(jī)構(gòu)成員共享資源。”
eMedLab的研究機(jī)構(gòu)大多位于倫敦,其中包括:倫敦大學(xué)學(xué)院;倫敦大學(xué)瑪麗女王學(xué)院;倫敦衛(wèi)生與熱帶醫(yī)學(xué)學(xué)院;倫敦大學(xué)國王學(xué)院;弗蘭西斯克里克所;桑格研究所和歐洲生物信息研究所。商業(yè)數(shù)據(jù)中心提供商的物理云位于倫敦西區(qū)的斯勞鎮(zhèn)。硬件是由英國的集成商OCF公司的設(shè)備部署在一起,他們的工作也延伸到了OpenStack軟件。“OCF公司一直在支持社區(qū)的工作。”帕拉斯說。
Aristotle云聯(lián)盟的地理位沒有這樣的緊湊,因?yàn)檫@些機(jī)構(gòu)從美國東海岸橫跨到西海岸:它是由康奈爾大學(xué)(Cu),布法羅大學(xué)(UB),加利福尼亞大學(xué),圣塔巴巴拉分校(UCSB)共同承擔(dān)的。每個(gè)站點(diǎn)都有自己的云計(jì)算基礎(chǔ)設(shè)施,“因此它是一個(gè)真正的聯(lián)盟,其硬件是真正的分布式部署。”利夫卡說。
像emedlab項(xiàng)目,Aristotle聯(lián)盟一般都有萬兆連接的網(wǎng)絡(luò),“我可以告訴你,我們已經(jīng)在研究和思考未來的10萬兆的網(wǎng)絡(luò)連接技術(shù)。”利夫卡說,該聯(lián)盟的Globus公司主要采用在線移動(dòng)數(shù)據(jù),其部分原因是其可靠性,也是為了用戶和訪問的方便性。該聯(lián)盟正在使用InCommon,這是美國教育和科研標(biāo)準(zhǔn)的信任框架,允許訪問在線資源共享,并以此來驗(yàn)證用戶身份,為Globus提供支持。“因此,通過登錄,用戶有一個(gè)標(biāo)準(zhǔn)的方式來移動(dòng)數(shù)據(jù),為每個(gè)云采用身份驗(yàn)證的標(biāo)準(zhǔn)方法和方式來啟動(dòng)虛擬機(jī),它只是成為學(xué)習(xí)如何做的事情,”利夫卡說。
“這一切的云計(jì)算的好處是,如果你有一個(gè)HPC集群和大家分享,別人的HPC集群也可以共享,你可以使用他們的軟件堆棧。每次你想改變它,可以為你提供需要的東西,你必須要和每個(gè)人有一個(gè)完全連接,它只是沒有形成規(guī)模。”但是,利夫卡繼續(xù)說,“在云計(jì)算,你只需在自己的虛擬機(jī)上就獲得自已的分析數(shù)據(jù)環(huán)境。”
他強(qiáng)調(diào),目的是為了讓研究人員做事情更加容易:“我們當(dāng)?shù)氐脑瓶偸菚?huì)很謙虛,但你希望能夠讓它盡可能容易移動(dòng),而你不想阻礙研究人員。所以,你要為研究者具有優(yōu)化其預(yù)算的能力;優(yōu)化他們的時(shí)間,優(yōu)化他們對(duì)數(shù)據(jù)的訪問。在一個(gè)標(biāo)準(zhǔn)的HPC集群上做這些,是非常困難的事情。”
商業(yè)云的不同觀點(diǎn)
盡管有相似之處,但兩者之間有很大的區(qū)別,這其中的原因部分來自地理位置,也有不同的法律約束。特別是商業(yè)云對(duì)此的態(tài)度。
來自英國的醫(yī)學(xué)研究理事會(huì)的撥款原來集中于三種疾病;癌癥,心血管疾病,以及罕見的疾病。帕拉斯指出eMedLab的架構(gòu)是為這種類型的醫(yī)療和生物信息學(xué)進(jìn)行的專門的研究和設(shè)計(jì)。她繼續(xù)說:“商業(yè)云提供商架構(gòu)有問題,這是非常大的商品,沒有對(duì)我們?cè)趯W(xué)術(shù)界使用的專門結(jié)構(gòu)進(jìn)行優(yōu)化。此外,由于歐洲的法律限制,存在的數(shù)據(jù)要物理保持在所在國,并在組織的控制下,這是受歐盟數(shù)據(jù)立法保護(hù),這使得我們的商業(yè)供應(yīng)商在法律上十分敏感。”
另一個(gè)問題是,考慮可以進(jìn)入商業(yè)云計(jì)算的數(shù)據(jù)集相關(guān)的定價(jià)和速度:商業(yè)云提供商的數(shù)據(jù)出口收費(fèi)以及分析。數(shù)據(jù)出口收費(fèi)是目前研究小組面臨的問題;而如果移動(dòng)數(shù)據(jù),那是相當(dāng)重要的。”帕拉斯說。然而,她并沒有完全排除這種情況:“我不是說我們不會(huì)進(jìn)入商業(yè)云,我當(dāng)然認(rèn)為那里是有價(jià)值的。”
Eucalyptus或OpenStack?
利夫卡更看好商業(yè)云對(duì)科學(xué)的潛力。首先,Aristotle云采用了Helion公司的Eucalyptus,這是來自惠普企業(yè)(HPE)的軟件,而不是OpenStack的(eMedLab已經(jīng)采用)。其原因是,Eucalyptus是亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)云軟件的開源實(shí)現(xiàn)。利夫卡說:“我們很清楚,亞馬遜是一個(gè)公共服務(wù),人們想采用Eucalyptus是因?yàn)槠浒俜种俚募嫒荨?rdquo;
Eucalyptus允許用戶集中計(jì)算,存儲(chǔ)和網(wǎng)絡(luò)資源,或者動(dòng)態(tài)擴(kuò)展,因?yàn)閼?yīng)用程序工作負(fù)載的變化滿足所有的云啟用軟件的功能。任何人都可以免費(fèi)下載該軟件,并建立與AWS的API兼容的私有云和混合云的云。可從HPE獲得可選的咨詢服務(wù)。
三層聯(lián)合云模型
利夫卡設(shè)想了一個(gè)三層云模型:“首先在自己的數(shù)據(jù)中心運(yùn)行;然后,當(dāng)自己的數(shù)據(jù)中心飽和的,再到合作的伙伴運(yùn)行;然后,再達(dá)到飽和時(shí),就移動(dòng)到一個(gè)NSF云或亞馬遜云。”利夫卡說,“如果你能保持充分利用一個(gè)資源,并且在自己的數(shù)據(jù)中心運(yùn)營(yíng)更加做便宜;但是如果你不能,最好把它外包出去。就像你并不是每天開車去上班,大部分時(shí)間是閑置的,那為什么買一輛車?但是如果你每天開車去上班,那么買一輛車比租一輛車要便宜很多。”
Aristotle項(xiàng)目已經(jīng)從康奈爾大學(xué)的早期實(shí)驗(yàn)發(fā)展成為一個(gè)中等規(guī)模的云,成為人們?cè)诳的螤柎髮W(xué)真正的HPC集群的互補(bǔ)的資源。”但是有一個(gè)問題,即使是一流大學(xué),如康奈爾大學(xué),也會(huì)對(duì)計(jì)算資源的資本開支進(jìn)行限制。如果多個(gè)機(jī)構(gòu)的聯(lián)合云結(jié)合在一起,資金成本可能會(huì)大幅增加。但是,他指出:“當(dāng)人們不再采用亞馬遜云時(shí),那是因?yàn)樗麄儽任覀冃枰酶嗟馁Y源。但是,我們可以提供,我們可以保持資源的規(guī)模,并提供更好的價(jià)格,所以我們可以很容易為用戶挑選最符合其成本效益的價(jià)格/性能的解決方案。“Aristotle項(xiàng)目的合作伙伴UB和UCSB開發(fā),將幫助科學(xué)家在何時(shí)使用他們的機(jī)構(gòu)之外的聯(lián)合資源時(shí)作出明智的決定。
英國eMedLab項(xiàng)目和美國國家科學(xué)基金會(huì)資助Aristotle云的重點(diǎn)是其數(shù)據(jù)密集型應(yīng)用,利夫卡相信針對(duì)計(jì)算密集型的工作也將有很多機(jī)會(huì)。然而,帕拉斯承認(rèn)商業(yè)云提供商是不會(huì)采用緊耦合的基礎(chǔ)設(shè)施為核心業(yè)務(wù),因?yàn)橛布囊鐑r(jià),他們不會(huì)獲得足夠的業(yè)務(wù)來恢復(fù)它。他們將直接放棄服務(wù)器。這就是市場(chǎng)的成交量,也是他們的賭注,但是,他對(duì)此表示樂觀,并認(rèn)為研究界會(huì)適應(yīng)它的計(jì)算,以適應(yīng)他們所擁有的計(jì)算資源類型的方式。
“時(shí)間到科學(xué)”才是最重要的
利夫卡描繪了HPC未來愿景,并認(rèn)為商用服務(wù)器將代替專業(yè)組件。“回溯到上世紀(jì)80年代,當(dāng)每個(gè)人都在買自己喜歡的超級(jí)計(jì)算機(jī)時(shí)。然后,英特爾公司走了出來,說:‘你可以建立一個(gè)Beowulf集群,它會(huì)做幾乎所有的大型機(jī)所能做到的一切。’人們嘲笑地說:‘這行不通。你必須有一個(gè)思維連接機(jī)器;或者你得有一個(gè)IBM公司的SP。’而如今再看看我們現(xiàn)在的情況。這一行業(yè)帶動(dòng)了市場(chǎng)的數(shù)量和研究的調(diào)整,而這樣的研究才是非常好的。”
利夫卡表示,如今也將看到一個(gè)類似的模式轉(zhuǎn)變的,原因是研究者重要的是“科學(xué)的時(shí)間”,而不再用時(shí)間的長(zhǎng)度來衡量的計(jì)算時(shí)間。“如果你的計(jì)算任務(wù)可以在一個(gè)國家超級(jí)計(jì)算中心排隊(duì),在你的工作運(yùn)行隊(duì)列需要五天的時(shí)間,然后你獲得50000個(gè)核心處理器運(yùn)轉(zhuǎn),你的工作時(shí)間是幾個(gè)小時(shí),這是了不起的。但是如果你現(xiàn)在能得到50000個(gè)核心的話,則無需等待,而你的工作需要運(yùn)行較長(zhǎng)時(shí)間,但它仍然會(huì)在結(jié)束前,你的其他工作將在超級(jí)計(jì)算機(jī)上啟動(dòng)。”
“時(shí)間到科學(xué)是最重要的,”他總結(jié)說,“在一個(gè)緊密耦合方式使用,并不知道采用了多少個(gè)核心處理器。研究人員將進(jìn)行調(diào)整。他們關(guān)心的是結(jié)果,最好的價(jià)格,以及在隊(duì)列中的最少的時(shí)間。”
他并非暗示緊密耦合的超級(jí)計(jì)算機(jī)是多余的:“真正需要的高端的東西的人都將仍然需要它,他們將在國家超級(jí)計(jì)算中心運(yùn)行它。但是,很少有學(xué)術(shù)機(jī)構(gòu)將能夠負(fù)擔(dān)得起這個(gè)系統(tǒng)的費(fèi)用,除非是得到了美國聯(lián)邦政府的資助或被游戲系統(tǒng)采用。”
利夫卡認(rèn)為,這將迫使大多數(shù)用戶找出一種新的方式實(shí)施科學(xué)計(jì)算,因?yàn)檫@些人并沒有國家資助的計(jì)算資源。“這是我第一次看到管理IT驅(qū)動(dòng)的發(fā)展趨勢(shì),而不是研究出來的。人們對(duì)企業(yè)應(yīng)用和代碼使用云基礎(chǔ)設(shè)施的需求越來越高。當(dāng)他們做到這一點(diǎn),研究界開始流行開來,并看到了效益。我認(rèn)為這將會(huì)改變游戲規(guī)則。”
然而,這種革命不會(huì)很快發(fā)生,利夫卡說,“從英特爾的筆記本電腦到英特爾的超級(jí)計(jì)算機(jī)并不是在一天中所實(shí)現(xiàn)的。我認(rèn)為人們將對(duì)超級(jí)計(jì)算機(jī)有一個(gè)巨大的需求,但這是一個(gè)互補(bǔ)的資源,將為那些最需要它的研究人員騰出使用超級(jí)計(jì)算機(jī)的時(shí)間。”他總結(jié)道:“如果每個(gè)人都有自己的時(shí)間進(jìn)行科學(xué)完善,那么人人都將是贏家。”