“高效制勝、擴(kuò)展無(wú)限—Dell HPC 行業(yè)應(yīng)用實(shí)踐交流會(huì)”于2012年6月20日在北京悠唐皇冠假日酒店盛大召開,戴爾技術(shù)專家及行業(yè)技術(shù)精英和與會(huì)者切磋交流,共商HPC發(fā)展之大計(jì)。
以下是現(xiàn)場(chǎng)快遞。(聲明:本稿件來(lái)源為現(xiàn)場(chǎng)速記,可能有筆誤和別字,僅供參考)
主持人:非常感謝凌顧問的精彩分享,接下來(lái)有請(qǐng)到的是Dell Force10團(tuán)隊(duì)售前工程師王亮,他給我們分享的是高性能計(jì)算中Dell萬(wàn)兆網(wǎng)絡(luò)解決方案。有請(qǐng)王總。
Dell Force10團(tuán)隊(duì)售前工程師王亮
王亮:各位下午好,我叫王亮,是Force10團(tuán)隊(duì)的售前工程師,我不知道各位有沒有聽說(shuō)過Force10,F(xiàn)orce10是做萬(wàn)兆以太網(wǎng)交換機(jī)的,我們是去年被Dell收購(gòu),加入Dell大家庭,在HPC領(lǐng)域Force10也是做了很多年,有一些案例,以及一些成功的經(jīng)驗(yàn),今天愿意和大家一起分享一下。
說(shuō)到大型計(jì)算,高性能計(jì)算這塊,可能目前主流的有這么幾種類型,像SMP,還有Cluster集群,在以太網(wǎng)和Cluster的應(yīng)用中還是比較廣泛的。Force10提供高密度的10G、40G的交換機(jī)。
那么我們更多的是Cluster的應(yīng)用,在Cluster的應(yīng)用當(dāng)中,我們的存儲(chǔ)網(wǎng)絡(luò),到中斷用戶的網(wǎng)絡(luò),以及管理網(wǎng)絡(luò),還有就是內(nèi)部連接,就是連接到這個(gè)計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò),我們通常在設(shè)計(jì)上都會(huì)采用一臺(tái)交換機(jī)這么一個(gè)結(jié)構(gòu),為什么喜歡這么一個(gè)結(jié)構(gòu)呢,因?yàn)槭紫任覀冊(cè)诟咝阅苡?jì)算中,可能關(guān)心的最大的一個(gè)問題是高可用性,一個(gè)計(jì)算跑了兩天、一星期,由于交換機(jī)的原因,計(jì)算結(jié)果丟失了,這肯定是您不能忍受的。在Cluster應(yīng)用中,F(xiàn)orce交換機(jī)提供足夠多的端口,所以它在整個(gè)使用一臺(tái)設(shè)備就可以計(jì)算節(jié)點(diǎn),管理節(jié)點(diǎn)。
我們以前在InfiniBand,帶寬足夠大,時(shí)延是比較低的,現(xiàn)在隨著以太網(wǎng)技術(shù)的發(fā)展,以太網(wǎng)這塊也是有了40G甚至100G的交換機(jī),時(shí)延也是越做越小,除了交換機(jī)這一端對(duì)時(shí)延進(jìn)行優(yōu)化以外,在服務(wù)器端,網(wǎng)卡那一端也可以對(duì)時(shí)延進(jìn)行一定的優(yōu)化,通過這樣的優(yōu)化,通過IP以太網(wǎng)組成的高性能計(jì)算網(wǎng)絡(luò),基本上這些參數(shù)也可以去追趕InfiniBand這些優(yōu)勢(shì)了。
那么這也就是我在這里跟各位討論的,主連接,也就是到計(jì)算節(jié)點(diǎn)的連接,是否采用以太網(wǎng)。就像我們?cè)谧鲆恍?shí)例,跟客戶做交流的時(shí)候,其實(shí)現(xiàn)在有一些高性能計(jì)算的應(yīng)用,他的底層就是基于TCIP技術(shù)的,如果要在IB網(wǎng)絡(luò)上的話,他可能要做IP或者IB的轉(zhuǎn)換,這個(gè)其實(shí)效果比不是很好。
在地球物理,石油勘探,其實(shí)我們現(xiàn)在也已經(jīng)有了很多的通過以太網(wǎng)絡(luò)實(shí)現(xiàn)高性能計(jì)算的應(yīng)用案例。時(shí)延現(xiàn)在在高性能計(jì)算中,各位的需求是時(shí)延越低越好,對(duì)于我們的交換機(jī),對(duì)于數(shù)據(jù)中心,或者為高性能計(jì)算設(shè)計(jì)的IP交換機(jī)的話,其實(shí)像Force10所有產(chǎn)品的時(shí)延基本上低于5微秒,甚至有一款產(chǎn)品,剛才在門口各位都看到了,有一臺(tái)4810,他的時(shí)延是700納秒,是非常低的。
那么IP網(wǎng)在結(jié)構(gòu)設(shè)計(jì)上,還有一個(gè)由于IB的優(yōu)勢(shì),以太網(wǎng)可以通過Cluster的算法,分布式核心的算法,非常方便的橫向擴(kuò)展,然后組成一個(gè)很大型的計(jì)算節(jié)點(diǎn)集群。我這列了一個(gè)實(shí)例,Cluster這個(gè)結(jié)構(gòu)我簡(jiǎn)單給大家解釋一下,通過兩層架構(gòu),一層做骨干,一層做枝葉,骨干做轉(zhuǎn)發(fā)數(shù)據(jù),枝葉做服務(wù)器計(jì)算節(jié)點(diǎn)介入。他遵循的原則是,從枝葉層的交換機(jī)去下連計(jì)算節(jié)點(diǎn)的帶寬,一定要小于等于上連到骨干層帶寬,這樣才能整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)里面是一個(gè)無(wú)阻塞的全線速的網(wǎng)絡(luò)。那么為什么說(shuō)它易于擴(kuò)展,在這個(gè)結(jié)構(gòu)里面我可以以兩個(gè)核心作為起始結(jié)構(gòu),甚至一個(gè)核心做起始結(jié)構(gòu),然后不斷的添加或減少枝葉,在這個(gè)過程中并且影響現(xiàn)有節(jié)點(diǎn)的數(shù)據(jù)通訊,而且這個(gè)結(jié)構(gòu)可以做到很方便,您可以看到我們有這么幾個(gè)例子,用我們的4180做核心及枝葉結(jié)點(diǎn),16臺(tái)設(shè)備就可以做到576個(gè),3:1的萬(wàn)兆端口。
其實(shí)還是在討論采用以太網(wǎng)在HPC里面的優(yōu)勢(shì),F(xiàn)orce10的設(shè)備提供是全線速的板卡,三層、二層的全線速轉(zhuǎn)發(fā)的設(shè)備,并且端口密度,節(jié)能降效這塊都會(huì)有很好的體現(xiàn)。您可以看到,我這只選了一個(gè)我們最大的一臺(tái)設(shè)備,1200,如果我們采用高密度的萬(wàn)兆端口一臺(tái)設(shè)備可以達(dá)到280個(gè),時(shí)延甚至達(dá)到320納秒。
目前我們支持的端口數(shù)有1G、10G、40G,可靠性后面我可能會(huì)有一些成功案例的分享,在我們很多高性能計(jì)算案例中,尤其是在中科院的科研機(jī)構(gòu),他們可能就是用一臺(tái)設(shè)備把一個(gè)集群連起來(lái),已經(jīng)很長(zhǎng)時(shí)間了,沒有任何問題,低時(shí)延也強(qiáng)調(diào)了,再有就是Force10所有設(shè)備是經(jīng)過第三方評(píng)測(cè)機(jī)構(gòu)評(píng)測(cè)的結(jié)果,F(xiàn)orce10所有的設(shè)備,在相同的端口數(shù)或者是相同轉(zhuǎn)發(fā)需求的情況下,它的單位功耗是最低的。
那么在高性能計(jì)算領(lǐng)域,高性能計(jì)算TOP500里面,有很多是采用了Force10的產(chǎn)品,世界上最快的HPC,這也是舉個(gè)例子,剛才同事介紹上一個(gè)片子的時(shí)候,屢次提到華大基因,其實(shí)華大基因也是我們Force10在國(guó)內(nèi)重大的客戶,它在高性能計(jì)算這塊也是采用了我們的高性能Force10交換機(jī)。
下面是幾個(gè)成功案例的分享。包含這個(gè)是新疆地球物理所,下面的計(jì)算節(jié)點(diǎn)直接掛到我們大盒子叫1200下面,就跟剛才那個(gè)圖差不多。然后這個(gè)是一個(gè)實(shí)拍的照片,在它的機(jī)柜上拍的照片,現(xiàn)在一個(gè)交換機(jī)已經(jīng)插滿了,基本上交換機(jī)的面板已經(jīng)看不到了,全部被線遮蓋掉了,好處是Force10機(jī)器還自帶一個(gè)線的整理架,整體來(lái)說(shuō)這個(gè)線還是比較規(guī)范的。
遼河油田,這也是我們一個(gè)成功的案例,我們Force10在除了性能上的特色以外,他在軟件功能,操作系統(tǒng)上也有一些特色,像遼河油田,鏈路捆綁數(shù)你可以看到,一般的話,鏈路捆綁是八條,那么我們可以支持16條甚至更高,我們最新的支持64條捆綁,這個(gè)案例中我們是做了十條鏈路捆綁,為這兩個(gè)核心節(jié)點(diǎn)下面的這些數(shù)據(jù)通訊保證一個(gè)互聯(lián)帶寬,高可用,大帶寬。
這是一個(gè)西地所,計(jì)算節(jié)點(diǎn)一共是256個(gè),其實(shí)大家可以看到,在這個(gè)圖上面的全部是他的計(jì)算節(jié)點(diǎn),直接連到一臺(tái)Force10 1200交換機(jī)上面,下面是存儲(chǔ)的服務(wù)器,再下面是散網(wǎng)絡(luò),以及它的存儲(chǔ)系統(tǒng),管理系統(tǒng)掛在這個(gè)地方。其實(shí)這個(gè)結(jié)構(gòu)可以很清晰地看到,一臺(tái)高性能,高密度的交換機(jī),就可以完成他所有的HPC計(jì)算的需求。
這還列了一個(gè)上海超算的案例,我就不詳細(xì)講了,結(jié)構(gòu)也是差不多的,計(jì)算節(jié)點(diǎn)更多一些,1536個(gè)。另外我們?cè)谏钲谛窃?,跟政府合作,做了一個(gè)當(dāng)時(shí)是亞洲最大的云超算中心,深圳星云這個(gè)項(xiàng)目,可以看到他是幾個(gè)區(qū)域,HPC區(qū),云計(jì)算區(qū),那么在這個(gè)區(qū)域內(nèi)部,采用的全部都是Force10的,從接入層交換機(jī),到核心交換機(jī),兩層結(jié)構(gòu),全線速交換的網(wǎng)絡(luò)。區(qū)域跟區(qū)域之間由于含有一定數(shù)據(jù)量的通訊,我們采用兩臺(tái)4810,這個(gè)結(jié)構(gòu)也類似Cluster的結(jié)構(gòu),全互連,這個(gè)肯定不是全線速的。保證了區(qū)域跟區(qū)域之間的一個(gè)數(shù)據(jù)通訊,并且保證了一定量的帶寬。
我講的內(nèi)容就這么多,因?yàn)闀r(shí)間確實(shí)比較短,就沒有展開給各位講Force10產(chǎn)品,多數(shù)是講一講以太網(wǎng)在HPC領(lǐng)域,其實(shí)我們能做些什么,F(xiàn)orce10產(chǎn)品是能在以太網(wǎng)的基礎(chǔ)上為HPC的應(yīng)用提供基礎(chǔ)架構(gòu),至于具體的產(chǎn)品,如果各位有興趣,我們想我們之后會(huì)有更多的交流,我們也愿意把我們的產(chǎn)品資料,愿意把我們的一些經(jīng)驗(yàn)和大家一起來(lái)分享。謝謝大家!