“高效制勝、擴(kuò)展無(wú)限—Dell HPC 行業(yè)應(yīng)用實(shí)踐交流會(huì)”于2012年6月20日在北京悠唐皇冠假日酒店盛大召開(kāi),戴爾技術(shù)專(zhuān)家及行業(yè)技術(shù)精英和與會(huì)者切磋交流,共商HPC發(fā)展之大計(jì)。
以下是現(xiàn)場(chǎng)快遞。(聲明:本稿件來(lái)源為現(xiàn)場(chǎng)速記,可能有筆誤和別字,僅供參考)
主持人:非常感謝張博士的精彩演講,張博士從中國(guó)TOP100排行榜談起,從各個(gè)領(lǐng)域都做了簡(jiǎn)要的分析,但是相信在座各位非常關(guān)注,更關(guān)心的是我們中國(guó)的用戶(hù)更加個(gè)性化的需求,尤其是對(duì)高性能計(jì)算需求非常大的這些行業(yè),包括政府、教育、醫(yī)療。我們?nèi)绾卧谖覀儌€(gè)性化的需求情況下,如何找到適合自己的解決方案,如何落地,相信是各位最關(guān)心的。接下來(lái)就有請(qǐng)Dell高性能計(jì)算產(chǎn)品技術(shù)顧問(wèn)凌巍才給我們帶來(lái)高性能計(jì)算的發(fā)展趨勢(shì)及Dell解決方案。
Dell高性能計(jì)算產(chǎn)品技術(shù)顧問(wèn)凌巍才
凌巍才:尊敬的各位來(lái)賓大家上午好,非常感謝大家來(lái)參加Dell高性能計(jì)算技術(shù)研討會(huì),剛才李總和張博士非常精彩的介紹了Dell公司HPC的發(fā)展策略,張總也介紹了發(fā)展的趨勢(shì),在我的片子里我會(huì)主要介紹一下Dell公司的解決方案。
首先自我介紹一下,我是凌巍才,我是負(fù)責(zé)高性能計(jì)算的工程師。我講的內(nèi)容主要分四個(gè)部分,第一部分是高性能計(jì)算的發(fā)展趨勢(shì),主要是針對(duì)Dell來(lái)講的,第二就是HPC的策略和我們?cè)趺礃舆M(jìn)入這個(gè)市場(chǎng),進(jìn)入市場(chǎng)的方法。第三部分主要介紹一下,進(jìn)入這個(gè)方法其中我們?cè)敿?xì)的一些解決方案,最后介紹一下我們的成功案例。
我們?cè)谡凥PC的時(shí)候通常都要談它的發(fā)展趨勢(shì),每個(gè)企業(yè),每個(gè)組織,或者每個(gè)單位,如果他想進(jìn)入這個(gè)行業(yè)他都會(huì)談這個(gè)趨勢(shì),而且每個(gè)單位談的角度也不同。那么Dell公司怎么來(lái)看這個(gè)高性能計(jì)算的發(fā)展趨勢(shì),這就是我們?cè)谧龈咝阅苡?jì)算的時(shí)候我們看到的趨勢(shì)。首先我們說(shuō)他的CPU,高性能計(jì)算主要是用CPU來(lái)做計(jì)算,CPU發(fā)展是非??斓模ㄟ^(guò)過(guò)去幾年的發(fā)展,我們看到隨著一些IT巨頭的合并,這種快速的發(fā)展,X86這種平臺(tái)會(huì)在HPC市場(chǎng)越來(lái)越多的參與進(jìn)來(lái)。還涌現(xiàn)了一些新的處理器的技術(shù),但是不知道會(huì)參與到這個(gè)HPC市場(chǎng),用來(lái)做網(wǎng)絡(luò)和移動(dòng)終端的處理器,我們看的話,就是看CPU的趨勢(shì)。
內(nèi)存也是非常重要的,我們?cè)谧鯤PC的話,內(nèi)存的帶寬和內(nèi)存的延時(shí),都是某些特定應(yīng)用所主要考量的指標(biāo)。我們?cè)趦?nèi)存的帶寬上面,我們也在監(jiān)控,現(xiàn)在新的基于X86我們每個(gè)CPU所連的內(nèi)存帶寬已經(jīng)有四個(gè)通道,主頻已經(jīng)到了1.6G赫茲,延遲更小,做計(jì)算的時(shí)候會(huì)更快的向CPU提供數(shù)據(jù)。還有就是加速器,GPU,GPU發(fā)展的也非常快,很多大型的HPC都在采用GPU的計(jì)算,GPU是特別擅長(zhǎng),它做一些浮點(diǎn)運(yùn)算的拿過(guò)來(lái),他叫多數(shù)據(jù)的算法,他這個(gè)是脫離傳統(tǒng)的CPU的編程和計(jì)算方法。
PCIE的帶寬也很多,3.0可以到達(dá)128每秒。數(shù)據(jù)也是海量的增長(zhǎng),這個(gè)數(shù)據(jù)的增長(zhǎng),數(shù)據(jù)增長(zhǎng)會(huì)比摩爾定律還要高很多倍,還有軟件,包括管理軟件,包括云,都是基于軟件的發(fā)展,也是非常的快,非常的多,軟件也非常全。那么供電和散熱也會(huì)在下面的圖介紹一下。新的處理器,在高性能計(jì)算測(cè)試和在HPL這方面測(cè)試耗電的比較,這張圖1,我們是用Dell公司第11代服務(wù)器做出來(lái)的高性能計(jì)算HPL的性能測(cè)試結(jié)果,620測(cè)試出來(lái)的結(jié)果,平均要高出來(lái)2.5倍,所以說(shuō)用新一代的Dell620的話,新的服務(wù)器采用新的處理器技術(shù)性能高了很多。大家可以看一下,這邊的功耗,在相同功率的貢獻(xiàn)情況下,新的620,性能也比以前提升了兩倍以上。
雙處理器集群平均內(nèi)存,現(xiàn)在處理器核數(shù)不斷增加,他對(duì)于每個(gè)結(jié)點(diǎn)的內(nèi)存也是在不斷的增加的,平均來(lái)說(shuō),對(duì)單個(gè)核來(lái)講,內(nèi)存基本上是保持不變的。
下面這張圖是我們采用加速器的比例,這張圖的話,我們是從這個(gè)月做的研究調(diào)查圖,在采用GPU用戶(hù)中大概現(xiàn)在的比例是29%,這個(gè)比例會(huì)低于TOP500里面的大型數(shù)據(jù),大型集群的話,他會(huì)采用較多的GPU的加速運(yùn)算技術(shù)。再看一下,我們PCIE的話,如果是第3代和第2代,而且采用的是不同的技術(shù)第一個(gè)是數(shù)據(jù)傳輸率的帶寬,一個(gè)是延遲,大家可以看到采用FDR,他的性能會(huì)增加169%。如果采用新的FDR的技術(shù),并且采用PCIE第3代,性能會(huì)有非常大的提升。那么在延遲的話,也是FDR延遲0.77微秒。
我們的策略,我們是采用開(kāi)放的平臺(tái),一個(gè)標(biāo)準(zhǔn)的架構(gòu),以及很高的性?xún)r(jià)比,這是我們的策略,所以說(shuō)我們?cè)谶M(jìn)入高性能計(jì)算這個(gè)是市場(chǎng),我們堅(jiān)持的策略是用開(kāi)放的,像X86處理器,以及市場(chǎng)上可以采購(gòu)得到的高性能內(nèi)存,都是非常標(biāo)準(zhǔn)的,非常開(kāi)放的,而且是高性?xún)r(jià)比的產(chǎn)品。
下面介紹一下Dell公司的HPC,我們的策略有了,那么我們?cè)趺礃舆M(jìn)入這個(gè)市場(chǎng),我們進(jìn)入這個(gè)市場(chǎng)的方法有三種,第一種就是和我們的用戶(hù)來(lái)進(jìn)行合作,如果我們用戶(hù)在這個(gè)領(lǐng)域里面,他知道他要做什么,那么我們就會(huì)跟用戶(hù)進(jìn)行合作。第二部分我們就是要和我們的搭檔合作,他在研究領(lǐng)域有一定的專(zhuān)利技術(shù)或者技能專(zhuān)長(zhǎng)。第三部分我們提供一個(gè)簡(jiǎn)單的硬件平臺(tái)給用戶(hù)。
用戶(hù)協(xié)作和合作伙伴,我們是怎么和用戶(hù)進(jìn)行協(xié)作,比如德克薩斯的高級(jí)計(jì)算機(jī)中心,這個(gè)用戶(hù)他知道他要做什么,他有多大的需求,我們就會(huì)和他來(lái)合作,來(lái)做這樣的系統(tǒng)。另外我們還有一個(gè)和劍橋大學(xué),劍橋大學(xué)和Dell公司合作成立了高性能計(jì)算中心,我們可以在這個(gè)中心上面來(lái)為劍橋大學(xué)提供他們自己的計(jì)算需求,同時(shí)還可以向市場(chǎng)提供包括測(cè)評(píng)、新產(chǎn)品技術(shù)采納,以及程序的修改調(diào)優(yōu)等等服務(wù)。
另外我們?cè)趺春秃献骰锇檫M(jìn)行合作呢,我們要和包括結(jié)構(gòu)力學(xué),流體動(dòng)力學(xué),基因比對(duì),以及數(shù)字內(nèi)容的生成等等,我們和這些軟件廠商合作走向市場(chǎng)。我現(xiàn)在主要介紹,除此之外我們第三種辦法,我們用非常簡(jiǎn)單的硬件設(shè)備,標(biāo)準(zhǔn)的開(kāi)放的,向廣大的市場(chǎng)提供解決方案。
Dell的HPC方案結(jié)構(gòu),也是非常的簡(jiǎn)單,它是模塊化的,除非特別大的應(yīng)用,很多的應(yīng)用,它的線性增長(zhǎng)率是有一定限制的,他可能在一千個(gè)核之內(nèi),他并行的效率提升會(huì)非常顯著,但是超過(guò)一千核以后,效率就不顯著了,在這種情況下我們就把這種不同的應(yīng)用放在不同的,我們叫單元格上,然后包括應(yīng)用與應(yīng)用之間的通訊,我們也根據(jù)應(yīng)用需求來(lái)判定采用什么樣的互聯(lián)網(wǎng)絡(luò)技術(shù),以及存儲(chǔ),我們都會(huì)根據(jù)用戶(hù)需求來(lái)定。存儲(chǔ)單元架構(gòu),不同的HPC的方案,有可能存儲(chǔ)單元架構(gòu)是不一樣的,通常我們?cè)谶@個(gè)領(lǐng)域里面我們把它分成三個(gè)層級(jí)。
下面介紹一下Dell公司其中兩個(gè)部分,一個(gè)是計(jì)算部分,一個(gè)是軟件部分。這張圖大家可以看得到,上面是所有Dell服務(wù)器系列,這邊是機(jī)架式服務(wù)器,機(jī)架式服務(wù)器面積最大,這邊應(yīng)用的類(lèi)型,包括單排的應(yīng)用,包括高可用性集群,包括虛擬服務(wù)器池,高性能計(jì)算,包括云,縱軸是不同的應(yīng)用。然后這邊是我們的出貨量,或者是我們的市場(chǎng)占有率,機(jī)架式服務(wù)器是最多的,然后這邊是刀片服務(wù)器,這邊是云系列服務(wù)器,然后這邊是我們?yōu)榭蛻?hù)定制的服務(wù)器。
下面向大家介紹一下Dell公司的刀片服務(wù)器,這是刀片一千億的機(jī)箱,這個(gè)機(jī)箱底下有兩個(gè)KBM接口,這邊有一個(gè)顯示控制器,這里面可以放服務(wù)器,我們這里面的服務(wù)器有各種型號(hào)供選擇,后面我們可以由6個(gè)IO插槽,可以插不同的插槽,包括以太網(wǎng),包括存儲(chǔ)的光纖通道,后面還有一些電源和風(fēng)扇,可以通過(guò)遠(yuǎn)程來(lái)進(jìn)行管理。
這張圖片,所有刀片服務(wù)器的不同型號(hào),我們這里面可以看到有M620,M610,M710,所有這些都是半高的,里面可以插16臺(tái)服務(wù)器,這都是雙路的。下面都是全高的,勸告有M610,還有M710,這邊是全高的四路的,有AMD,還有Intel處理器的。我們還有新出的一種刀片服務(wù)器,我們可以裝32個(gè)刀片,在10U高的紀(jì)香里面。細(xì)節(jié)我就不講了。
下面我介紹一下我們?cè)葡盗械姆?wù)器,我們這邊有單排的,還有共享架構(gòu)的,包括他共享的是電源和風(fēng)扇以及網(wǎng)絡(luò)、連接,還有管理、控制這都是共享的。我們?cè)葡盗械姆?wù)器,它共享的是電源和風(fēng)扇,其他的包括網(wǎng)絡(luò)、控制、管理都是單獨(dú)管理的。所以說(shuō)這個(gè)就是共享了。然后這邊的話,我們還有很密集的云系列的服務(wù)器,那么后面的話,我們會(huì)介紹一下C系列,其中我們?cè)葡盗械腃6100我們共享基礎(chǔ)架構(gòu)的服務(wù)器,他可以放4臺(tái)服務(wù)器,每個(gè)系統(tǒng)里面可以有兩個(gè)Intel處理器,他這里面可以插12個(gè)內(nèi)存,前面可以放24塊2.5寸的硬盤(pán),或者12塊3.5寸的硬盤(pán)。這是第2代PCIE接口,他的管理口,有熱插拔電源和風(fēng)扇。
下面我介紹一下我們第12代云系列服務(wù)器,PCIE是第3代的,這是他整個(gè)更新的地方,2U的服務(wù)器里面可以放兩個(gè)也可以放四個(gè),這個(gè)是采用Intel的ABS技術(shù),等于是高級(jí)的制定技術(shù),他可以運(yùn)行八個(gè)浮點(diǎn)運(yùn)算。C6145他可以到達(dá)128個(gè)核,我在以前的時(shí)候,曾經(jīng)做過(guò)一個(gè)中科院數(shù)學(xué)所的,四個(gè)大機(jī)柜,一共才64個(gè)CPU,這一個(gè)系統(tǒng)就已經(jīng)是4個(gè)機(jī)柜的兩倍了,可以看得到,現(xiàn)在HPC技術(shù)發(fā)展非常快。
這個(gè)系列是我們專(zhuān)門(mén)用來(lái)做云計(jì)算,他是高密度的服務(wù)器,存儲(chǔ)包括計(jì)算都在一起,4U可以接十臺(tái)系統(tǒng),他的系統(tǒng)也是非常的好。我們還有一個(gè)客戶(hù)定制的系統(tǒng),我們剛才說(shuō)了有很多處理器的技術(shù),我們現(xiàn)在也在緊跟著這個(gè),我們用ARM Servers,他這個(gè)里面也是采用領(lǐng)先的技術(shù),等于是我們非常勇于創(chuàng)新的企業(yè),我們也在嘗試用新的CPU用新的服務(wù)器系統(tǒng),我們針對(duì)的用戶(hù)是互聯(lián)網(wǎng)用戶(hù),或者是我們的TACC。
剛才簡(jiǎn)要介紹了一下服務(wù)器,下面介紹一下管理軟件,監(jiān)控軟件我們用idrac7,這是我做了一個(gè)截圖,除了對(duì)服務(wù)器進(jìn)行控制以外,還可以對(duì)電源有一個(gè)設(shè)定,可以極大的降低功耗。
軟件上面我們有一個(gè)軟件站,我們有操作系統(tǒng),集群管理軟件,調(diào)度軟件以及各種各樣的應(yīng)用,我們?cè)谶@個(gè)軟件部分,我們可以和很多的廠商來(lái)合作,我們是一個(gè)非常開(kāi)放,非常標(biāo)準(zhǔn)的平臺(tái),很多基于X86技術(shù)的這些軟件,我們都可以用。
下面介紹一下GPU,我們有很全的產(chǎn)品系列,我們可以外部接也可以在內(nèi)部接,不同的連接方法有不同的連接比例。我主要介紹一下外部連接非常有特色的產(chǎn)品,C410x,PCIE的GPU擴(kuò)展箱,他是一個(gè)純的PCIE的擴(kuò)展箱,它是把GPU從服務(wù)器里面拿出來(lái),單獨(dú)的放在一個(gè)擴(kuò)展箱里面,這樣的話,特別適合于那種就是說(shuō),他對(duì)這個(gè)應(yīng)用的測(cè)試比較靈活,如果你現(xiàn)在一個(gè)服務(wù)器可以接一個(gè)GPU,那么也可以接兩個(gè)GPU,也可以接不同的GPU來(lái)進(jìn)行配置。這只是其中的一個(gè)案例,我們?cè)谟肅410x和6100來(lái)連接的時(shí)候我們做了4/1的三明治,我們有三種配置,這只是其中一個(gè)。第一種配置是兩個(gè)C6100中間加一個(gè)C410x,這是第一種配置,真正的全三明治。他這里面可以放16塊GPU,C6100里面可以放4個(gè)系統(tǒng),16塊GPU,每4個(gè)GPU連接到其中一個(gè)結(jié)點(diǎn)上面來(lái)。
下面介紹一下這種連接方式,對(duì)于應(yīng)用有什么樣的提升嗎?再一個(gè)多GPU應(yīng)用的分析,HAMER,黃顏色是一臺(tái)主機(jī)對(duì)一個(gè)GPU,綠顏色是一臺(tái)主機(jī)對(duì)兩個(gè)GPU,灰顏色是一臺(tái)主機(jī)對(duì)四個(gè)GPU,它的線性增長(zhǎng)率非常好,接4個(gè)GPU的時(shí)候,性能可以增加了7.2倍。
介紹完了計(jì)算和軟件的部分,下面介紹一下存儲(chǔ)部分,我在這里簡(jiǎn)要介紹一下我們HPC存儲(chǔ),他是一個(gè)架構(gòu)和方案,我們把HPC存儲(chǔ)分成三部分,包括快速存儲(chǔ),用戶(hù)存儲(chǔ)和歸檔存儲(chǔ)。
我們?cè)卺槍?duì)不同的用戶(hù)級(jí)別的話,我們采用不同的存儲(chǔ)解決方案,在小部門(mén)的集群下面,我們用NSS系統(tǒng),我們?cè)谧龃笙到y(tǒng)的時(shí)候,我們用我們快速的系統(tǒng)。
我們是怎么來(lái)做存儲(chǔ)的,我們存儲(chǔ)也是遵循了Dell公司的策略,采用開(kāi)放的,標(biāo)準(zhǔn)的架構(gòu),我們這種架構(gòu)就是用標(biāo)準(zhǔn)的服務(wù)器和開(kāi)放的存儲(chǔ),把它連接起來(lái),我們可以配置不同的軟件,實(shí)現(xiàn)不同的功能。
這個(gè)是我們和我們的合作伙伴配置的事例,我們經(jīng)過(guò)嚴(yán)格測(cè)試從小到大,不同的規(guī)模我們有不同的配置方案。我們Lustre文件系統(tǒng),它的性能委員好。
我們還可以采用PVFS架構(gòu),它可以縱向擴(kuò)展和橫向擴(kuò)展,他在縱向擴(kuò)展時(shí)候就可以在我們存儲(chǔ)模塊上面,用一臺(tái)服務(wù)器下掛存儲(chǔ),然后配置文件系統(tǒng),如果橫向擴(kuò)展的話,我們就可以把多個(gè)模塊連接在一起,這個(gè)文件系統(tǒng)是把MDS數(shù)據(jù)平分到很多不同的結(jié)點(diǎn)上面來(lái)了,而Lustre是集中的,在大型的HPC上面用得非常多,在前三十個(gè)HPC里面他有13個(gè)。15個(gè)都是用的Lustre。
我們都知道,做HPC存儲(chǔ)的時(shí)候,主要是計(jì)算結(jié)點(diǎn)和存儲(chǔ)結(jié)點(diǎn)之間的帶寬,我們這個(gè)里面采用特殊的配置,一共配置了五塊盤(pán),不同盤(pán)有不同的功能,磁盤(pán)托架之間做條帶化處理了。
剛才介紹的是存儲(chǔ)部分,下面介紹一下互連部分,我們?cè)谧鯤PC,現(xiàn)在有的網(wǎng)絡(luò)技術(shù)和性能,有千兆網(wǎng),有萬(wàn)兆網(wǎng),還有DDR和QDR,很多不同應(yīng)用會(huì)用不同的網(wǎng)絡(luò)連接系統(tǒng),通常在地震數(shù)據(jù)處理,還有生命科學(xué)的一些應(yīng)用領(lǐng)域都用以太網(wǎng),在其他的科學(xué)研究,一些特定的CAE和CFD用互聯(lián)網(wǎng)技術(shù)。
Dell有非常全的網(wǎng)絡(luò)產(chǎn)品,我們?cè)谧鯤PC計(jì)算的時(shí)候,我們都是千兆介入,我們可以用無(wú)阻塞的產(chǎn)品,在做管理的時(shí)候,刀片可以配M6220。
我們做了很多成功案例,國(guó)內(nèi)包括清華大學(xué)生命科學(xué)研究院,這邊是我們國(guó)內(nèi)的一些案例。下面是國(guó)外的案例。由于時(shí)間關(guān)系,我的演講就到這里,謝謝大家!