HPC博文——高性能計(jì)算(HPC)以及隨后而至的大型企業(yè)計(jì)算的下一個(gè)大戰(zhàn)場(chǎng)中心是高性能互連(HPI)。HPI是將系統(tǒng)連接在一起、并令節(jié)點(diǎn)之間高速通信的機(jī)制。
HPI市場(chǎng)是一個(gè)非常高端的網(wǎng)絡(luò)設(shè)備市場(chǎng),其主要特點(diǎn)是超高帶寬和低延遲。
最近對(duì)HPC和大型企業(yè)數(shù)據(jù)中心做了一次調(diào)研。我發(fā)現(xiàn),與2015年比,超過(guò)45%的受訪者計(jì)劃在2016年花更多錢(qián)在系統(tǒng)互連和I/O上。另外40%計(jì)劃花費(fèi)與2015年相同的金額。從這些結(jié)果上看,對(duì)他們來(lái)說(shuō),HPI很明顯是一個(gè)重要的話(huà)題,也應(yīng)該是這樣。
我們?cè)谶^(guò)去幾年里看到的HPC方面的重大性能改進(jìn)都直接拜HPI所賜。在過(guò)去四年里,互連速度以每年30%的速度增長(zhǎng),這種速度與穆?tīng)柖伤A(yù)測(cè)的41%年增長(zhǎng)率也是不可小視的。
HPI:業(yè)內(nèi)現(xiàn)狀
HPI目前有三種基本技術(shù):專(zhuān)有技術(shù)、InfiniBand和以太網(wǎng)。專(zhuān)有互連技術(shù)通常用于MPP系統(tǒng),整個(gè)系統(tǒng)里由一、兩個(gè)大規(guī)模應(yīng)用占用。專(zhuān)有互連令客戶(hù)可以更容易地優(yōu)化自己的網(wǎng)絡(luò)應(yīng)用程序,這種技術(shù)在節(jié)點(diǎn)是諸如傳統(tǒng)的全胖樹(shù)拓?fù)浣Y(jié)構(gòu)時(shí)要便宜得多。
想使用這些專(zhuān)有互連的話(huà),你只須從提供這種技術(shù)的供應(yīng)商購(gòu)買(mǎi)系統(tǒng),例如Cray和SGI都是是主要玩家,還有如Bull的其他商家也提供自己的HPI設(shè)備。
一般來(lái)說(shuō),其他如InfiniBand和以太網(wǎng)的互連主要用于用于集群系統(tǒng),同一系統(tǒng)里同時(shí)幾個(gè)或許多HPC工作負(fù)載運(yùn)行。
從500強(qiáng)排行榜看HPI整體市場(chǎng),以太網(wǎng)互連選擇略有優(yōu)勢(shì),地球上44%的電腦使用以太網(wǎng)。以太網(wǎng)是一個(gè)頗有吸引力的技術(shù),因?yàn)樗鼰o(wú)處不在,在有些情況下也不太昂貴。
盡管以太網(wǎng)的等效帶寬與InfiniBand一樣(100Gb/秒),但以太網(wǎng)在延遲方面的性能不給力。InfiniBand和專(zhuān)有互連的延遲在高納秒級(jí)上,以太網(wǎng)則仍處于低微秒級(jí)的延遲范圍,這對(duì)于高性能工作負(fù)載來(lái)說(shuō)是一個(gè)嚴(yán)重的缺點(diǎn)。
就性能而言,InfiniBand勝其他技術(shù)一籌,在100Gb/秒的帶寬上,其延遲小于90納秒,每秒可傳1.5億條消息。InfiniBand路線(xiàn)圖也很強(qiáng)大,200Gb/秒的InfiniBand計(jì)劃于2017年發(fā)布,幾年后速度將達(dá)400Gb/秒。
500強(qiáng)排行榜里40%的系統(tǒng)使用InfiniBand,主要集中在排行榜的前半部分。事實(shí)上,地球上最快的機(jī)器由中國(guó)國(guó)家并行計(jì)算機(jī)工程和技術(shù)研究中心(NRCPC)研制的太湖之光用的就是Mellanox InfiniBand HCA卡系統(tǒng)和交換芯片。
InfiniBand技術(shù)的主要優(yōu)點(diǎn)之一是其“離線(xiàn)負(fù)載”技術(shù)。就是說(shuō),HCA卡和交換機(jī)管理和執(zhí)行所有的網(wǎng)絡(luò)操作,包括所有協(xié)議功能、數(shù)據(jù)包的設(shè)置、發(fā)送、接收等等,因而減輕了CPU處理這些瑣事的負(fù)擔(dān)而只需運(yùn)行應(yīng)用程序。
英特爾來(lái)也
英 特爾是互連市場(chǎng)的新手,旗下?lián)碛腥窂郊軜?gòu)(OPA)互聯(lián)技術(shù)?,F(xiàn)在的OPA技術(shù)本質(zhì)上是TrueScale產(chǎn)品線(xiàn)貼了另一個(gè)標(biāo)簽。。TrueScale 是幾年前收購(gòu)的QLogic知識(shí)產(chǎn)權(quán)的一部分。未來(lái)的版本會(huì)加入收購(gòu)的Cray Aries互連知識(shí)產(chǎn)權(quán)的功能。Intel的HPI機(jī)制用的是“在線(xiàn)負(fù)載”技術(shù),主CPU負(fù)責(zé)執(zhí)行和管理所有的網(wǎng)絡(luò)處理,包括組裝數(shù)據(jù)包到交易完成的監(jiān)測(cè) 所有的一切。
這樣做可能會(huì)加重處理器的負(fù)擔(dān),特別是在應(yīng)用程序“發(fā)動(dòng)起來(lái)”階段,這時(shí)所有的節(jié)點(diǎn)都會(huì)向主節(jié)點(diǎn)報(bào)告他們的結(jié)果。消息的大小可能也是一個(gè)問(wèn)題,因?yàn)檩^長(zhǎng)的消息需要更多的時(shí)間打包和發(fā)送。很多HPC應(yīng)用程序發(fā)出的消息大小不一,這可能導(dǎo)致出現(xiàn)負(fù)載結(jié)構(gòu)不平衡。
我們現(xiàn)在對(duì)OPA的性能了解不多,因?yàn)橹挥猩贁?shù)客戶(hù)手里有這種技術(shù)。根據(jù)英特爾所說(shuō)的,他們的OPA速度為100Gb/秒,延遲接近納秒級(jí),而且可以處理每秒8900萬(wàn)條消息。
這些規(guī)格與Mellanox的InfiniBand EDR(除消息速率)非常接近,但大家都不清楚在線(xiàn)負(fù)載機(jī)制對(duì)CPU的影響有多大。處決于集群和應(yīng)用程序的大小,該影響可能非常重要,但目前無(wú)法確切地知道,因?yàn)榇讼到y(tǒng)還非常新,并沒(méi)有太多實(shí)際應(yīng)用性能數(shù)據(jù)可用。
交鋒
英特爾在與Mellanox和專(zhuān)有互連人士交鋒時(shí)必會(huì)盡全力出擊,務(wù)求在市場(chǎng)HPI部分的控制權(quán)上分個(gè)高低。英特爾的意圖是要超越自己,不能只是賣(mài)芯片甚至系統(tǒng),而是要銷(xiāo)售整個(gè)機(jī)箱,整個(gè)塞滿(mǎn)了包括CPU、主板、加速器和用HPI連在一起的英特爾設(shè)備在內(nèi)的機(jī)箱。
這樣一來(lái)英特爾即可將Mellanox一類(lèi)的公司擠出HPI市場(chǎng),而將諸如Cray、SGI、聯(lián)想和其他公司轉(zhuǎn)化成英特爾經(jīng)銷(xiāo)商,甚至在機(jī)架層次這樣做。而且,這也可以減少這些公司推出具自己特色產(chǎn)品的能力,進(jìn)而顯著地削弱他們的利潤(rùn)率。
英特爾以其市場(chǎng)影響力、金融資源和公信力可以硬推OPA。他們的銷(xiāo)售人員能接觸著名HPC和大型企業(yè)客戶(hù)。但由于他們用的是在線(xiàn)負(fù)載架構(gòu),他們的技術(shù)與市場(chǎng)需求的匹配可能不是太好。
Mellanox公司憑性能和路線(xiàn)圖在競(jìng)爭(zhēng)中占了上風(fēng),但他們要保持領(lǐng)先地位仍須加速發(fā)展。專(zhuān)有技術(shù)那幫人也必須做同樣的事,以證明他們更昂貴的系統(tǒng)是值得的。