11月12日-17日,全球超算大會SC17將在美國丹佛舉行,本屆大會的熱點(diǎn)議題可能會涵蓋E級計(jì)算、人工智能、HPC云等。
在ISC17上我們可能會看到,HPC在金融、物流、大型科學(xué)、石油和天然氣等領(lǐng)域的應(yīng)用繼續(xù)擴(kuò)展到傳統(tǒng)的企業(yè)計(jì)算方面,這些領(lǐng)域通常與大數(shù)據(jù)開發(fā)聯(lián)系在一起。很明顯,所有這些部分都在使用(或者計(jì)劃使用)機(jī)器學(xué)習(xí)和人工智能,產(chǎn)生類似于HPC的體系結(jié)構(gòu)。
由于CPU、GPU和新興的神經(jīng)芯片需要滿足HPC的集群加速計(jì)算需求,這些系統(tǒng)的物理實(shí)現(xiàn)需要更專注于熱捕捉和抑制。由此產(chǎn)生的熱量和對節(jié)點(diǎn)、機(jī)架和集群熱密度的影響,與英特爾的Knights Landing 、Knights Mill、Nividia的 P100 以及英特爾的 Skylake 處理器有關(guān)
瓦特?cái)?shù)現(xiàn)在已經(jīng)足夠高,在包含這些HPC的冷卻節(jié)點(diǎn)上,除了液體冷卻之外,沒有其他選擇,以保持合理的機(jī)架密度。如果不能在節(jié)點(diǎn)級使用液體冷卻,則需要進(jìn)行地板空間的構(gòu)建或數(shù)據(jù)中心擴(kuò)展。更重要的是,減少節(jié)點(diǎn)和機(jī)架密度可以驅(qū)動所有類型的集群節(jié)點(diǎn)之間的互連距離的增加。
▲Asetek RackCDU D2C冷卻
事態(tài)的發(fā)展直接導(dǎo)致了瓦特?cái)?shù)出現(xiàn)拐點(diǎn),而不是簡單地延伸之前的趨勢。根據(jù)所采取的方法,機(jī)器學(xué)習(xí)和人工智能加劇了這一趨勢。在人工智能應(yīng)用程序的培訓(xùn)或?qū)W習(xí)階段(特別是在深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)方法中使用),在GPU中體現(xiàn)出的熱功率問題是眾所周知的。那么在某些情況下,如果將GPU應(yīng)用于此,這些問題也會繼續(xù)出現(xiàn)。
即使在訓(xùn)練階段采用像Knight’s Mill這樣的quasi-GPU,這種問題仍然會出現(xiàn)。
由于分布式冷卻能夠在各種各樣的場景中解決站點(diǎn)的需求,因此可以認(rèn)為,計(jì)算熱功率的拐點(diǎn)是HPC的站點(diǎn)和為服務(wù)于他們的原始設(shè)備制造商(OEM)在全球加速中采用Asetek液體冷卻的主要驅(qū)動要素。正如即將在sc17中呈現(xiàn)的那樣,OEM在液冷方面相當(dāng)一部分會是針對機(jī)器學(xué)習(xí)。
考慮到集群的多樣性(特別是人工智能的加入),冷卻方法的適應(yīng)性變得相當(dāng)重要。Asetek分布式結(jié)構(gòu)基于低壓、每個服務(wù)器節(jié)點(diǎn)的冗余泵和閉環(huán)冷卻液。這使得在熱捕捉和熱排斥方面具有很高的靈活性。
Asetek serverls是一個服務(wù)器級液體輔助空氣冷卻(LAAC)的解決方案。它可以作為液體冷卻的過渡階段,也可以作為一種工具,使高性能計(jì)算節(jié)點(diǎn)立即并入數(shù)據(jù)中心。它允許站點(diǎn)利用現(xiàn)有的HVAC、CRAC和CRAH單元,但不改變數(shù)據(jù)中心的冷卻。
ServerLSL取代了在服務(wù)器中使用冗余冷卻器(冷盤/泵)的效率較低的空氣冷卻器,并通過每臺服務(wù)器上的熱交換器(HEXs)將100%的熱空氣排放到數(shù)據(jù)中心。這使得高功率的服務(wù)器節(jié)點(diǎn)具有1U的外形尺寸,并保持較高的集群機(jī)架密度。在站點(diǎn)級別,熱量由現(xiàn)有的CRAC和chiller在不改變基礎(chǔ)設(shè)施的情況下進(jìn)行處理。使用ServerLSL,可以將液體冷卻的節(jié)點(diǎn)與傳統(tǒng)的風(fēng)冷節(jié)點(diǎn)混合在一起。
▲ Asetek serverlsl冷卻
雖然ServerLSL在每個服務(wù)器中隔離了系統(tǒng),但Asetek RackCDU系統(tǒng)的重點(diǎn)是racklevel,這對數(shù)據(jù)中心整體的冷卻成本產(chǎn)生了更大的影響。RackCDU系統(tǒng)利用了與ServerLSL節(jié)點(diǎn)相同的泵和冷卻器。RackCDU目前使用的是使用Asetek液體冷卻的TOP500中的所有站點(diǎn)。
Asetek RackCDU在節(jié)點(diǎn)級和整個設(shè)備上都提供了方案。與ServerLSL一樣,RackCDU D2C(direct -to- chip)利用了服務(wù)器CPU和GPU上的冗余泵/冷板(以及其他類似于內(nèi)存的高功率組件)。但收集到的熱量則通過密封的液體路徑將其移動到RackCDU的熱交換器中,以便將其輸送到設(shè)施水中。RackCDU D2C捕獲了60%到80%的熱量,降低了50%的數(shù)據(jù)中心冷卻成本,并允許數(shù)據(jù)中心服務(wù)器密度增加2.5-5倍。
在這種混合液體/空氣冷卻的方法中,現(xiàn)有的HVAC系統(tǒng)消除了數(shù)據(jù)中心空氣中的余熱。當(dāng)有閑置的冷卻能力可用時(shí),數(shù)據(jù)中心可以選擇來自RackCDU和現(xiàn)有的CRAC和冷卻塔的冷卻設(shè)施水。
在服務(wù)器、機(jī)架、集群以及由Asetek分布式提供的站點(diǎn)級別上,Asetek在處理冷卻方面具有很高的靈活性,但缺乏集中泵送的方法。
在SC17大會上,Asetek還將展示一種新的冷卻技術(shù),在該技術(shù)中,服務(wù)器共享一個安裝了HEX的機(jī)架。
這一次的國際超算大會,備受矚目,人工智能與機(jī)器學(xué)習(xí)也必將是不可或缺的大熱,值得期待。