深度學(xué)習(xí)推動數(shù)據(jù)中心功率密度

責(zé)任編輯:editor004

作者:litao984lt編譯

2017-07-14 10:34:10

摘自:機(jī)房360

其他類型的工作負(fù)載是推理,這是一款神經(jīng)網(wǎng)絡(luò)將其知識應(yīng)用于新數(shù)據(jù)的領(lǐng)域(例如,識別之前未見過的圖像中的狗)。ScaleMatrix公司在圣地亞哥的另一家主要的客戶是Cirrascale公司

世界上可能沒有人能夠比Rob Ober更了解人工智能計算機(jī)的了。作為Nvidia公司加速計算集團(tuán)的頂尖技術(shù)執(zhí)行官,他是特斯拉(Tesla)的首席平臺架構(gòu)師,特斯拉是機(jī)器學(xué)習(xí)市場上功能最強(qiáng)大的GPU,也是當(dāng)今應(yīng)用最為廣泛的AI類型。

上圖:2017年2月,在倫敦科學(xué)博物館舉辦的科學(xué)博物館機(jī)器人展覽會的預(yù)覽上展示的世界首款安卓機(jī)器人新聞播報員Komoroid。

今天,GPU(或稱圖形處理單元)的應(yīng)用程序已然遠(yuǎn)遠(yuǎn)超過了其本身。超級計算機(jī)設(shè)計人員們發(fā)現(xiàn)它們非常適合于從他們所建立的系統(tǒng)中的CPU卸載大量的工作負(fù)載;其也被證明是一種被稱為深度學(xué)習(xí)(Deep Learning)的機(jī)器學(xué)習(xí)方法的超高效處理器。這正是Google公司用來提供有針對性的廣告的AI類型,而亞馬遜的Alexa則可以用于即時回答語音查詢。

創(chuàng)建相應(yīng)的算法,使得計算機(jī)能夠通過觀察和迭代來進(jìn)行學(xué)習(xí)無疑是相當(dāng)復(fù)雜的;同樣令人難以置信的是:設(shè)計計算機(jī)系統(tǒng)來執(zhí)行這些指令,并借助數(shù)據(jù)中心的基礎(chǔ)設(shè)施來為這些系統(tǒng)供電和冷卻。 Ober在Nvidia公司的超大規(guī)??蛻魯?shù)據(jù)中心系統(tǒng)中深入了解了這一深度學(xué)習(xí)。

他在接受Data Center Knowledge網(wǎng)站的記者采訪時表示說:“我們一直在大型數(shù)據(jù)中心處理大量超大規(guī)模(真正的超大規(guī)模)。 而建立一款用于深入學(xué)習(xí)培訓(xùn)的GPU系統(tǒng)是一個非常浩大困難的工程問題。這真的非常非常難。即使像Facebook和微軟這樣的互聯(lián)網(wǎng)巨頭企業(yè)們也在努力。”

上圖:Facebook最新的AI服務(wù)器Big Basin。八個散熱器中的每一個都隱藏著GPU。 (照片來源:Facebook)

訓(xùn)練一款A(yù)I需要花費(fèi)大量功率能耗

培訓(xùn)是深度學(xué)習(xí)中所涉及到的一種計算工作負(fù)載(或者說是一類工作負(fù)載,因?yàn)樵擃I(lǐng)域正在發(fā)展,并且有幾種不同的培訓(xùn)方法)。其目的是教授一款深層神經(jīng)網(wǎng)絡(luò)——一個計算節(jié)點(diǎn)網(wǎng)絡(luò),旨在模擬人腦中的神經(jīng)元相互作用的方式——從現(xiàn)有數(shù)據(jù)中提取新功能。例如,一款神經(jīng)網(wǎng)絡(luò)可以通過重復(fù)地“查看”多張其中含有狗的各種圖像來學(xué)習(xí)識別照片中的狗,圖像中的狗將被標(biāo)記為狗。

其他類型的工作負(fù)載是推理,這是一款神經(jīng)網(wǎng)絡(luò)將其知識應(yīng)用于新數(shù)據(jù)的領(lǐng)域(例如,識別之前未見過的圖像中的狗)。

Nvidia公司為上述兩個類別的工作負(fù)載制作GPU。但是,在數(shù)據(jù)中心實(shí)施培訓(xùn)可以說是特別困難的部分,因?yàn)橛糜谂嘤?xùn)的硬件需要非常密集的GPU群集,或者每臺服務(wù)器具備多達(dá)可支持8個GPU的互連服務(wù)器。而這樣的一款機(jī)柜可以很容易地消耗掉30kW以上的功率密度,超級計算機(jī)領(lǐng)域之外的大多數(shù)數(shù)據(jù)中心都不是為這一大功率密度提供支持而設(shè)計的。即使這樣,在這個范圍的低端,大約20款這樣的機(jī)柜需要消耗與AT&T體育球場達(dá)拉斯牛仔隊的超大屏幕一樣多的功率,后者是世界上最大的1080p視頻顯示器,其中包含3000萬個燈泡。

“我們的確是給很多數(shù)據(jù)中心的基礎(chǔ)設(shè)施帶來了真正的壓力,”Ober在談到Nvidia公司的GPU時表示說。 “通過深度學(xué)習(xí)培訓(xùn),企業(yè)通常希望盡可能的能夠使得計算池盡可能密集,這樣就會消耗掉相當(dāng)驚人的功率密度,這無疑是一大真正的挑戰(zhàn)。”另一個問題是如何控制這些集群中的電壓。 GPU計算本質(zhì)上是在瞬變中產(chǎn)生大量的電力(電壓突然上升),而且這些都是難以應(yīng)付處理的。”

互連節(jié)點(diǎn)是另一大挑戰(zhàn)難題。 Ober說:“根據(jù)您的培訓(xùn)數(shù)據(jù)來源的不同,數(shù)據(jù)中心網(wǎng)絡(luò)的負(fù)擔(dān)可能是令人難以置信的。” “你企業(yè)可以創(chuàng)造一個真正火的熱點(diǎn)。”在他看來,電力密度和網(wǎng)絡(luò)可能是數(shù)據(jù)中心系統(tǒng)深度學(xué)習(xí)的兩大設(shè)計挑戰(zhàn)。

  上圖: Tesla P100 是Nvidia公司功能最為強(qiáng)大的GPU(照片來源:Nvidia公司)

人工智能的冷卻

Ober說,像Facebook和微軟這樣的超大規(guī)模的數(shù)據(jù)中心運(yùn)營商們主要是通過將他們的深度學(xué)習(xí)集群傳播到許多機(jī)架上來解決功率密度的挑戰(zhàn),盡管會在液體冷卻或液體輔助冷卻方面面臨一定的“困惑”。液體冷卻是將冷凍水直接輸送到主板上的芯片(冷卻超級計算機(jī)的通用方法),而液體輔助冷卻則是將冷凍水帶到連接到IT機(jī)柜的熱交換器上,通過冷卻空氣來為服務(wù)器提供冷卻。

并不是每家需要支持高密度深度學(xué)習(xí)硬件的企業(yè)都擁有令人羨慕的數(shù)十萬平方英尺的數(shù)據(jù)中心空間,對于那些沒有如此規(guī)模的數(shù)據(jù)中心供應(yīng)商,例如選擇專注于高密度的數(shù)據(jù)中心來說,已經(jīng)選擇了采用液體輔助冷卻的路線。最近,市場對于這些供應(yīng)商的服務(wù)需求已經(jīng)出現(xiàn)了飆升,而這在很大程度上是受益于市場對于機(jī)器學(xué)習(xí)日益增長的興趣。

包括初創(chuàng)公司和大型公司正在積極的尋求各種方式來利用廣泛預(yù)測的技術(shù)來推動下一輪的技術(shù)創(chuàng)新浪潮,但其中的大多數(shù)公司并沒有必要的基礎(chǔ)設(shè)施支持這項(xiàng)開發(fā)工作。高密度數(shù)據(jù)中心供應(yīng)商ScaleMatrix公司的聯(lián)合創(chuàng)始人克里斯·奧蘭多(Chris Orlando)在接受采訪時表示說:“現(xiàn)在, GPU支持的工作負(fù)載是我們所看到增長最大的工作負(fù)載,而這些工作負(fù)載絕對是來自企業(yè)部門。企業(yè)級別的數(shù)據(jù)中心并沒有這樣的裝備。”

曲棍球棒狀的增長

這方面需求增長的飆升是最近才剛剛開始的。奧蘭多說,他的公司在去年年中的某個時候發(fā)現(xiàn)了一個曲棍球棒狀的增長軌跡。而推動這一需求增長的其他應(yīng)用程序則一直是生命科學(xué)和基因組學(xué)的計算(ScaleMatrix在圣地亞哥以外的旗艦數(shù)據(jù)中心的最大客戶之一,這種類型的研究的樞紐是基因組學(xué)研究的J.克雷格文特研究所),地理研究和大數(shù)據(jù)分析。在其位于休斯頓的第二處數(shù)據(jù)中心,大部分需求則來自石油和天然氣行業(yè),其勘探工作需要一些高辛烷值的計算能力。

ScaleMatrix公司在圣地亞哥的另一家主要的客戶是Cirrascale公司,這是一家專門從事深度學(xué)習(xí)基礎(chǔ)設(shè)施的硬件制造商和云服務(wù)提供商。

  上圖:ScaleMatrix圣地亞哥數(shù)據(jù)中心內(nèi)部一覽(照片來源:ScaleMatrix公司)

ScaleMatrix圣地亞哥數(shù)據(jù)中心的每臺機(jī)柜均可以通過利用中央設(shè)備的冷卻水來冷卻完全封閉的機(jī)柜周圍的空氣,以支持高達(dá)52kW的機(jī)柜的冷卻需求。定制化設(shè)計的系統(tǒng)的冷卻水循環(huán)位于機(jī)柜的頂部,其中來自服務(wù)器的熱排出的空氣升高并被冷卻,進(jìn)而推回到主板上。而伴隨著企業(yè)對高密度計算的需求的不斷增長,該公司最近已經(jīng)開始在向那些有興趣在內(nèi)部部署這項(xiàng)技術(shù)的企業(yè)銷售該技術(shù)了。

一家位于硅谷的數(shù)據(jù)中心供應(yīng)商Colovore公司也在專注于高密度的托管服務(wù)。該公司正在使用更典型的后門熱交換器,在當(dāng)前第一階段為每臺機(jī)架提供高達(dá)20kW的功率密度,在即將到來的第二階段將提供35kW的功率密度。至少已經(jīng)有一家客戶對其超過35kW功率密度的機(jī)架表示了興趣,因此該公司正在探索將冷凍水直接送入類似超級計算機(jī)系統(tǒng)的主板的可能性。

今天,Colovore的數(shù)據(jù)中心容量處理能力的“很大一部分比例”是用于支持GPU集群進(jìn)行的機(jī)器學(xué)習(xí),該公司的聯(lián)合創(chuàng)始人兼總裁肖恩·霍茨克內(nèi)西(Sean Holzknecht)在接受采訪時表示。與ScaleMatrix公司一樣,Colovore目前正處在其發(fā)展道路的一個很好的位置。硅谷是在機(jī)器學(xué)習(xí)、自動無人駕駛汽車、生物信息學(xué)等領(lǐng)域推動信息化的公司發(fā)展的最佳平臺,而且精品供應(yīng)商的高密度數(shù)據(jù)中心空間也不乏需求。

上圖:Colovore公司數(shù)據(jù)中心地板下方一覽,該圖顯示了支持水冷卻門的基礎(chǔ)設(shè)施。 (照片來源:Colovore公司)

對AI硬件的需求激增

而市場對于由Colovore公司和ScaleMatrix公司所提供的基礎(chǔ)設(shè)施的需求可能會持續(xù)性的增長。機(jī)器學(xué)習(xí)目前還僅僅處在早期階段,而大型云平臺企業(yè)(包括諸如Google,F(xiàn)acebook,微軟和阿里巴巴等等幾家公司)正在使用該技術(shù)進(jìn)行生產(chǎn)。當(dāng)前,該領(lǐng)域的許多活動包括開發(fā),但這項(xiàng)工作仍然需要消耗大量的GPU功率。

Nvidia公司表示,目前市場對于AI硬件的需求正在激增,其中絕大部分都是由像亞馬遜網(wǎng)絡(luò)服務(wù)(Amazon Web Services),谷歌云平臺(Google Cloud Platform)和微軟Azure這樣的企業(yè)級云巨頭所推動的,這些企業(yè)同時也提供機(jī)器學(xué)習(xí),從而增強(qiáng)了云服務(wù)和原始的GPU功耗。市場對于最強(qiáng)大的云GPU實(shí)例的可用性極為渴求。Nvidia公司的Ober表示說:“目前,擁有GPU實(shí)例的云服務(wù)供應(yīng)商們正在獲得令人難以置信的消費(fèi)和關(guān)注度。” “這真的表明了當(dāng)前的企業(yè)客戶正在轉(zhuǎn)移到采用他們所能夠獲得的最大的實(shí)例。”

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號