今天展示的可能是大家最為推崇的一種對(duì)深度學(xué)習(xí)的構(gòu)建。DeepLearning11搭載10個(gè)NVIDIA GeForce GTX 1080 Ti 11GB GPU,是Mellanox的 Infiniband系列,外形尺寸是4.5U。該系統(tǒng)與DeepLearning10之間有重要的區(qū)別,主要是添加了8個(gè)GTX 1080 Ti顯卡。 DeepLearning11 采用single-root的設(shè)計(jì) ,這種設(shè)計(jì)已經(jīng)在深度學(xué)習(xí)領(lǐng)域中流行起來(lái)了。
之前已經(jīng)有了許多深度學(xué)習(xí)的構(gòu)建,很多機(jī)器已經(jīng)投入使用。其中有一些較小的版本,包括之前發(fā)布的DeepLearning01和DeepLearning02。它們僅僅是個(gè)開(kāi)端,但DeepLearning11完全不同?,F(xiàn)在這個(gè)架構(gòu)已經(jīng)被世界前十的超大規(guī)模深度學(xué)習(xí)企業(yè)所使用。
DeepLearning11:組件
如果我們要求使用NVIDIA可能會(huì)被告知需要購(gòu)買特斯拉(Tesla)或Quadro卡。但NVIDIA特別要求服務(wù)器原始設(shè)備制造商(OEM)不要在服務(wù)器中使用他們的GTX卡。當(dāng)然,這僅僅意味著經(jīng)銷商在交付客戶之前安裝這些卡。
該系統(tǒng)采用的是超微的 SYS-4028GR-TR2,它是市場(chǎng)上主流的高GPU密度系統(tǒng)之一。TR2非常重要,因?yàn)樗菣C(jī)箱的single root 版本,不同于DeepLearning10的-TR dual root 系統(tǒng)。
▲DeepLearning11 GTX 1080 Ti Same CPU
與DeepLearning10的構(gòu)建相似,DeepLearning11具有“隆起”,使系統(tǒng)總體積達(dá)到4.5U。你可以從服務(wù)器“Humping”趨勢(shì)在數(shù)據(jù)中心的部分了解到更多。它使我們能夠在自己的系統(tǒng)中也使用NVIDIA GeForce GTX卡。
▲超微4028GR-TR/ -TR2
我們正在使用Mellanox ConnectX-3 Pro VPI適配器,它既支持40GbE(主實(shí)驗(yàn)室網(wǎng)絡(luò))也支持56Gbps的 Infiniband(深度學(xué)習(xí)網(wǎng)絡(luò))。盡管已經(jīng)在使用它,但是使用FDR Infiniband與RDMA在目前來(lái)說(shuō)還是十分受歡迎的。1GbE或是10GbE的網(wǎng)絡(luò)根本不能足夠快地供給這些機(jī)器。于是我們?cè)谠趯?shí)驗(yàn)室中安裝了一個(gè)Intel Omni-Path交換機(jī),這將是該實(shí)驗(yàn)室的首個(gè)100Gbps結(jié)構(gòu)。
▲Mellanox ConnectX-3 Pro
在CPU和RAM方面,我們使用了2個(gè)Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是這些系統(tǒng)的常見(jiàn)芯片,它們是最低端的主流處理器,支持9.6GT / s QPI的速度。而我們正在使用的是英特爾至強(qiáng)E5-2628L V4 CPU,因?yàn)閱胃O(shè)計(jì)會(huì)賦予另一個(gè)重要的優(yōu)勢(shì),將不再只是GPU間的QPI流量。雖然有可能可以使用單個(gè)GPU來(lái)為系統(tǒng)供電,但是我們?nèi)匀皇褂脙煞N更高的RAM容量——16GB的RDIMM因?yàn)楸容^便宜。這些系統(tǒng)可以承受高達(dá)24個(gè)DDR4的LRDIMM從而獲得大量的內(nèi)存容量。
對(duì)于那些使用NVIDIA nccl庫(kù)的深度學(xué)習(xí)者來(lái)說(shuō),常見(jiàn)的PCIe是非常重要的。這也是許多深入學(xué)習(xí)的構(gòu)建不會(huì)轉(zhuǎn)換到更高的PCIe數(shù)量的原因,它通常是更高的延遲或是更受限制的設(shè)計(jì),如AMD EPYC與Infinity Fabric。
系統(tǒng)成本
在成本明細(xì)方面,如果使用英特爾E5-2650 V4芯片,這可能是什么樣子:
與AWS g2.16大型實(shí)例類型相比,總價(jià)約16,500美元的投資回收期在90天以內(nèi)。以下是相關(guān)的托管費(fèi)用。
將DeepLearning11 的10個(gè)GPU示例與DeepRearning10的8個(gè)GPU進(jìn)行比較,你可以看到,在整體系統(tǒng)成本方面,大約25%的性能損失較小:
正如人們所想象的那樣,添加更多的gpu意味著系統(tǒng)其余部分的開(kāi)銷將有可能超過(guò)這些gpu。因此,如果你的應(yīng)用程序可擴(kuò)展性比較好,每個(gè)系統(tǒng)可能得到10個(gè)gpu。
DeepLearning11:環(huán)境因素
我們的系統(tǒng)有四個(gè)psu,這對(duì)于10個(gè) GPU的配置是必要的。為了測(cè)試這個(gè),我們讓系統(tǒng)運(yùn)行一個(gè)巨大的模型幾天,看看有多少功耗被使用。以下是是10個(gè)GPU服務(wù)器的能耗,看起來(lái)就像是PDU運(yùn)行Tensorflow GAN的工作負(fù)載的情況:
從上圖可以看到,大約2600W確實(shí)是不錯(cuò)。根據(jù)模型在訓(xùn)練中的位置,這臺(tái)機(jī)器在3.0 - 3.2kw范圍內(nèi),持續(xù)功率消耗更高,卻沒(méi)有觸及到gpu的功率限制。
這個(gè)峰值在深度學(xué)習(xí)領(lǐng)域上,幾個(gè)星期內(nèi)使用不同的問(wèn)題和框架,它的高峰值仍不足4kW。使用4kW作為基礎(chǔ),就可以很容易地計(jì)算出這種機(jī)器的托管成本。
正如你所看到的,12個(gè)月以來(lái),托管成本方面開(kāi)始縮小硬件成本。但其實(shí),使用的是實(shí)際的數(shù)據(jù)中心實(shí)驗(yàn)室的托管費(fèi)用。將上述與DeepLearning10的8個(gè)gpu進(jìn)行比較,你可以看到添加500W額外計(jì)算的影響:
添加額外的gpu與系統(tǒng)成本相比,會(huì)增加運(yùn)營(yíng)成本,這是與DeepLearning10相比的狀況。隨后幾年,托管成本將會(huì)遠(yuǎn)遠(yuǎn)超過(guò)硬件成本。
DeepLearning11:性能影響
本文最重要的是想要展示從這個(gè)新系統(tǒng)中獲得了多少性能。1600美元的系統(tǒng)和1.6萬(wàn)美元的系統(tǒng)之間存在很大的差異,因此我們預(yù)計(jì)其影響也會(huì)類似。采集了我們的樣本Tensorflow,生成Adversarial Network(GAN)圖像訓(xùn)練測(cè)試用例,并在單卡上運(yùn)行,然后進(jìn)入10個(gè)GPU系統(tǒng),用每天的訓(xùn)練周期來(lái)表達(dá)結(jié)果。這是一個(gè)很好的說(shuō)明如何在系統(tǒng)的購(gòu)買價(jià)格中增加1400美元或更多的例子。
寫在最后
正如人們所想象的那樣,DeepLearning10和DeepLearning11消耗了大量的功耗。僅僅這兩個(gè)服務(wù)器的平均功率就超過(guò)5kW,峰值更高。這對(duì)主機(jī)有很大的影響,因?yàn)樵谠S多機(jī)架中增加0.5RU并不重要。大多數(shù)的機(jī)架其實(shí)不能提供25kW +的電源力和冷卻能力以滿足GPU服務(wù)器的需求。
最終,我們希望在實(shí)驗(yàn)室中擁有一個(gè)重要的Single Root系統(tǒng),而DeepLearning11及其10個(gè)NVIDIA GTX 1080 Ti 11GB GPU則具備這一點(diǎn)。由于我們提倡首先擴(kuò)大GPU的大小,從每臺(tái)機(jī)器的GPU數(shù)量到多臺(tái)機(jī)器,DeepLearning11既是一個(gè)偉大的頂級(jí)單機(jī),同時(shí)也是基于設(shè)計(jì)可以擴(kuò)展到多臺(tái)機(jī)器的平臺(tái)。