MLPerf?AI 收官|(zhì) 戴爾科技為何可以取得在2021年度冠軍榜中名列第三的好成績(jī)?

責(zé)任編輯:cres

2021-12-10 14:31:00

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

MLPerf?AI 收官|(zhì) 戴爾科技為何可以取得在2021年度冠軍榜中名列第三的好成績(jī)?



AI基準(zhǔn)測(cè)試MLPerf™公布了最新一期榜單MLPerf™ Training v1.1,至此2021年度MLPerf™ 4次測(cè)試正式收官。
 
戴爾科技奪得11項(xiàng)固定任務(wù)賽道冠軍,在MLPerf™2021年度冠軍榜中名列第三。戴爾易安信PowerEdge XE8545及PowerEdge R750xa,亦在最新一期測(cè)試中取得優(yōu)秀成績(jī)。
 
MLPerf™ AI性能基準(zhǔn)測(cè)試
 
MLPerf由圖靈獎(jiǎng)得主大衛(wèi)•帕特森(David Patterson)于2018年聯(lián)合頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立,歷屆參賽成員包括谷歌、英偉達(dá)、英特爾、微軟、戴爾、騰訊等國(guó)際頂尖企業(yè)及研究機(jī)構(gòu),是權(quán)威性最大、影響力最廣的國(guó)際AI性能基準(zhǔn)測(cè)試,相當(dāng)于全球AI領(lǐng)域的“奧運(yùn)會(huì)”。

 
MLPerf™ AI性能基準(zhǔn)測(cè)試包含Training(訓(xùn)練)和Inference(推理)兩大領(lǐng)域,分為封閉任務(wù)賽道和開(kāi)放任務(wù)賽道。
 
它基本涵蓋了主流的機(jī)器學(xué)習(xí)服務(wù)器系統(tǒng),并且從不同維度對(duì)系統(tǒng)性能給出了評(píng)價(jià)指標(biāo),在AI應(yīng)用日益復(fù)雜多樣的今天,為廣大用戶提供了AI計(jì)算方案設(shè)計(jì)及選型的權(quán)威參考。
 
上周發(fā)布的MLPerf™ Training v1.1,涵蓋圖像分類(ResNet-50)、醫(yī)療圖像(3D U-Net)、目標(biāo)檢測(cè)(SSD)、目標(biāo)監(jiān)測(cè)(Mask R-CNN)、語(yǔ)音識(shí)別(RNN-T)、自然語(yǔ)言處理(BERT-Large)、推薦系統(tǒng)(DLRM)、強(qiáng)化學(xué)習(xí)(Mini Go),共計(jì)8個(gè)子目。

 
01
 
單機(jī)系統(tǒng)測(cè)試
 
在MLPerf™ Training v1.1基準(zhǔn)測(cè)試中,戴爾易安信共提交了51項(xiàng)測(cè)試結(jié)果,包括全部8個(gè)項(xiàng)目的性能數(shù)據(jù)。
 
GPU服務(wù)器硬件平臺(tái)涵蓋PowerEdge XE8545、R750xa和DSS8440三款GPU服務(wù)器,GPU選型包括A100 80GB/40GB、NVLink與PCI-E接口以及NVBridge互聯(lián)的GPU加速卡等不同硬件組合。
 
通過(guò)不同服務(wù)器加GPU組合的結(jié)果數(shù)據(jù)對(duì)比,用戶可以方便地進(jìn)行比較,并獲得不同的AI加速服務(wù)器選型基準(zhǔn)性能數(shù)據(jù)參考。
 
其中,PowerEdge XE8545 + 4卡A100 80GB SXM4的產(chǎn)品組合,參加了8個(gè)項(xiàng)目的性能測(cè)試,表現(xiàn)相當(dāng)亮眼:
 
●在所有參與MLPerf™ Training v1.1的四卡GPU加速服務(wù)器中,PowerEdge XE8545取得了目標(biāo)檢測(cè)(SSD)、目標(biāo)檢測(cè)(Mask R-CNN)、語(yǔ)音識(shí)別(RNN-T)、自然語(yǔ)言處理(BERT)、強(qiáng)化學(xué)習(xí)(Mini Go)五個(gè)項(xiàng)目的最佳成績(jī)。
 
●在自然語(yǔ)言處理BERT-Large測(cè)試中,PowerEdge XE8545計(jì)算性能相較上一次MLPerf™ Training v1.0,訓(xùn)練時(shí)間縮短了18%。

 
戴爾易安信的測(cè)試數(shù)據(jù)、配置及Log,均可以在GitHub上找到:
 
https://sourl.cn/3FXXed

 
02
 
集群系統(tǒng)測(cè)試
 
除了GPU服務(wù)器單機(jī)測(cè)試外,戴爾易安信也是少有的提供基于GPU多機(jī)分布式訓(xùn)練測(cè)試結(jié)果的三家廠商之一。
 
集群系統(tǒng)測(cè)試出戰(zhàn)的是PowerEdge R750xa,單臺(tái)配置4塊NVIDIA A100 80GB GPU,分別遵循以下模式進(jìn)行MLPerf™ ResNet-50基準(zhǔn)測(cè)試。
 
?單機(jī)(4卡)
 
?2臺(tái)服務(wù)器(8卡)
 
?4臺(tái)服務(wù)器(16卡)
 
?8臺(tái)服務(wù)器(32卡)
 
測(cè)試結(jié)果如下:
 
▍兩臺(tái)R750xa訓(xùn)練性能可以達(dá)到單臺(tái)R750xa的1.96倍,幾乎是線性加速;
 
▍四臺(tái)R750xa 16卡A100分布式訓(xùn)練,計(jì)算性能相當(dāng)于單臺(tái)的3.63倍,仍然保持良好的GPU加速效果;
 
▍使用16張A100 80GB的R750xa加速集群,17.336分鐘即可完成ResNet-50模型訓(xùn)練;
 
▍使用32張A100 80GB的R750xa加速集群,10.586分鐘就可以完成ResNet-50訓(xùn)練。
 
針對(duì)超大型模型,多機(jī)分布式訓(xùn)練勢(shì)在必行。
 
今年早先時(shí)候,戴爾易安信在國(guó)內(nèi)發(fā)布了《戴爾科技AI GPU分布式訓(xùn)練技術(shù)白皮書(shū)》,將戴爾易安信在構(gòu)建AI GPU加速集群,進(jìn)行AI GPU分布式訓(xùn)練全局優(yōu)化的參考架構(gòu)和最佳實(shí)踐分享給更多的用戶和朋友。

 
戴爾易安信AI加速服務(wù)器
 
臺(tái)上一分鐘,臺(tái)下十年功,戴爾易安信GPU服務(wù)器在MLPerf™ Training v1.1基準(zhǔn)測(cè)試中的不俗表現(xiàn)來(lái)源于其先進(jìn)的技術(shù)配置。
 
l PowerEdge XE8545
 
4U機(jī)架式空間內(nèi)可以支持4張NVIDIA A100 80GB/40GB GPU加速卡,通過(guò)最新的NVLink加速技術(shù)實(shí)現(xiàn)Pear to Pear全互聯(lián)。
 
PowerEdge XE8545服務(wù)器設(shè)計(jì)簡(jiǎn)單直接,CPU與GPU、GPU與GPU、CPU與網(wǎng)卡及NVME SSD存儲(chǔ),采用PCI-E 4.0或者NVLink實(shí)現(xiàn)直連,可最大程度降低通信及IO延遲。
 
使用XE8545單機(jī)4卡訓(xùn)練ResNet-50圖像分類模型,計(jì)算性能為上一代4卡V100 NVLink GPU服務(wù)器的2.3倍。
 
l PowerEdge R750xa
 
PowerEdge R750xa是首次參加MLPerf™ Training基準(zhǔn)測(cè)試,同樣取得了在四GPU加速服務(wù)器單機(jī)及集群測(cè)試領(lǐng)先的優(yōu)異成績(jī)。PowerEdge R750xa在2U空間支持4張雙寬GPU的加速服務(wù)器,可耐受高達(dá)35度環(huán)境溫度使用空氣進(jìn)行冷卻。
 
它支持更豐富的GPU選型,包括A100/A40/A30/A10/A16/T4/A2等。PowerEdge R750xa還支持NVLink Bridge加速通信技術(shù),針對(duì)A100、A40、A30 GPU,通過(guò)NVLink通道可以實(shí)現(xiàn)兩個(gè)GPU之間的高速互聯(lián)通訊。
 
R750xa可安裝多達(dá)8個(gè)SAS/SATA固態(tài)硬盤或NVME SSD硬盤,提供NVME硬件RAID卡保護(hù)機(jī)制;與系統(tǒng)軟RAID機(jī)制相比,硬件RAID卡在性能和可靠性上更有保證,可確保GPU服務(wù)器本地NVME SSD存儲(chǔ)以最高性能穩(wěn)定工作。
 
l PowerEdge DSS8440
 
高密度GPU服務(wù)器,在4U機(jī)架式空間內(nèi)最高可以支持10塊如NVIDIA A100雙寬GPU加速卡,或者16塊單寬GPU。
 
同8卡GPU加速服務(wù)器相比,單機(jī)GPU計(jì)算密度提高25%,DSS8440同時(shí)提供對(duì)Graphcore IPU AI專用加速芯片的支持。

 
AI時(shí)代,應(yīng)對(duì)指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù),僅由CPU提供算力的傳統(tǒng)服務(wù)器顯得捉襟見(jiàn)肘,而擅長(zhǎng)處理圖形渲染、計(jì)算視覺(jué)、機(jī)器等密集型運(yùn)算應(yīng)用的GPU服務(wù)器,經(jīng)驗(yàn)證足以扛起AI發(fā)展大旗。戴爾易安信AI加速服務(wù)器,支持苛刻的AI工作負(fù)載,助您輕松高效應(yīng)對(duì)AI大潮。
 
END
AI

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)