由于FPGA與GPU相比,F(xiàn)PGA使用門檻較高,因而GPU應(yīng)用更為廣泛。目前,GPU云主機(jī)主要用于機(jī)器(深度)學(xué)習(xí)、圖形處理、科學(xué)計(jì)算、視頻編解碼等場景,為了順應(yīng)市場發(fā)展需求,由中國信息通信研究院主導(dǎo)的可信云評估體系新增了對GPU主機(jī)的評估標(biāo)準(zhǔn),相對于云主機(jī),GPU云主機(jī)在服務(wù)形態(tài)仍有所差異,性能無疑是用戶重點(diǎn)關(guān)注的指標(biāo)之一。
首批評估對象囊括了國內(nèi)公有云廠商的第一梯隊(duì), 阿里云、騰訊云、華為云、百度云、天翼云、UCloud六大廠商齊聚首,堪稱行業(yè)水平實(shí)力擔(dān)當(dāng)。為了更好的讓用戶認(rèn)識和了解GPU云主機(jī),本次評估重點(diǎn)考察了大家關(guān)注的指標(biāo)和GPU云主機(jī)特有的指標(biāo),如服務(wù)功能、資源調(diào)配能力和性能。 GPU云主機(jī)目前應(yīng)用于機(jī)器(深度)學(xué)習(xí)占據(jù)了較大比例,今天主要討論基于深度學(xué)習(xí)的性能評估測試。
資源選型
目前主流的GPU型號主要是Nvidia的Tesla K、M和P系列,本次評估的資源選型基于P系列兩個(gè)型號進(jìn)行,6家廠商分為P40和P100兩組,在資源規(guī)格上,阿里云和騰訊云可同時(shí)提供A卡和N卡。GPU性能指標(biāo)官方數(shù)據(jù)主要體現(xiàn)在單精度和雙精度,對用戶不具有實(shí)際的參考意義, 模擬用戶進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,直觀反映GPU主機(jī)性能,更加貼近用戶需求。
深度學(xué)習(xí)模型
深度學(xué)習(xí)的訓(xùn)練主要依靠模型和數(shù)據(jù)集,國際上比較具有代性的訓(xùn)練模型主要有:AlexNet模型、Cifar10模型、MNist模型、ResNet模型,此次評估選擇其中三個(gè)機(jī)器學(xué)習(xí)模型,數(shù)據(jù)集上的選擇,ImageNet數(shù)據(jù)量相對權(quán)威,但是有數(shù)據(jù)量過大,國內(nèi)鏡像較少,不適合用于短期的測試驗(yàn)證。本地評估測試主要基于機(jī)器學(xué)習(xí)模型默認(rèn)數(shù)據(jù)集或數(shù)據(jù)精簡集。以下是常見的深度學(xué)習(xí)模型:
01 AlexNet模型:
是Alex和Hinton參加ILSVRC2012比賽的卷積網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)是開啟更深CNN的開山之作,其對CNN的一些改進(jìn)成為以后CNN網(wǎng)絡(luò)通用的結(jié)構(gòu)。
02 Cifar10模型:
是典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含相應(yīng)的卷積層,池化層,修正線性單元以及最頂層帶有分類器的歸一化采樣層。數(shù)據(jù)集為一個(gè)使用非常廣泛的物體識別圖像數(shù)據(jù)集,CIFAR-10數(shù)據(jù)中包含了60000張32×32的彩色圖像,其中訓(xùn)練集50000張,測試集10000張。
03 Mnist模型:
MNIST是一個(gè)入門級的計(jì)算機(jī)視覺數(shù)據(jù)集,它包含各種手寫數(shù)字圖片,包含60000行的訓(xùn)練數(shù)據(jù)集(mnist.train)和10000行的測試數(shù)據(jù)集(mnist.test)。
04 ResNet模型:
深度殘差網(wǎng)絡(luò)。該網(wǎng)絡(luò)對residual block和shortcut connection的引入,使網(wǎng)絡(luò)能夠達(dá)到更高的層數(shù)并且不會發(fā)生網(wǎng)絡(luò)退化現(xiàn)象。ResNet是由KaiMing He在2015年發(fā)表,并基于該模型獲得了當(dāng)年ImageNet detection,ImageNet localization,COCO detection等多個(gè)比賽的冠軍。
測試環(huán)節(jié)
在實(shí)際測試環(huán)節(jié),首先要做的是搭建環(huán)境,如GPU驅(qū)動、CUDA等必要條件,其中部分廠商已經(jīng)在操作系統(tǒng)鏡像集成了GPU驅(qū)動,減少了安裝的工作量;在配置深度學(xué)習(xí)庫TensorFlow時(shí),需要正確安裝對應(yīng)版本的CUDA、cuDNN、Python等環(huán)境,也有廠商幫用戶提供好了容器的鏡像文件,細(xì)節(jié)體現(xiàn)差異,真正做到省時(shí)省力;結(jié)果處理環(huán)節(jié),首先保證足夠多的數(shù)據(jù)量,將各個(gè)模型測試結(jié)果保存到本地文件,去除首末端噪點(diǎn)數(shù)據(jù),再對數(shù)據(jù)進(jìn)行去除壞值,求最大、最小值、平均值、中位數(shù)、方差等數(shù)據(jù),最終將數(shù)據(jù)可視化。
應(yīng)用案例性能測試
除了使用經(jīng)典機(jī)器學(xué)習(xí)模型進(jìn)行性能測試之外,同期舉辦的云計(jì)算性能創(chuàng)新大賽廣泛征集了高校優(yōu)秀案例,對GPU云主機(jī)性能進(jìn)行了驗(yàn)證。案例的取材包含了大型仿真、機(jī)器學(xué)習(xí)、科學(xué)計(jì)算等熱門應(yīng)用場景,其中來自清華和蘭大的應(yīng)用案例得到了專家評審的一致高度認(rèn)可,體現(xiàn)了學(xué)術(shù)界和產(chǎn)業(yè)界的完美結(jié)合,成為云計(jì)算助力行業(yè)應(yīng)用的成功典范。