2017年全球新成立人工智能創(chuàng)業(yè)公司1100家,人工智能領(lǐng)域共獲得投資152億美元,同比增長141%。中國經(jīng)濟(jì)和社會轉(zhuǎn)型升級中,智能化需求正逐步顯現(xiàn),人工智能將對傳統(tǒng)行業(yè)和細(xì)分市場產(chǎn)生深遠(yuǎn)影響,如汽車行業(yè),中國是全球最大的汽車市場,2016年國內(nèi)售出了2803萬輛汽車,同時中國也是全球最大的家電生產(chǎn)國和無人機(jī)生產(chǎn)國,人工智能將成為智能科技和經(jīng)濟(jì)發(fā)展的內(nèi)生動力。
互聯(lián)網(wǎng)模式取得的巨大成功,積累的大量數(shù)據(jù)成為人工智能數(shù)據(jù)分析的主要基石。同時在算法上,如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)在學(xué)習(xí)成效上得到了巨大突破,中小規(guī)模的問題已經(jīng)能應(yīng)用于實(shí)際。然而在大規(guī)模的實(shí)際應(yīng)用中,由于數(shù)據(jù)體量的龐大,數(shù)據(jù)增長快速、結(jié)構(gòu)的多樣、價(jià)值密度低等因素,對數(shù)據(jù)獲取的實(shí)時性、存儲、傳輸、處理、計(jì)算方面提出了全新挑戰(zhàn)。以往的單個計(jì)算單元的串行運(yùn)算已不能滿足大數(shù)據(jù)背景下的需求,并行運(yùn)算及云的計(jì)算方式成為解決單個運(yùn)算單元在短時間內(nèi)無法得到運(yùn)算結(jié)果,以及提高運(yùn)算單元利用率、提升學(xué)習(xí)效率問題的一劑良方。
算力,實(shí)現(xiàn)人工智能的核心能力
GPU成為人工智能領(lǐng)域解決算力的主要手段。GPU的特點(diǎn)是擁有多達(dá)幾千個核和大量的高速內(nèi)存,特別適合于大規(guī)模并行運(yùn)算,GPU在“深度學(xué)習(xí)”領(lǐng)域發(fā)揮著巨大的作用。因?yàn)镚PU可并行處理大量瑣碎信息,深度學(xué)習(xí)所依賴的神經(jīng)網(wǎng)絡(luò)算法正是模擬人類神經(jīng)元細(xì)胞的工作模式,利用大量處理單元構(gòu)成的計(jì)算網(wǎng)絡(luò)分析海量的數(shù)據(jù)。
NVIDIA全球OEM業(yè)務(wù)總監(jiān)Joyce Tai
在圖像識別、視頻分析、語音識別以及自然語言處理GPU比單純利用CPU更具有優(yōu)勢。正如NVIDIA全球OEM業(yè)務(wù)總監(jiān)Joyce Tai所言,“用傳統(tǒng)的CPU需要160個CPU,而且耗電量非常大。但今天用GPU這樣的并行運(yùn)算,用8塊GPU卡就可以達(dá)到同樣的效能,而且速度更快,所耗的電量也會少很多。”
同時“摩爾定律”放緩的跡象讓算力的接力棒轉(zhuǎn)交給了GPU。Joyce Tai表示,過去的二十年按摩爾定律的發(fā)展,每18個月晶體管的數(shù)量可以實(shí)現(xiàn)翻番增長,性能也是倍數(shù)增長。但過去的五年,開始出現(xiàn)發(fā)展停滯的現(xiàn)象。CPU一直想辦法增加集成的電晶管數(shù)量,但性能并沒有辦法等比例增長。同時以線性的運(yùn)算方式,也讓它的耗電量變得很高。NVIDIA十年前開始研發(fā)并行運(yùn)算,從2013年看,如果用摩爾定律的眼光來評價(jià),GPU有非常大的進(jìn)步,已不止是每18個月實(shí)現(xiàn)性能翻倍,而是以每年好幾倍的速度在性能提升。
同時,NVIDIA也十分重視和生態(tài)伙伴的合作。在底層硬件與新華三、慧與有非常多的合作。比如HPE Apollo6500平臺成為市場上主流的AI解決方案,HPE Proliant DL380成為目前全球最暢銷的人工智能計(jì)算服務(wù)器。
優(yōu)化GPU集群打造最優(yōu)化AI基礎(chǔ)設(shè)施
并行計(jì)算的高效使GPU被廣泛用于機(jī)器學(xué)習(xí)的模型訓(xùn)練,在功率能耗上更低、占用基礎(chǔ)設(shè)施更少的情況下能夠支持遠(yuǎn)比從前更大的數(shù)據(jù)量和吞吐量。GPU的集群成為AI的基礎(chǔ)設(shè)施最核心的要素。
新華三集團(tuán)工業(yè)標(biāo)準(zhǔn)服務(wù)器 GPU產(chǎn)品經(jīng)理姚宏
是否是高效、性能優(yōu)化的人工智能系統(tǒng),新華三有明確的評判標(biāo)準(zhǔn)。新華三集團(tuán)工業(yè)標(biāo)準(zhǔn)服務(wù)器 GPU產(chǎn)品經(jīng)理姚宏一語道破:“評價(jià)一套GPU集群系統(tǒng)的效率是優(yōu)化水平關(guān)鍵看GPU的利用率是否能達(dá)到很高的值。”
"有時用戶配備了很高端的GPU服務(wù)器和計(jì)算卡,但把全部的負(fù)荷加載進(jìn)去GPU利用率只有30%,這就說明整個集群的優(yōu)化出現(xiàn)了問題。只有滿負(fù)載的GPU利用率才是高效的GPU集群系統(tǒng)。這個方面,我們新華三集團(tuán)可以幫助用戶建立高效的GPU系統(tǒng)。"
一套GPU集群一般會包括GPU服務(wù)器、集中存儲、集群網(wǎng)絡(luò)、系統(tǒng)軟件四個部分組成。GPU服務(wù)器又分為學(xué)習(xí)和訓(xùn)練的GPU服務(wù)器和線上的推理服務(wù)器。新華三公司針對AI應(yīng)用的需求特點(diǎn),提供了完整的產(chǎn)品方案系列,幫助用戶快速構(gòu)建高效易用的人工智能系統(tǒng)。其中學(xué)習(xí)和訓(xùn)練服務(wù)器,新華三提供了,H3C UniServer R5200 G3、HPEApollo6500兩款產(chǎn)品;用于線上的推理服務(wù)器是H3C UniServer R4900 G3。
R5200G3 服務(wù)器為了充分發(fā)揮CPU/GPU協(xié)同計(jì)算能力,專門設(shè)計(jì)了優(yōu)化的CPU和GPU通訊鏈路,讓CPU和GPU具有高帶寬、低延遲卓越的通訊效率;擴(kuò)展性上,最大可以擴(kuò)展10個雙寬的GPU,或擴(kuò)展20個單寬的GPU,為用戶帶來強(qiáng)勁的單機(jī)計(jì)算能力。R5200G3支持10塊熱插拔硬盤,以及高冗余的風(fēng)扇和電源,確保產(chǎn)品高可用的持續(xù)運(yùn)行。Apollo6500服務(wù)器支持Nvlink2.0高速互聯(lián),對海量數(shù)據(jù)具有超強(qiáng)的處理能力。
在存儲方面,新華三憑借高性能計(jì)算領(lǐng)域豐富經(jīng)驗(yàn)為人工智能用戶推薦了并行存儲方案,基于并行文件系統(tǒng)將多套存儲陣列聚合為一個資源池,為用戶帶來海量存儲空間和隨容量線性增長的優(yōu)異的讀寫性能。
為了適應(yīng)多機(jī)并行訓(xùn)練的技術(shù)發(fā)展趨勢,新華三公司率先采用業(yè)界領(lǐng)先的100Gb網(wǎng)絡(luò)作為人工智能的核心網(wǎng)絡(luò),結(jié)合新華三集群管理軟件工具以及性能出色的GPU服務(wù)器和并行存儲,新華三為給用戶提供一套非常高效率運(yùn)行的基礎(chǔ)架構(gòu)的AI平臺。
性能突破構(gòu)建無損的以太網(wǎng)
機(jī)器學(xué)習(xí)中,大量的數(shù)據(jù)要在服務(wù)器集群里流動,網(wǎng)絡(luò)開銷成為計(jì)算效率損耗的重要源頭。節(jié)點(diǎn)間需要一個高速的網(wǎng)絡(luò),因此RDMA技術(shù)在人工智能領(lǐng)域的應(yīng)用越來越廣泛。RoCE(RDMA over ConvergeEthernet)架構(gòu)提供了在以太網(wǎng)中承載RDMA應(yīng)用的解決方案,這個以太網(wǎng)必須是一個無損的(LOSSLESS)以太網(wǎng)。新華三參與各大互聯(lián)網(wǎng)客戶尤其是BAT的人工智能的業(yè)務(wù)測試過程中積累了豐富的經(jīng)驗(yàn)。
新華三集團(tuán)互聯(lián)網(wǎng)系統(tǒng)部網(wǎng)路架構(gòu)師吳銀懷
新華三集團(tuán)互聯(lián)網(wǎng)系統(tǒng)部網(wǎng)路架構(gòu)師吳銀懷表示,“新華三在交換設(shè)備出廠時會對交換設(shè)備Buffer閾值等參數(shù)進(jìn)行預(yù)先設(shè)定,覆蓋大多數(shù)人工智能業(yè)務(wù)場景的需求。如果有更為個性化的參數(shù)設(shè)定要求(比如隊(duì)列headroom、Reset值等)。新華三交換機(jī)設(shè)備提供用于個性化參數(shù)設(shè)定所需的命令行,并且命令行在不斷豐富和完善,也提供原廠的研發(fā)級支撐,配合客戶進(jìn)行現(xiàn)場測試,對人工智能的網(wǎng)絡(luò)環(huán)境進(jìn)行優(yōu)化。“
此外,新華三還提供了高速網(wǎng)絡(luò)的可視化管理解決方案,可實(shí)現(xiàn)轉(zhuǎn)發(fā)路徑可視、Buffer可視、通過對PFCPause幀發(fā)送數(shù)量及發(fā)送速率、ECN相關(guān)報(bào)文統(tǒng)計(jì),實(shí)現(xiàn)流控可視化,了解傳輸網(wǎng)絡(luò)節(jié)點(diǎn)的擁塞情況,從而更好的避免網(wǎng)絡(luò)擁塞達(dá)到無損。
資源池化加速AI開發(fā)進(jìn)程
讓專業(yè)的人干專業(yè)的事,在人工智能這種科技密集型產(chǎn)業(yè)更是如此。讓算法工程師專注于建模、數(shù)據(jù)分析而把環(huán)境部署、參數(shù)配置交給平臺去做。
新華三集團(tuán)技術(shù)戰(zhàn)略部資深專家徐心平
新華三提出公共科學(xué)計(jì)算平臺的解決方案。新華三集團(tuán)技術(shù)戰(zhàn)略部資深專家徐心平介紹,公共科學(xué)計(jì)算平臺將服務(wù)器存儲網(wǎng)絡(luò),高性能的計(jì)算節(jié)點(diǎn)、GPU服務(wù)器建成一個資源池,為算法工程師提供非常自動化的專業(yè)平臺。
“首先他是個資源池,最底層是基礎(chǔ)設(shè)施、服務(wù)器、CPU、包括各種類型,刀片,高密的,兩路,四路的、高性能的存儲、網(wǎng)絡(luò);其次,可以做到資源共享和隔離,,支持多種計(jì)算框架,提供從數(shù)據(jù)到最后推理的數(shù)字化流程。成為AI模型的生產(chǎn)線,從數(shù)據(jù)采集,格式化,通過算法庫建模、優(yōu)化、搜索,做模型評估發(fā)布,整個過程要通過平臺實(shí)現(xiàn)自動化。最后,能針對專業(yè)的AI和開發(fā)者做定制化開發(fā)。針對業(yè)界比較流行的專業(yè)計(jì)算框架、依賴,包括流行的模型以可視化的方式運(yùn)行,訓(xùn)練做模型優(yōu)化。”