6月12日,NVIDIA和慧與新華三在北京泰富酒店舉辦題為“引領(lǐng)AI發(fā)展,極速計算引擎”的人工智能平臺研討會。當(dāng)今,人工智能(AI)進(jìn)入到一個以大數(shù)據(jù)為基礎(chǔ)的新階段,在機(jī)器人和無人駕駛、計算機(jī)視覺、自然語言、虛擬助手、機(jī)器學(xué)習(xí)等領(lǐng)域得到廣泛應(yīng)用,正在掀起新一波的數(shù)字革命浪潮。另一方面,由于人工智能需要對海量數(shù)據(jù)進(jìn)行大規(guī)模、高速處理,對計算能力、網(wǎng)絡(luò)效率、大數(shù)據(jù)存儲能力都提出了新的要求。
NVIDIA全球OEM業(yè)務(wù)總監(jiān) Joyce Tai
深度學(xué)習(xí)與全新GPU架構(gòu)解決方案
近幾年來的實踐顯示,深度學(xué)習(xí)是許多人工智能技術(shù)取得突破的關(guān)鍵,而GPU作為深度學(xué)習(xí)所需的主要計算資源,正在迅速獲得越來越多的關(guān)注。此次研討會上,NVIDIA展示了其為深度學(xué)習(xí)推出的全新的Volta架構(gòu)GPU —— NVIDIA TeslaV100。NVIDIA Tesla V100提供了最高性能模式和高能耗模式,前者將持續(xù)運行在300W的最大TDP功耗下,性能也是最出色的;后者則運行在50%~60% TDP模式下能夠提供75%~85%的性能。
計算、網(wǎng)絡(luò)、存儲的高度配合與協(xié)同,才能讓機(jī)器學(xué)習(xí)以最短的時間內(nèi)獲取最佳結(jié)果。新華三針對目前日益升溫的人工智能應(yīng)用場景,推出了一系列與GPU相配合的服務(wù)器、網(wǎng)絡(luò)以及高性能計算的相關(guān)解決方案。
新華三集團(tuán)工業(yè)標(biāo)準(zhǔn)服務(wù)器 GPU產(chǎn)品經(jīng)理 姚宏
此次研討會上,新華三集團(tuán)工業(yè)標(biāo)準(zhǔn)服務(wù)器GPU產(chǎn)品經(jīng)理姚宏介紹,在深度學(xué)習(xí)與并行計算方面,可采用新華三的H3C UniServer R5200 G3,它是業(yè)界最高的擴(kuò)展性服務(wù)器,支持NVIDIA Tesla GPU系列,可支持10塊雙寬或20塊單寬的GPU;HPE Apollo 6500 System 支持多達(dá)8個300WGPU或協(xié)處理器,并且CPU為8:1的拓?fù)浣Y(jié)構(gòu)中,網(wǎng)絡(luò)可直接連接至GPU的PCIe Gen3互聯(lián),從而減少GPU節(jié)點之間的延遲。
在數(shù)據(jù)樣本的并行存儲方面,有H3C R4300。在機(jī)器學(xué)習(xí)的推理上,可選用H3C R4900 G3,它是第一款由新華三集團(tuán)完全自主研發(fā)的服務(wù)器產(chǎn)品,是最主流的2路2U 24DIMM設(shè)計,基于Intel最新的Boradwell E5-2600v4系列處理器DDR4-2400的內(nèi)存組合,是目前市面上最先進(jìn)的雙路服務(wù)器計算平臺。R4900 G3遵循本地規(guī)劃、本地設(shè)計、本地生產(chǎn)、本地服務(wù)原則,在設(shè)計上考慮了中國市場的競爭狀況和中國用戶的需求;不僅如此,作為傳統(tǒng)X86服務(wù)器標(biāo)配提供的軟件功能部分,嵌入式管理的HDM和批量管理維護(hù)工具FIST,也完全由新華三集團(tuán)自主研發(fā),擁有完整的知識產(chǎn)權(quán)。
新華三集團(tuán)互聯(lián)網(wǎng)系統(tǒng)部網(wǎng)絡(luò)架構(gòu)師 吳銀懷
高性能網(wǎng)絡(luò)環(huán)境
在人工智能場景中,計算節(jié)點、存儲節(jié)點之間存在大量的數(shù)據(jù)互通,因此端到端的網(wǎng)絡(luò)吞吐性能及網(wǎng)絡(luò)延時對計算的影響很大。伴隨著這些業(yè)務(wù)的開展,RDMA技術(shù)在人工智能領(lǐng)域的應(yīng)用越來越廣泛。RoCE(RDMA over ConvergeEthernet)架構(gòu)提供了在以太網(wǎng)中承載RDMA應(yīng)用的解決方案,這個以太網(wǎng)必須是一個無損的(LOSSLESS)以太網(wǎng)。H3C參與各大互聯(lián)網(wǎng)客戶,尤其是BAT的人工智能業(yè)務(wù)測試,積累了豐富的經(jīng)驗。H3C在交換設(shè)備出廠時會對交換設(shè)備Buffer閾值等參數(shù)進(jìn)行預(yù)先設(shè)定,覆蓋大多數(shù)人工智能業(yè)務(wù)場景的需求。如果有更為個性化的參數(shù)設(shè)定要求(比如隊列headroom、Reset值等),H3C交換機(jī)設(shè)備提供用于個性化參數(shù)設(shè)定所需的命令行,并且命令行在不斷豐富和完善,H3C也會提供原廠的研發(fā)級支撐,配合客戶進(jìn)行現(xiàn)場測試,對人工智能的網(wǎng)絡(luò)環(huán)境進(jìn)行優(yōu)化。新華三還提供了高速網(wǎng)絡(luò)的可視化管理解決方案,可實現(xiàn)轉(zhuǎn)發(fā)路徑可視、Buffer可視、通過對PFC Pause幀發(fā)送數(shù)量及發(fā)送速率、ECN相關(guān)報文統(tǒng)計,實現(xiàn)流控可視化,了解傳輸網(wǎng)絡(luò)節(jié)點的擁塞情況,從而更好的避免網(wǎng)絡(luò)擁塞達(dá)到無損。
新華三集團(tuán)技術(shù)戰(zhàn)略部資深專家 徐心平
新華三AISO人工智能管理平臺
隨著人工智能在各個領(lǐng)域應(yīng)用的逐漸滲透,高性能的科學(xué)計算也逐漸融合人工智能技術(shù),因此科研單位需要在一套高性能基礎(chǔ)設(shè)施上支持多種類型的科研任務(wù),這包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí),HPC應(yīng)用等。此次研討會上,新華三集團(tuán)技術(shù)戰(zhàn)略部資深專家徐心平表示, “一個成熟的專業(yè)的人工智能平臺,在保證計算性能的基礎(chǔ)上,可以充分利用容器技術(shù),實現(xiàn)資源隔離和共享。客戶的訴求是多種科學(xué)計算任務(wù)需要統(tǒng)一審批、統(tǒng)一調(diào)度,由一套基礎(chǔ)設(shè)施承載多種科學(xué)計算任務(wù),實現(xiàn)模型訓(xùn)練任務(wù)提交、打包上線自動化,并有統(tǒng)一完善的任務(wù)監(jiān)控和資源調(diào)度,以最大程度來發(fā)揮硬件平臺效率。為此,這個統(tǒng)一平臺需要解決各種高性能業(yè)務(wù)場景下,IT計算環(huán)境配置復(fù)雜,難以調(diào)優(yōu)和共享的問題。”新華三的公共科學(xué)計算AI解決方案AIOS平臺產(chǎn)品,就是充分考慮到以上挑戰(zhàn),以功能內(nèi)聚、設(shè)計全面為原則, 針對專業(yè)開發(fā)者提供全自動化交互式開發(fā)環(huán)境, 通過對機(jī)器學(xué)習(xí)、深度學(xué)習(xí)知識的不斷探索,實現(xiàn)模型優(yōu)化和性能優(yōu)化的擴(kuò)展功能, 提供了一個功能全面的深度學(xué)習(xí)系統(tǒng),從而為客戶提供支持多租戶共享、靈活GPU資源調(diào)度的人工智能解決方案。
用戶實踐分享
此次研討會上,還有幸聽到來自互聯(lián)網(wǎng)用戶的實踐分享。搜狗語音交互技術(shù)中心資深研究員劉忠亮,分享了搜狗基于GPU平臺的實時語音識別技術(shù)。山東大學(xué)信息學(xué)院教授、北航人工智能特聘教授周斌,則介紹了通過NVIDIA Tesla V100與Tensor Core如何加速計算的寶貴經(jīng)驗。