金山云高性能計算 更強計算力加速AI落地

責任編輯:xfuesx

2017-11-14 15:07:16

摘自:搜移IT

作為衡量計算力強弱的核心載體,近幾年芯片業(yè)可謂是風水輪流轉(zhuǎn),換家坐莊。在KIS-GPU方面,KIS作為金山云推出的綜合性混合云服務,主要負責高性能計算設備的托管和租賃,實現(xiàn)用戶自有設備和公有云服務資源的有序調(diào)度。

作為衡量計算力強弱的核心載體,近幾年芯片業(yè)可謂是風水輪流轉(zhuǎn),換家坐莊。這邊剛傳出博通要1300億美元收購高通,那邊馬上就說英特爾和AMD這對多年的老冤家都決定聯(lián)手了,而近日芯片巨頭英偉達發(fā)布的2018財年第三季度財報則同樣廣受關(guān)注,其第三財季營收達到創(chuàng)紀錄的26.4億美元,截止今年目前為止,其股價已經(jīng)上漲了約92%。

應該看到,英偉達營收創(chuàng)紀錄及股價暴漲的背后,是受益于以人工智能為代表的對圖形芯片的強勁需求而推動,人工智能對于GPU的空前依賴同樣也促進了廠商對于芯片的加速換代升級。依靠算法、數(shù)據(jù)和計算為基礎支撐點的人工智能,面對空前高漲的計算力,迎來了全新的發(fā)展機遇。以GPU為代表的計算設備單位面積和單位功耗的計算能力的極大提升,帶來了計算密度的提高和機柜成本的快速下降,以此為高性能計算快速步入大眾視野打下了堅實的物理基礎。而其中具有代表性的金山云高性能計算,經(jīng)過多次迭代演進,已經(jīng)成為高性能計算中的領導者。

image.png

金山云異構(gòu)高性能計算解決方案

高性能計算成為應對爆炸式增長神經(jīng)網(wǎng)絡的必然選擇

由于集成電路制程工藝趨于接近摩爾定律的物理極限——接近硅極限的7nm,單芯片與單系統(tǒng)的性能提高也開始逐漸變慢甚至趨于停滯,無法滿足不斷爆炸式增長的神經(jīng)網(wǎng)絡規(guī)模,此時,高性能計算集群就成了必然選擇。金山云通過使用業(yè)界頂配的GPU服務器加上高帶寬與低延遲的RDMA網(wǎng)絡,搭配高性能存儲服務,為用戶構(gòu)建了可伸縮的高性能計算集群,來應對不斷增長的業(yè)務需求。

以運算需求來劃分,在初始階段,服務器只是面對web、游戲等普通運算,沒有太多計算壓力;而隨著AI訓練與推理應用等強計算需求不斷涌來,原來AI所依賴的深度學習的網(wǎng)絡規(guī)模呈現(xiàn)了指數(shù)級增長,深度神經(jīng)網(wǎng)絡的參數(shù)從6百萬增加到了87億,對服務器產(chǎn)生了非常大的壓力,基于公有云的高性能計算平臺,成為應對該類需求的不二之選。用戶可以根據(jù)業(yè)務按需創(chuàng)建GPU服務器資源,該類GPU服務器原生支持VPC網(wǎng)絡,GPU服務器之間擁有20Gbps的高性能網(wǎng)絡帶寬,且都位于高品質(zhì)的IDC機房,擁有電力和網(wǎng)絡的冗余保護,同時完善的監(jiān)控體系,保障業(yè)務穩(wěn)定運行。

以計算能力來劃分,相對以前使用大量的CPU去堆砌超級計算的時代,現(xiàn)在一塊GPU的計算能力,相當于之前幾千塊CPU搭建起來的超級計算機的能力,但對于普通終端用戶而言,基于此專門去購買相應設備依然花費不菲。加上GPU設備本身采購成本極其高昂,大量采購GPU物理服務器帶來了極大的資金占用,而由于GPU領域使用比摩爾定律更激進的黃氏定律,進而導致折舊成本更高。用戶在面對新的業(yè)務需求時,硬件層面顯得捉襟見肘,無業(yè)務彈性。

而訓練更大規(guī)模的神經(jīng)網(wǎng)絡就需要更大規(guī)模的集群,高性能計算的出現(xiàn),可謂極大解決了原有大集群的搭建和維護帶來的資金和運營壓力,用戶只需租用云服務商的高性能計算服務,無購買硬件所存在的資金占用風險,以比較低的使用成本彈性使用資源,即買即用應對業(yè)務變化,同時始終可以用到最新的高性能計算加速硬件,這也是高性能計算得以快速發(fā)展的根本原因。

金山云高性能計算賦能人工智能加速發(fā)展

金山云做為業(yè)內(nèi)最早提供公共IaaS服務的云計算廠商之一,提供了業(yè)內(nèi)最豐富的異構(gòu)高性能計算服務,包括彈性GPU/FPGA服務、GPU專屬云服務、異構(gòu)超算平臺(KHSP)和KIS-GPU服務(Kingsoft integrated Service),為大規(guī)模神經(jīng)網(wǎng)絡的深度學習用戶和通用高性能計算用戶提供最優(yōu)質(zhì)、便捷的云端體驗,讓用戶根據(jù)業(yè)務需求,靈活創(chuàng)建和使用適合自身的高性能計算集群。

在彈性GPU/FPGA服務方面,金山云提供了基于EPC的GPU服務器和基于KEC的GPU服務器兩種產(chǎn)品形式,同時滿足性能與靈活性的需求。此外,利用業(yè)界領先的的VPC網(wǎng)絡,不僅可以連通用戶在金山云上的物理服務器和云服務器,還可以方便連通用戶自己在金山云其他區(qū)域的服務,實現(xiàn)計算能力的按需調(diào)配和靈活擴展。

image.png

金山云彈性GPU/FPGA服務

在GPU專屬云服務方面,金山云通過搭建用戶專屬GPU服務資源池,讓用戶根據(jù)自己的需求配置不同CPU/GPU/內(nèi)存和硬盤的云服務器,實現(xiàn)物理資源在使用期間僅運行用戶專屬業(yè)務(即資源隔離),讓計算性能得到有效保障。用戶可在業(yè)務高峰時把部分云服務器遷移到專屬云中,或在高峰來臨之前向?qū)僭铺砑痈嗟腉PU計算資源,開啟更多的服務實例,待高峰過去后,再將這些節(jié)點退出專屬云。

在異構(gòu)超算平臺方面,基于優(yōu)秀的物理機調(diào)度能力和VPC網(wǎng)絡,可以快速為用戶構(gòu)建量身定制虛擬超算平臺,讓用戶獨享平臺的物理計算節(jié)點資源,有效滿足人工智能對高性能計算力的需求。在技術(shù)實現(xiàn)上,利用金山云已經(jīng)構(gòu)建起來的256節(jié)點集群,抽取GPU、CPU或FPGA的加速資源組成虛擬超算集群,受益于虛擬網(wǎng)絡,展現(xiàn)在用戶面前的依然是一個完整的超算集群。

在KIS-GPU方面,KIS作為金山云推出的綜合性混合云服務,主要負責高性能計算設備的托管和租賃,實現(xiàn)用戶自有設備和公有云服務資源的有序調(diào)度。用戶除了可以將自有GPU服務器托管到金山云KIS,高效利用已有資產(chǎn);同時又具備公有云資源使用能力和BGP的服務投送能力,釋放計算應用靈活性,解決了不同時期人工智能使用場景中對計算能力的需求。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號