人工智能,不許網(wǎng)絡(luò)再丟包

責(zé)任編輯:zsheng

2019-01-16 12:55:25

摘自:極客網(wǎng)

在丟包率為0 1%的傳統(tǒng)以太網(wǎng)中,我們生活安然,并無(wú)不適。而現(xiàn)在,人工智能(AI)帶來(lái)的數(shù)據(jù)量激增改變了這一切。

在丟包率為0.1%的傳統(tǒng)以太網(wǎng)中,我們生活安然,并無(wú)不適。而現(xiàn)在,人工智能(AI)帶來(lái)的數(shù)據(jù)量激增改變了這一切。

那些以太網(wǎng)曾經(jīng)看來(lái)微不足道的“茍且”開(kāi)始變得如鯁在喉,它讓人們?cè)絹?lái)越無(wú)法忍受。至少對(duì)于那些以AI為生的公司和個(gè)人而言,情勢(shì)正變得越來(lái)越緊迫:

根據(jù)華為GIV 2025(Global Industry Vision)的預(yù)測(cè),企業(yè)對(duì)AI的采用率將從2015年的16%達(dá)到2025年86%,彼時(shí),新增數(shù)據(jù)量達(dá)到180ZB,95%的非結(jié)構(gòu)化數(shù)據(jù)(語(yǔ)音/視頻等)依賴AI處理,越來(lái)越多的企業(yè)將利用AI輔助決策、重塑商業(yè)模式與生態(tài)系統(tǒng),并重建客戶體驗(yàn)。

一項(xiàng)實(shí)測(cè)支持的業(yè)務(wù)觀察顯示,因?yàn)锳I業(yè)務(wù)帶動(dòng)的數(shù)據(jù)量高速增長(zhǎng),0.1%的以太網(wǎng)丟包率會(huì)導(dǎo)致AI的計(jì)算力損失約50%——面向AI,在計(jì)算和存儲(chǔ)領(lǐng)域已經(jīng)取得突破之后,這一現(xiàn)實(shí)讓網(wǎng)絡(luò)設(shè)備供應(yīng)商感受到了前所未有的壓力。

為提升AI運(yùn)行效率,過(guò)去數(shù)年間,閃存已經(jīng)大范圍進(jìn)入存儲(chǔ)領(lǐng)域,它讓數(shù)據(jù)存儲(chǔ)的時(shí)延降低超過(guò)了100倍;在計(jì)算領(lǐng)域,GPU等主要服務(wù)于AI的芯片也將數(shù)據(jù)處理能力提升了100倍以上。

在ICT領(lǐng)域,AI的短板眼下只剩下一塊——網(wǎng)絡(luò)設(shè)備。針對(duì)這一問(wèn)題,華為網(wǎng)絡(luò)產(chǎn)品線總裁胡克文認(rèn)為,面向AI的未來(lái),網(wǎng)絡(luò)設(shè)備應(yīng)該做到“強(qiáng)制性”的零丟包。

每家ICT廠商都是努力做著同一件事情,生產(chǎn)出這類適應(yīng)AI需求的網(wǎng)絡(luò)設(shè)備,全球范圍概莫能外。它意味著巨大的挑戰(zhàn)與創(chuàng)新,也意味著可見(jiàn)的、巨大的市場(chǎng)回報(bào)。

7天的訓(xùn)練,4天完成

如今,圍繞這塊短板,華為再次領(lǐng)先了。在上周的春季新品發(fā)布會(huì)上,它推出了植入高能效AI芯片的新款交換機(jī)CloudEngine 16800。

CloudEngine 16800發(fā)布現(xiàn)場(chǎng)

這款業(yè)界首款面向AI時(shí)代的計(jì)算中心交換機(jī),可以借助其實(shí)時(shí)學(xué)習(xí)訓(xùn)練能力和獨(dú)創(chuàng)的iLossLess智能無(wú)損交換算法,在以太網(wǎng)中實(shí)現(xiàn)零丟包機(jī)制,并實(shí)現(xiàn)流量模型的自適應(yīng)自優(yōu)化。

2018年,華為輪值董事長(zhǎng)徐直軍宣布,華為將AI定位為新的通用技術(shù),并發(fā)布了AI發(fā)展戰(zhàn)略,全面將AI技術(shù)引入到智能終端、云和網(wǎng)絡(luò)等各個(gè)領(lǐng)域。

CloudEngine 16800能通過(guò)AI技術(shù)的應(yīng)用實(shí)現(xiàn)突破,顯然直接受惠于此戰(zhàn)略的執(zhí)行?;贏I技術(shù),該款產(chǎn)品在網(wǎng)絡(luò)調(diào)優(yōu)上實(shí)現(xiàn)了智能化:一個(gè)是單流局部調(diào)優(yōu),另一個(gè)是整網(wǎng)全局調(diào)優(yōu)。

如果將網(wǎng)絡(luò)視作一個(gè)城市的交通網(wǎng),前者實(shí)現(xiàn)了在一個(gè)十字路口智能調(diào)整紅綠燈時(shí)間的功能;而后者,則實(shí)現(xiàn)了動(dòng)態(tài)關(guān)聯(lián)調(diào)整全市紅綠燈時(shí)間的功能。

據(jù)測(cè)算,這一系列AI技術(shù)的應(yīng)用,不止在用戶端將AI算力從50%提升到100%,同時(shí)還將數(shù)據(jù)存儲(chǔ)IOPS的性能提升了30%.

一家互聯(lián)網(wǎng)巨頭已經(jīng)對(duì)這款新品進(jìn)行了測(cè)試,業(yè)務(wù)內(nèi)容則是當(dāng)下方興未艾的無(wú)人駕駛AI訓(xùn)練。

訓(xùn)練的效果讓人們大吃一驚——以往1天運(yùn)行的數(shù)據(jù)需要訓(xùn)練7天才能完成,而現(xiàn)在,這家公司只用了4天。對(duì)于高速的商業(yè)競(jìng)爭(zhēng)而言,這幾乎是直接為用戶提供了一種接近核心的競(jìng)爭(zhēng)力。

做一臺(tái)AI時(shí)代的交換機(jī)

華為也因此將“內(nèi)嵌AI芯片”定義成了AI時(shí)代數(shù)據(jù)中心交換機(jī)的三大特征之一。在其最新定義中,另外兩項(xiàng)特征則分別是“單槽48 x 400GE高密端口”,和“能夠向自動(dòng)駕駛網(wǎng)絡(luò)演進(jìn)的能力”。

“如果這三大特征,你不符合的話,你可能就不是面向AI時(shí)代的數(shù)據(jù)中心交換機(jī)。”胡克文說(shuō)。

2012年華為發(fā)布了100GE的正交架構(gòu)產(chǎn)品CloudEngine12800數(shù)據(jù)中心交換機(jī),并在此后一路高歌猛進(jìn)。從2016年起,華為的數(shù)據(jù)中心交換機(jī)已連續(xù)三年蟬聯(lián)市場(chǎng)份額第一。2018年,在標(biāo)志最高應(yīng)用標(biāo)準(zhǔn)的金融行業(yè),華為數(shù)據(jù)中心交換機(jī)也坐上了頭把交椅。

新品特性應(yīng)對(duì)AI時(shí)代的3大挑戰(zhàn)

華為在技術(shù)創(chuàng)新上的投入一直為外界稱道,并被視為華為企業(yè)基因式的存在。但這種基因以何種形式在機(jī)體中發(fā)揮作用,外界通常知之甚少。在這一點(diǎn)上,CloudEngine 16800為實(shí)現(xiàn)跨越式硬件平臺(tái)升級(jí)所做的技術(shù)準(zhǔn)備,則可以清晰地顯現(xiàn)出這一基因的“運(yùn)作”方式。

為滿足AI時(shí)代流量倍增的需求,CloudEngine 16800單槽位提供了業(yè)界最高密度48端口400GE線卡,單機(jī)則提供業(yè)界最大的768端口400GE交換容量,這一交換能力是業(yè)界平均的5倍。

其中,針對(duì)400GE接口的標(biāo)準(zhǔn)化工作,華為早在2015年便已經(jīng)啟動(dòng)——考慮到企業(yè)AI等新型業(yè)務(wù)驅(qū)動(dòng)了數(shù)據(jù)中服務(wù)器從10G到25G甚至100G的切換,華為判斷行業(yè)必然要求交換機(jī)支持400G接口,400GE接口標(biāo)準(zhǔn)化工作于2015年啟動(dòng),并針對(duì)數(shù)據(jù)中心應(yīng)用完成了標(biāo)準(zhǔn)化。

此外,在新材料新工藝、能效和散熱等領(lǐng)域,CloudEngine 16800的創(chuàng)新林林總總,不勝枚舉。例如,在用戶直接可見(jiàn)的節(jié)能方面,與業(yè)界相比,新品可將平均每bit數(shù)據(jù)的功耗降低50%,這相當(dāng)于每臺(tái)每年節(jié)省32萬(wàn)度電,約合電費(fèi)26萬(wàn)元。

自動(dòng)駕駛從秒級(jí)識(shí)別開(kāi)始

另一項(xiàng)用戶可以直接感受到的革新,同樣來(lái)自于AI技術(shù)的應(yīng)用。這種用戶可感知的能力被稱為“能夠向自動(dòng)駕駛網(wǎng)絡(luò)演進(jìn)的能力”。

在傳統(tǒng)數(shù)據(jù)中心,在接到故障告警后,技術(shù)人員必須依靠人工排查的運(yùn)維手段定位故障,如果不夠幸運(yùn),一項(xiàng)故障排查通常需要數(shù)小時(shí),甚至更長(zhǎng)的時(shí)間。這在業(yè)務(wù)部門看來(lái),顯然是無(wú)法接受的——它無(wú)法面向一個(gè)充滿挑戰(zhàn)的AI時(shí)代。

和解決丟包問(wèn)題一樣,華為將問(wèn)題“交還”給了AI,期待自動(dòng)駕駛網(wǎng)絡(luò)能夠徹底改變運(yùn)維人員面對(duì)的窘境。

現(xiàn)實(shí)中,汽車領(lǐng)域的自動(dòng)駕駛技術(shù)正經(jīng)歷著高速的演進(jìn),要在網(wǎng)絡(luò)世界實(shí)現(xiàn)自動(dòng)駕駛,進(jìn)程同樣存在,一步到位并不現(xiàn)實(shí)。在這一點(diǎn)上,胡克文相當(dāng)樂(lè)觀:只要有夢(mèng)想和追求,未來(lái)就一定能實(shí)現(xiàn)。

“首先,能不能做到在秒級(jí)(時(shí)長(zhǎng))中把故障識(shí)別出來(lái)?(那樣,IT人員的)壓力就會(huì)小很多。”他說(shuō)。

要實(shí)現(xiàn)自動(dòng)駕駛網(wǎng)絡(luò),供應(yīng)商至少要在算法、數(shù)據(jù)和本地推理與執(zhí)行等領(lǐng)域同步推進(jìn),并在軟硬件技術(shù)端實(shí)現(xiàn)AI的閉環(huán)。

據(jù)胡克文透露,目前華為相關(guān)的iNetOps智能運(yùn)維算法已經(jīng)可以支持72大類典型故障,在盲測(cè)中,它支持的故障定位準(zhǔn)確率超過(guò)了90%.

結(jié)合這些軟實(shí)力,以及內(nèi)置AI芯片提供的硬支持,華為最終在CloudEngine 16800中大幅度提升了“網(wǎng)絡(luò)邊緣”即設(shè)備級(jí)的智能化水平,使得交換機(jī)具備了本地推理和實(shí)時(shí)快速?zèng)Q策的能力。通過(guò)本地智能和集中的FabricInsight網(wǎng)絡(luò)分析器,CloudEngine 16800構(gòu)建了一個(gè)分布式AI運(yùn)維架構(gòu),并最終實(shí)現(xiàn)了秒級(jí)故障識(shí)別和分鐘級(jí)故障自動(dòng)定位。

這一系列的努力,最終讓CloudEngine 16800在AI時(shí)代背景下展現(xiàn)出了它與眾不同的一面。

在同一背景下,數(shù)據(jù)中心已經(jīng)成為了AI的“孵化工廠”;現(xiàn)在,要讓這個(gè)AI在企業(yè)數(shù)字化轉(zhuǎn)型中扮演更為重要的角色,“孵化工廠”的升級(jí)也已進(jìn)入了時(shí)間的節(jié)點(diǎn)。

或許,就像華為所努力的方向一樣,“孵化工廠們”也是時(shí)候考慮如何建設(shè)一個(gè)自動(dòng)駕駛的高性能網(wǎng)絡(luò)來(lái)提升AI算力,并最終實(shí)現(xiàn)AI業(yè)務(wù)的加速了。畢竟,AI時(shí)代的網(wǎng)絡(luò),斷然不會(huì)接受“茍且”。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)