數(shù)據(jù)中心網(wǎng)絡(luò),作為互聯(lián)網(wǎng)業(yè)務(wù)賴以生存和發(fā)展的基礎(chǔ)設(shè)施,早已從最初的千兆、萬(wàn)兆網(wǎng)絡(luò),走到了“25G接入+100G互聯(lián)”規(guī)模部署的階段。
100G互聯(lián):全盒架構(gòu)被大型互聯(lián)網(wǎng)企業(yè)看重
“25G接入+100G互聯(lián)”的架構(gòu)下,數(shù)據(jù)中心網(wǎng)絡(luò)通過(guò)三級(jí)組網(wǎng)實(shí)現(xiàn)大規(guī)模接入,單集群服務(wù)器規(guī)??梢猿^(guò)10萬(wàn)臺(tái)。
如下圖所示,基于T1和T2層的Pod可以像樂(lè)高積木一樣靈活擴(kuò)展,按需建設(shè)。
圖1:右側(cè)引用自 https://techblog.comsoc.org/2019/03/18/facebooks-f16-achieves-400g-effective-intra-dc-speeds-using-100ge-fabric-switches-and-100g-optics-other-hyperscalers/
隨著大容量轉(zhuǎn)發(fā)芯片的能力提升以及100G光互聯(lián)成本的降低,市場(chǎng)上出現(xiàn)了單芯片交換機(jī)設(shè)備構(gòu)建100G互聯(lián)的全盒式設(shè)備組網(wǎng)方案。這種單芯片多平面的互聯(lián)方案,以12.8T芯片為典型代表,單芯片可提供128x100G的端口密度,單個(gè)POD可提供2000臺(tái)服務(wù)器的接入能力。
圖2:典型128口100GE高密盒式交換機(jī)
全盒式設(shè)備組網(wǎng)方案,相對(duì)傳統(tǒng)框盒設(shè)備方案,雖然網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量和設(shè)備間的光互聯(lián)模塊數(shù)量有所增加,帶來(lái)了運(yùn)維工作量的增長(zhǎng),但因引入了高性能轉(zhuǎn)發(fā)芯片,有效降低了數(shù)據(jù)中心網(wǎng)絡(luò)端口的單比特成本,對(duì)大型互聯(lián)網(wǎng)企業(yè)吸引力很強(qiáng)。大型互聯(lián)網(wǎng)企業(yè)一方面快速引入100G全盒架構(gòu),以降低網(wǎng)絡(luò)建設(shè)成本,另一方面基于自身較強(qiáng)的研發(fā)能力,提升網(wǎng)絡(luò)自動(dòng)化部署和維護(hù)水平來(lái)應(yīng)對(duì)運(yùn)維工作量增長(zhǎng)挑戰(zhàn)。
因此,大型互聯(lián)網(wǎng)企業(yè)對(duì)于100G網(wǎng)絡(luò)方案思路趨同,全盒設(shè)備組網(wǎng)成為100GE網(wǎng)絡(luò)架構(gòu)演進(jìn)的基座。
網(wǎng)絡(luò)提速成為必然,誰(shuí)會(huì)是下一站?
25G接入+100G互聯(lián)網(wǎng)絡(luò)方案促成芯片選型的統(tǒng)一和快速上量,充分說(shuō)明了技術(shù)紅利驅(qū)動(dòng)了IDC網(wǎng)絡(luò)架構(gòu)的快速演進(jìn)。隨著單芯片網(wǎng)絡(luò)產(chǎn)品的推出,100G代際的技術(shù)紅利也已經(jīng)得到了完全的獲取。
在當(dāng)前業(yè)務(wù)持續(xù)快速發(fā)展的背景下,帶寬升級(jí)成為必然。一個(gè)選擇題擺到了企業(yè)面前:選200G還是400G?
網(wǎng)絡(luò)從來(lái)都不是孤立的存在,產(chǎn)業(yè)的環(huán)境是決定技術(shù)是否能夠成長(zhǎng)、成熟的大土壤。
我們先從網(wǎng)絡(luò)標(biāo)準(zhǔn)、服務(wù)器和光模塊三方面審視下200G和400G的產(chǎn)業(yè)現(xiàn)狀。
200G vs 400G標(biāo)準(zhǔn):協(xié)議標(biāo)準(zhǔn)均已成熟
在IEEE 協(xié)議標(biāo)準(zhǔn)演進(jìn)過(guò)程中,200G標(biāo)準(zhǔn)啟動(dòng)晚于400G標(biāo)準(zhǔn)。
IEEE 802.3以太網(wǎng)工作組(Working Group)在完成BWA I(Bandwidth Assessment I)項(xiàng)目調(diào)研后,于2013年立項(xiàng)制定400G標(biāo)準(zhǔn)。2015年,為了進(jìn)一步擴(kuò)展市場(chǎng)范圍納入50G服務(wù)器和200G交換機(jī)規(guī)格,IEEE成立802.3cd項(xiàng)目,啟動(dòng)制定200G標(biāo)準(zhǔn)。
因200G與400G規(guī)格具備相關(guān)性, 200G單模規(guī)格最終納入了802.3bs項(xiàng)目。屆時(shí),400G已經(jīng)基本完成PCS、PMA、PMD的主要設(shè)計(jì),200G單模規(guī)格總體上是基于400G單模規(guī)格減半制定。
2017年12月6日,IEEE 802最終批準(zhǔn)IEEE 802.3bs 400G以太標(biāo)準(zhǔn)規(guī)范,包含400G以太和200G以太單模,標(biāo)準(zhǔn)正式發(fā)布。IEEE 802.3cd 定義了200G以太多模的標(biāo)準(zhǔn),于2018年12月正式發(fā)布。
圖3:IEEE 802.3bs 400GE 標(biāo)準(zhǔn)關(guān)鍵里程碑,引自http://www.ieee802.org/3/bs/timeline_3bs_0915.pdf
如下表所見,400G已實(shí)現(xiàn)全場(chǎng)景的標(biāo)準(zhǔn)支持,包括100m、500m、2km和長(zhǎng)距80km。
50G vs 100G服務(wù)器:100G服務(wù)器將會(huì)成為主流
圖4:分析師機(jī)構(gòu)對(duì)網(wǎng)卡和服務(wù)器的發(fā)貨趨勢(shì)預(yù)測(cè)
根據(jù)分析師機(jī)構(gòu)CREHAN的預(yù)測(cè),截止2019年,50G和100G網(wǎng)卡都已經(jīng)啟動(dòng)發(fā)貨。25G網(wǎng)卡的下一代升級(jí)選擇上,整個(gè)產(chǎn)業(yè)在2018和2019年存在著搖擺。2019年50G和100G服務(wù)器發(fā)貨量產(chǎn)生了逆轉(zhuǎn),但2020年后100G服務(wù)器的勢(shì)頭全面超越了50G服務(wù)器,產(chǎn)業(yè)又開始對(duì)100G服務(wù)器充滿信心。
從CPU芯片來(lái)看,兩家主流廠商I廠和A廠都陸續(xù)推出了新的產(chǎn)品路標(biāo)。I廠支持PCIe 4.0的芯片將于2020年Q3推出,主流I/O達(dá)到50G,高端應(yīng)用時(shí)IO達(dá)到100G/200G。兩家巨頭預(yù)計(jì)將在2021年H1分別推出支持PCIe5.0的芯片,再次將主流I/O提高到100G,高端應(yīng)用時(shí)IO可達(dá)到400G。
因此,CPU芯片節(jié)奏和服務(wù)器發(fā)貨預(yù)測(cè)均顯示出50G曇花一現(xiàn),100G服務(wù)器正快速成為主流。
200G vs 400G光模塊:400G成本更優(yōu),產(chǎn)業(yè)更成熟
數(shù)據(jù)中心接入服務(wù)器從25G向100G演進(jìn),那么當(dāng)前的100G互聯(lián)網(wǎng)絡(luò)應(yīng)該選擇200G還是400G呢?
從上表可以看出,當(dāng)數(shù)據(jù)中心從10G服務(wù)器演進(jìn)到25G,網(wǎng)絡(luò)互聯(lián)從40G升級(jí)到100G,網(wǎng)絡(luò)帶寬增長(zhǎng)一倍,但互聯(lián)成本、功耗卻保持不變,即Gbit互聯(lián)成本與功耗下降一半。所以100GE取代40GE成為25GE時(shí)代的主流網(wǎng)絡(luò)互聯(lián)方案。
200GE和400GE光模塊與以往有點(diǎn)不同。傳統(tǒng)光模塊采用NRZ(Non-Return-to-Zero)的信號(hào)傳輸技術(shù),采用高、低兩種信號(hào)電平表示數(shù)字邏輯信號(hào)的0、1,每個(gè)時(shí)鐘周期可以傳輸1bit的邏輯信息。而200G和400G光模塊皆采用了高階調(diào)制技術(shù)——PAM4(Pulse Amplitude Modulation 4四階脈沖幅度調(diào)制)。PAM4信號(hào)采用4個(gè)不同的信號(hào)電平進(jìn)行信號(hào)傳輸,每個(gè)時(shí)鐘周期可以傳輸2bit的邏輯信息,即00、01、10、11。
因此,在同樣波特率條件下,PAM4信號(hào)比特速率是NRZ信號(hào)的2倍,傳輸效率提高一倍,有效降低Gbit成本。從光模塊構(gòu)成看,200G和400G模塊都是采用4-lane的主流架構(gòu),所以模塊設(shè)計(jì)成本、功耗趨同。
因?yàn)?00G模塊的帶寬是200G的兩倍,所以Gbit成本和功耗是200G的一半。
另一方面,模塊成本除了架構(gòu)設(shè)計(jì),也取決于規(guī)模上量的規(guī)模。根據(jù)第三方咨詢公司Omdia (原OVUM)的發(fā)貨數(shù)據(jù), 對(duì)TOP8供應(yīng)商當(dāng)前在200G、400G模塊的布局梳理如下。
如上圖所示,200G的模塊種類只有100m SR4和2km FR4兩種,其中100m SR4只有兩家供應(yīng)商。反觀400G的模塊種類達(dá)到了5種,TOP8廠商皆對(duì)100m、500m和2km模塊進(jìn)行了布局。400G的產(chǎn)業(yè)成熟度遠(yuǎn)勝于200G,客戶的選擇也更為豐富。
這一分析結(jié)果也進(jìn)一步說(shuō)明了由于PAM4技術(shù)的引入,存在成本和功耗的技術(shù)代價(jià)。對(duì)在成本、功耗敏感的數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域,產(chǎn)業(yè)迫切期望跨過(guò)200G邁入400G來(lái)吸納這個(gè)代價(jià)。采用同樣技術(shù)和成本構(gòu)成的400G在演進(jìn)方面更具競(jìng)爭(zhēng)力。
小結(jié):400G接檔勢(shì)頭明顯,200G一代或?qū)⑻^(guò)
數(shù)據(jù)中心網(wǎng)絡(luò)是服務(wù)于業(yè)務(wù)的存在。從業(yè)務(wù)驅(qū)動(dòng)上看,高速增長(zhǎng)的數(shù)字化建設(shè)將推動(dòng)100G服務(wù)器在2020年快速起量,并成為主流。從成本上看,由于數(shù)據(jù)中心光器件成本占整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備成本的一半以上,由于PAM4技術(shù)的引入,400G光器件單Bit成本比200G光模塊更具優(yōu)勢(shì),光模塊部署成本將直接帶動(dòng)整個(gè)整體建網(wǎng)成本的下降。
從總體上看,400G接檔勢(shì)頭明顯,200G代際或成為臨時(shí)過(guò)渡或被直接跳過(guò)。