如何降低數(shù)據(jù)中心高速光模塊故障率

責(zé)任編輯:cres

作者:harbor

2019-03-28 13:31:14

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

5G、大數(shù)據(jù)、人工智能等技術(shù)都對數(shù)據(jù)處理和網(wǎng)絡(luò)帶寬有了更高要求,數(shù)據(jù)中心需要不斷提升網(wǎng)絡(luò)帶寬去滿足,所以數(shù)據(jù)中心這段時(shí)間對提升網(wǎng)絡(luò)帶寬有迫切需求,尤其是互聯(lián)網(wǎng)的數(shù)據(jù)中心。

5G、大數(shù)據(jù)、人工智能等技術(shù)都對數(shù)據(jù)處理和網(wǎng)絡(luò)帶寬有了更高要求,數(shù)據(jù)中心需要不斷提升網(wǎng)絡(luò)帶寬去滿足,所以數(shù)據(jù)中心這段時(shí)間對提升網(wǎng)絡(luò)帶寬有迫切需求,尤其是互聯(lián)網(wǎng)的數(shù)據(jù)中心。提升網(wǎng)絡(luò)帶寬最直接的方式就是提升單端口的網(wǎng)絡(luò)帶寬,從40G提升到100G,從100G到200G,甚至更高,從而將整個(gè)數(shù)據(jù)中心的帶寬提升起來。已經(jīng)有專家預(yù)測,大多數(shù)400GbE部署將在2019年開始,400GbE交換機(jī)將作為超大規(guī)模數(shù)據(jù)中心的脊柱或核心交換機(jī),以及私有和公共云數(shù)據(jù)中心的脊柱或主干交換機(jī)啟動,要知道100G也才普及兩三年,現(xiàn)在就要過渡到400G,網(wǎng)絡(luò)帶寬提升速度越來越快。
 
一面是數(shù)據(jù)中心對高速模塊的強(qiáng)烈需求,一面是模塊故障率居高不下。相比1G、10G,40G、100G甚至200G,直觀感受故障率要高得多。當(dāng)然,這些高速模塊的工藝復(fù)雜度遠(yuǎn)比低速高,比如一個(gè)40G光模塊,本質(zhì)上就是通過4個(gè)10G通道綁定起來,同時(shí)工作實(shí)現(xiàn)的,相當(dāng)于4個(gè)10G在工作,只要有一路有問題,整個(gè)40G就無法再用了,故障率當(dāng)然要比10G高,而且光模塊還要實(shí)現(xiàn)4條光路的協(xié)調(diào)工作,出錯概率自然更高。100G更是如此,有的就是通過10個(gè)10G通道綁定起來,還有的采用新的光技術(shù),這些都會增加出錯可能。更高速率的更不用提了,技術(shù)成熟度上就不高,像400G仍是實(shí)驗(yàn)室里的技術(shù),2019年就要推向市場,必然出現(xiàn)一次故障率的小高潮,好在剛開始用量不會很多,隨著技術(shù)的不斷提升,相信也會像低俗模塊那樣逐漸穩(wěn)定。試想20年前拿到GBIC的1G光模塊去用,和現(xiàn)在用200G的感覺差不多,新品短期內(nèi)故障率升高是必然。
 
好在,光模塊的故障對業(yè)務(wù)沖擊較小,數(shù)據(jù)中心的鏈路都是有冗余備份的,一條鏈路光模塊出問題,業(yè)務(wù)可走其它鏈路,如果是CRC錯包也可通過網(wǎng)管立即發(fā)現(xiàn),及早做更換處理,所以光模塊故障很少對業(yè)務(wù)有較大影響,極少數(shù)情況下,可能因?yàn)楣饽K引發(fā)設(shè)備端口故障,從而導(dǎo)致整個(gè)設(shè)備掛掉的情況,這種情況多是設(shè)備實(shí)現(xiàn)不合理導(dǎo)致的,很少出現(xiàn),絕大多數(shù)的光模塊和設(shè)備之間是松耦合的,雖然連接在一起,并沒有耦合關(guān)系。所以雖然高速光模塊使用中壞的比較多,但對業(yè)務(wù)沖擊也沒那么大,一般不會引起人們重視,發(fā)現(xiàn)故障直接更換掉,高速光模塊的維保時(shí)間也長,故障了基本是免費(fèi)的更換,損失也不大。
 
光模塊的故障多表現(xiàn)在端口無法UP、光模塊無法識別、端口CRC錯包等現(xiàn)象,這些故障與設(shè)備側(cè)、光模塊本身和鏈路質(zhì)量都有些關(guān)系,尤其是錯報(bào)和無法UP,很難從軟件技術(shù)上判斷故障位置。有些還是適配類的問題,雙方都沒有問題,只不過相互之間沒有調(diào)試和適配過,導(dǎo)致無法在一起工作,這種情況還不少,所以不少的網(wǎng)絡(luò)設(shè)備都會給出適配的光模塊清單,要求客戶用自己適配過的光模塊,這樣才能保證穩(wěn)定可用。若遇到了故障,最好用的方法依然是輪換測試,換鏈路光纖、換模塊,換端口,通過這一系列測試確認(rèn)到底是光模塊問題,還是鏈路或設(shè)備端口問題,好在一般這類故障現(xiàn)象比較確定,遇到那種故障現(xiàn)象不固定的就難處理了。比如端口上有CRC錯包,將光模塊直接拔出來換一個(gè)新的,故障現(xiàn)象消失,再將原來的光模塊換回來,故障不再復(fù)現(xiàn),這就不好判斷到底是不是光模塊問題。這種情況在實(shí)際使用中也會經(jīng)常碰到,這讓人難做判斷。
 
如何降低光模塊的故障率?第一,抓好源頭,更高帶寬的光模塊不要急于推向市場,要做好充分的實(shí)驗(yàn),而且高速模塊需要相應(yīng)的設(shè)備配套實(shí)現(xiàn),這些技術(shù)也需要完善才能成熟,新的高速模塊要平滑地引入市場,不要簡單地追求高速,現(xiàn)在網(wǎng)絡(luò)設(shè)備都支持多端口捆綁,400G不行,就用4個(gè)100G捆綁也可以滿足需求;第二,抓好高速光模塊的引入,網(wǎng)絡(luò)設(shè)備商和數(shù)據(jù)中心客戶,在引入高速光模塊上要慎重,增加對高速光模塊的嚴(yán)格測試,堅(jiān)決過濾質(zhì)量上有缺陷的產(chǎn)品?,F(xiàn)在市面上高速光模塊市場競爭也比較激烈,都希望在新的高速模塊上搶占先機(jī),但質(zhì)量和價(jià)格參差不齊,這就需要網(wǎng)絡(luò)設(shè)備商和數(shù)據(jù)中心客戶能加大考核力度,越是速率高的模塊,越增加驗(yàn)證的復(fù)雜度;第三,光模塊其實(shí)是一個(gè)集成度特別高的器件,露在外面的光纖通道和內(nèi)部器件都比較脆弱,使用時(shí)要輕拿輕放,帶上干凈手套,避免落入灰塵,這些也會降低使用故障率,不用的光模塊要帶好光纖帽,放在袋子里。第四,盡量少的出現(xiàn)極限情況,比如100G的光模塊長期在接近限速的情況下使用,200米距離的光模塊,偏偏要在200米距離使用,這些極限邊界值使用對光模塊的損耗較大,它就像人一樣,人在24~26度的空調(diào)房里工作,工作效率就高,到了35度外面的高溫環(huán)境,注意力無法長時(shí)間集中,工作效率極低,到了40度以上,人都快中暑了還怎么工作。為光模塊提供一個(gè)令其舒適的環(huán)境,能夠有效延長光模塊的使用壽命。
 
隨著海量數(shù)據(jù)的增長,數(shù)據(jù)中心帶寬需求越來越高,引入更高速的光模塊成了必由之路,必須控制好其質(zhì)量的問題。如果新的高速模塊在市場上頻繁碰壁,也難逃被淘汰的結(jié)果。當(dāng)然,任何一種新技術(shù)都有一個(gè)走向成熟的過程,高速光模塊也不例外,需要不斷地技術(shù)創(chuàng)新,解決各種問題,提升模塊質(zhì)量,降低故障概率。高速光模塊是模塊廠商的利潤引擎,是歷代模塊廠商的必爭之地,必須要嚴(yán)控質(zhì)量關(guān)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號