數(shù)據(jù)中心網(wǎng)絡(luò)里的鏈路檢測(cè)技術(shù)漫談

責(zé)任編輯:cres

作者:harbor

2017-01-19 09:15:49

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

鏈路故障是數(shù)據(jù)中心遇到的一種非常常見(jiàn)的故障類(lèi)型。如果在數(shù)據(jù)中心內(nèi)部,很好辦,通過(guò)增加鏈路備份的方式,提升可靠性,一般分布在不同網(wǎng)絡(luò)設(shè)備上,相互之間盡量隔離,這樣當(dāng)一側(cè)鏈路出現(xiàn)故障時(shí),業(yè)務(wù)及時(shí)切到另外一側(cè)來(lái),這個(gè)鏈路可以是兩條也可以是多條,越多可靠性越高。

2017年1月14日,Ucloud云北京B區(qū)的業(yè)務(wù)發(fā)生了中斷,中斷的原因是運(yùn)營(yíng)商施工原因?qū)е翨區(qū)數(shù)據(jù)中心機(jī)房到北京核心匯聚點(diǎn)的兩對(duì)光纖同時(shí)被挖斷,導(dǎo)致業(yè)務(wù)中斷。這讓人想起了2015年5月的支付寶業(yè)務(wù)中斷事件,也是運(yùn)營(yíng)商網(wǎng)絡(luò)光纖被施工挖斷導(dǎo)致,當(dāng)時(shí)是四條大對(duì)數(shù)光纜中斷?;ミB的光纖鏈路出現(xiàn)中斷這類(lèi)突發(fā)事件,如果沒(méi)有一些備份和監(jiān)控措施,就會(huì)導(dǎo)致業(yè)務(wù)受到影響。實(shí)際上,在數(shù)據(jù)中心內(nèi)外部,類(lèi)似于這樣的鏈路故障問(wèn)題時(shí)有發(fā)生,只不過(guò)這兩個(gè)例子是影響比較大的。那么,數(shù)據(jù)中心怎么才能提前做好鏈路檢測(cè)工作,避免發(fā)生類(lèi)似問(wèn)題呢?
 
鏈路故障是數(shù)據(jù)中心遇到的一種非常常見(jiàn)的故障類(lèi)型。如果在數(shù)據(jù)中心內(nèi)部,很好辦,通過(guò)增加鏈路備份的方式,提升可靠性,一般分布在不同網(wǎng)絡(luò)設(shè)備上,相互之間盡量隔離,這樣當(dāng)一側(cè)鏈路出現(xiàn)故障時(shí),業(yè)務(wù)及時(shí)切到另外一側(cè)來(lái),這個(gè)鏈路可以是兩條也可以是多條,越多可靠性越高。最常見(jiàn)的方式是采用聚合的方式,其中有幾條或數(shù)條有問(wèn)題時(shí),業(yè)務(wù)也可以切換到正常鏈路上來(lái)。如果在數(shù)據(jù)中心外部,尤其是租用運(yùn)營(yíng)商的線路,這個(gè)外部環(huán)境并不是數(shù)據(jù)中心能夠控制的。如果在財(cái)力允許的情況下,可以租用多條鏈路。單條鏈路出故障,業(yè)務(wù)還可以走其它的鏈路。不過(guò)像Ucloud和支付寶都是有備份鏈路的,支付寶甚至有四條鏈路,只要有一條鏈路不斷,業(yè)務(wù)也不至于全斷??上У氖撬臈l全斷的事件還是發(fā)生了,這時(shí)能夠救數(shù)據(jù)中心的方式只能是有異地?cái)?shù)據(jù)中心或者災(zāi)備數(shù)據(jù)中心,當(dāng)正在運(yùn)行的數(shù)據(jù)中心外部鏈路全部中斷時(shí),業(yè)務(wù)可以及時(shí)遷移到其它數(shù)據(jù)中心,保持業(yè)務(wù)不受影響。這也是建立災(zāi)備數(shù)據(jù)中心的重要性所在,如果說(shuō)Ucloud和支付寶提前有完整的異地災(zāi)備系統(tǒng),業(yè)務(wù)不至于中斷這么久。平時(shí)在數(shù)據(jù)中心和災(zāi)備數(shù)據(jù)中心之間有實(shí)時(shí)的備份流量,一旦主用數(shù)據(jù)中心發(fā)生故障,應(yīng)用自動(dòng)切換到災(zāi)備數(shù)據(jù)中心上運(yùn)行,切換過(guò)程非常短暫,對(duì)業(yè)務(wù)的影響微乎其微。
 
僅有各種鏈路的備份,數(shù)據(jù)中心的備份還不夠,最為關(guān)鍵的是要有能檢測(cè)到鏈路故障的手段,并根據(jù)這些檢測(cè)結(jié)果去自動(dòng)執(zhí)行應(yīng)用業(yè)務(wù)的切換動(dòng)作。首先,數(shù)據(jù)中心都有網(wǎng)管監(jiān)控系統(tǒng),當(dāng)出現(xiàn)鏈路的DOWN事件時(shí),在網(wǎng)管中心就可以監(jiān)測(cè)到,網(wǎng)管中心可以根據(jù)鏈路DOWN的位置和數(shù)量,人工或自動(dòng)的方式進(jìn)行鏈路切換或者業(yè)務(wù)切換。人工的方式就是通過(guò)檢查鏈路DOWN的故障位置,進(jìn)行有針對(duì)性的業(yè)務(wù)切換,自動(dòng)的方式就是通過(guò)鏈路DOWN事件與系統(tǒng)提前設(shè)置好的動(dòng)作聯(lián)動(dòng)起來(lái),根據(jù)不同位置的鏈路DOWN有不同的應(yīng)急預(yù)案,只要系統(tǒng)自動(dòng)執(zhí)行即可恢復(fù)業(yè)務(wù)。其次,很多時(shí)候互連鏈路中間可以經(jīng)過(guò)光傳輸設(shè)備(主要在數(shù)據(jù)中心外部或者跨數(shù)據(jù)中心之間),這樣一端鏈路即使DOWN了,另一側(cè)并不能感知到,就需要部署一些檢測(cè)協(xié)議來(lái)感知。常見(jiàn)的有聚合LACP協(xié)議、DLDP協(xié)議、OAM協(xié)議,LACP協(xié)議如果采用慢速的檢測(cè),30秒才發(fā)送一個(gè)探測(cè)包,90秒超時(shí),所以切換速度是比較慢的,當(dāng)然可以將這個(gè)配置為快速檢測(cè),最快1秒發(fā)送一個(gè)探測(cè)包,3秒超時(shí),這樣能夠在幾秒鐘的時(shí)間里完成鏈路切換。有的時(shí)候如果不是聚合備份關(guān)系,這時(shí)就要借助DLDP協(xié)議,DLDP協(xié)議本是檢測(cè)單光纖不通鏈路故障的,如果采用DLDP,當(dāng)協(xié)議超時(shí)后迅速對(duì)端口做SHUTDOWN操作,這樣云管理平臺(tái)就可以感知到端口DOWN,采取修復(fù)動(dòng)作。OAM協(xié)議同樣是鏈路檢測(cè)協(xié)議,是物理鏈路層的協(xié)議,所以開(kāi)銷(xiāo)更小,檢測(cè)速度更快,而且動(dòng)作豐富,可以告警,可以DOWN端口,可以和其它協(xié)議聯(lián)動(dòng)。第三,要有災(zāi)備的數(shù)據(jù)中心。如果是數(shù)據(jù)中心內(nèi)部的DOWN,業(yè)務(wù)影響范圍還不是特別廣,但如果是數(shù)據(jù)中心與外部互連的端口出現(xiàn)了DOWN,嚴(yán)重時(shí)導(dǎo)致整個(gè)數(shù)據(jù)中心無(wú)法運(yùn)轉(zhuǎn),這時(shí)就要啟用災(zāi)備數(shù)據(jù)中心。將應(yīng)用業(yè)務(wù)切換到災(zāi)備數(shù)據(jù)中心,由災(zāi)備數(shù)據(jù)中心接管業(yè)務(wù)。在主業(yè)務(wù)數(shù)據(jù)中心和災(zāi)備數(shù)據(jù)中心之間要有實(shí)時(shí)的業(yè)務(wù)備份,同時(shí)還有一套共同的管理平臺(tái),確保在數(shù)據(jù)中心故障時(shí),業(yè)務(wù)可以平滑切換到災(zāi)備數(shù)據(jù)中心,這里通常采用的還是路由切換的方式,通過(guò)調(diào)整路由將業(yè)務(wù)流量引入災(zāi)備數(shù)據(jù)中心。要實(shí)現(xiàn)這個(gè)過(guò)程還是比較復(fù)雜的,要對(duì)多個(gè)數(shù)據(jù)中心的業(yè)務(wù)模型了如指掌,需要做業(yè)務(wù)遷移的時(shí)候,通過(guò)調(diào)整路由將業(yè)務(wù)切換到災(zāi)備數(shù)據(jù)中心。第四,調(diào)整路由有時(shí)還是太慢了,也容易出錯(cuò),這時(shí)就出現(xiàn)了VXLAN技術(shù),VXLAN技術(shù)將多個(gè)數(shù)據(jù)中心大二層打通,不同數(shù)據(jù)中心內(nèi)部的虛擬機(jī)可以向其它數(shù)據(jù)中心自如遷移(所謂遷移指的是二層轉(zhuǎn)發(fā))。這樣當(dāng)一個(gè)數(shù)據(jù)中心故障時(shí),所有的虛擬機(jī)業(yè)務(wù)可以全部遷移到災(zāi)備數(shù)據(jù)中心,整個(gè)過(guò)程在業(yè)務(wù)層面都無(wú)感知,切換速度快,調(diào)整簡(jiǎn)單,而且很多時(shí)候這種遷移是系統(tǒng)自動(dòng)完成,不需要人為參與的。
 
數(shù)據(jù)中心里有很多鏈路檢測(cè)和切換的方法,目的就是應(yīng)對(duì)突發(fā)的鏈路故障對(duì)業(yè)務(wù)的沖擊。當(dāng)然,什么事情都是過(guò)猶不及,對(duì)于核心的網(wǎng)絡(luò)設(shè)備,往往含有的端口數(shù)百甚至上千,這么多端口如果同時(shí)都做檢測(cè),設(shè)備會(huì)疲于處理各個(gè)端口上送的數(shù)量龐大的檢測(cè)報(bào)文,給設(shè)備CPU造成負(fù)擔(dān),所以鏈路檢測(cè)是否要部署,都部署到哪些端口上,具體采用哪些檢測(cè)協(xié)議和方法,都需要具體問(wèn)題具體分析,按照每個(gè)數(shù)據(jù)中心自己的業(yè)務(wù)需求來(lái)部署,盡量以不增加設(shè)備負(fù)擔(dān),同時(shí)能夠達(dá)到檢測(cè)目的為好。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)