最終用戶數(shù)量的增長使現(xiàn)代企業(yè)面臨越來越大的網(wǎng)絡(luò)中斷風險——再加上有越來越多的業(yè)務(wù)在線上完成,因此這個問題的嚴峻性達到前所未的高度。
網(wǎng)絡(luò)中斷可能導(dǎo)致單位損失巨額資金和嚴重損害他們的名聲。西南航空和達美航空去年夏天遇到的重大網(wǎng)絡(luò)中斷事故,就是很好的例子。西南航空的網(wǎng)絡(luò)中斷造成的公司損失達到5400萬美元,而達美航空則因為停電事故付出了1.5億美元的代價。
行業(yè)專家指出,這兩家航空公司一直在努力向他們的客戶交付更加先進的技術(shù)服務(wù),這使他們面臨網(wǎng)絡(luò)問題帶來的風險。所有航線的旅客都會在線預(yù)計機票,然后希望通過手機接收他們的機票,這給訂票和出票系統(tǒng)及企業(yè)網(wǎng)絡(luò)帶來很大的壓力。
雖然這兩家航空公司所遇到的事件較為引人關(guān)注,但是網(wǎng)絡(luò)中斷并不是唯一可能遇到的問題。大多數(shù)其他行業(yè)的應(yīng)用也一樣會面臨網(wǎng)絡(luò)壓力,而中斷問題可能并確實發(fā)生在許多類型的組織中——大銀行、電信運營商、云提供商和大學(xué)等。Salesforce曾經(jīng)因為一天的中斷而損失2000萬美元。
最佳實踐
網(wǎng)絡(luò)分析師指出,采用以下的標準最佳實踐方法,可以幫助組織降低網(wǎng)絡(luò)中斷的壓力。
負責Enterprise Strategy Group網(wǎng)絡(luò)技術(shù)的分析師Dan Conde說:“在西南航空的案例中,有一臺路由器宕機了,這實際上是不應(yīng)該發(fā)生的問題。”
Conde指出,公司需要考慮核心基礎(chǔ)架構(gòu)3至5年的更新周期,并且關(guān)注內(nèi)置冗余性。此外,他們應(yīng)該利用支持網(wǎng)絡(luò)可見性的現(xiàn)代網(wǎng)絡(luò)管理工具。
德克薩斯州奧斯丁的圣愛德華大學(xué)數(shù)字基礎(chǔ)架構(gòu)副主管Roberto Dovalina指出,這正是他們團隊所做的事情。他和同事一起負責支持大約5,500名學(xué)生和1,200職員和員工。
Dovalina說,他們在圣愛德華大學(xué)的數(shù)據(jù)中心部署了冗余核心路由器、防火墻和服務(wù)器機架,他們每隔3至5年就會更換一次設(shè)備。此外,他們每隔5至7年會更換支持校園建筑的12臺路由器。
通過部署冗余基礎(chǔ)架構(gòu),圣愛德華大學(xué)可以周期性將一些設(shè)備關(guān)閉半天,然后進行網(wǎng)絡(luò)測試。
此外,他們還在系統(tǒng)中開發(fā)了情報邏輯和腳本,這樣當核心路由器宕機時,他們就可以啟用1臺或2臺備用路由器,從而保證所有程序都不受到宕機的影響。
防止網(wǎng)絡(luò)中斷的最佳實踐
下面是ESG的Dan Conde提出的防止網(wǎng)絡(luò)中斷的9個步驟:
1. 端到端地遵從這些最佳實踐。網(wǎng)絡(luò)最薄弱環(huán)節(jié)決定了網(wǎng)絡(luò)的強度。
2. 從基礎(chǔ)做起。維護硬件,避開舊系統(tǒng),運行診斷程序,配置合適電源和備用電源,運行電源系統(tǒng)壓力測試。
3. 測試整個系統(tǒng)。切斷一些鏈路,測試故障恢復(fù)是否正確執(zhí)行。如果沒有,則可能有配置問題。
4. 盡可能使用路由器備用協(xié)議。一定要在不同路由器層次之間配置冗余鏈路——并且使用虛擬路由冗余協(xié)議(Virtual Router Redundancy Protocol)或熱備路由協(xié)議(Hot Standby Router Protocol)等協(xié)議,從而使備用路由器能夠在主路由器出現(xiàn)問題時接管負載。
5. 與ISP使用。部署來自網(wǎng)絡(luò)運營商的替代路徑。此外,購買足夠多的帶寬,從而保證備用路徑用完時,它們舉造成級聯(lián)故障。
6. 使用更新的網(wǎng)絡(luò)管理工具。一直使用正確的網(wǎng)絡(luò)可見性和監(jiān)控工具,包括分析和應(yīng)用部署測試時期。這個部分至關(guān)重要,也是服務(wù)保證的關(guān)鍵——如果不發(fā)現(xiàn)問題,就不知道如何解決問題。
7. 要考慮應(yīng)用層。要設(shè)計整個架構(gòu),使基礎(chǔ)架構(gòu)與應(yīng)用程序協(xié)調(diào)工作。不要強迫應(yīng)用去適應(yīng)已有的基礎(chǔ)架構(gòu)——要先設(shè)計應(yīng)用的架構(gòu),然后再設(shè)計基礎(chǔ)架構(gòu),使之符合應(yīng)用需求。要整體地看待這兩個部分。
8. 要全面。要檢查鏈路故障和設(shè)備故障。不要只關(guān)注成本,而忽視其他方面。
9. 保持跟蹤。如果遇到故障,無論是在真實環(huán)境或是測試環(huán)境中,都要執(zhí)行全面的事后分析。
Dovalina解釋說:“在網(wǎng)絡(luò)中斷之后修復(fù)網(wǎng)絡(luò)是很簡單且不需要花費很多的時間。但是將應(yīng)用程序恢復(fù)回中斷之前的狀態(tài)則最耗費時間。因此,使用情報邏輯和腳本將應(yīng)用程序自動恢復(fù)回之前狀態(tài),我們就可以非??焖俚貙⑾到y(tǒng)恢復(fù)回正常狀態(tài)。在一些設(shè)備宕機時,用戶幾乎感覺不到斷網(wǎng)的情況。”
“不能破壞任何東西”
根據(jù)Dimension Data的2016 Network Barometer報告,有37%的網(wǎng)絡(luò)服務(wù)意外事件都歸咎于人為錯誤,而其中有許多都與配置錯誤相關(guān)。
組織正在采取措施糾正配置錯誤。Dovalina指出,在圣愛德華大學(xué)中,工程師需要審批所有的網(wǎng)絡(luò)配置變更。
企業(yè)網(wǎng)絡(luò)工程師Robert Lumsden指出,F(xiàn)idelity Information Services在這個概念上做得更深入一步,它的每一個變更工單都需要經(jīng)過全面同行審議。而且,在變更之前,工程師、內(nèi)部客戶及其他干系人(如來自審計或銷售部門的員工)需要一起開始,這樣工程師才能完全解釋清楚變更內(nèi)容,并且解答一些疑問。
Lumsden說:“我們想要做的是評估出現(xiàn)瓿之后的風險。我們的格言中‘不能破壞任何東西’。”
更緊密合作并終身學(xué)習
此外,圣愛德華大學(xué)的Dovalina指出,組織還需要與他們的供應(yīng)商建立更好的合作,最終將網(wǎng)絡(luò)中斷的風險降到最低。他補充道,大學(xué)與Extreme Networks緊密合作,部署它的交換機和路由器。
Dovalina說:“在選擇供應(yīng)商時,你必須詢問自己。‘他們是否提供了一個完整解決方案,還是只提供網(wǎng)絡(luò)設(shè)備?’當我們與Extreme Networks開始啟動一個項目時,我們會一起制定策略和確定解決方案,然后再建立一個概念模型,然后我們會根據(jù)需要對它進行測試,直到將它部署到生產(chǎn)環(huán)境。”
此外,一定要保持學(xué)習最新的網(wǎng)絡(luò)趨勢。Dovalina說,他和圣愛德華大學(xué)的高級網(wǎng)絡(luò)管理員Paul Miklas一起保證定期參加本地和全國的交易展會。
Miklas說:“有人會等著技術(shù)到來。我們則喜歡主動出擊。例如,我們現(xiàn)在會投入時間學(xué)習新興技術(shù),以及它們將如何適應(yīng)我們的運營。”
可編程網(wǎng)絡(luò)的風險
有一些可編程網(wǎng)絡(luò)技術(shù)的提倡者認為,它可以減少手工配置及人為引起錯誤可能性,從而可以將網(wǎng)絡(luò)中斷的風險降到最低。
思科企業(yè)網(wǎng)絡(luò)高級副總裁Jeff Reed說:“在過去20年,管理網(wǎng)絡(luò)一直沒有太大的變化??蛻舾嬖V我們,他們的網(wǎng)絡(luò)工程師將80%的時間都投入到保持網(wǎng)絡(luò)的正常運行。許多的流程都基于人工的任務(wù),而這些任務(wù)嚴重拖累頂級技術(shù)人員,使它們無法專注于支撐業(yè)務(wù)的關(guān)鍵應(yīng)用程序。”
Reed指出,思科一直專注于在交換機使用更高效的設(shè)計,它可以幫助網(wǎng)絡(luò)工程師減少配置時間。Brocade通信系統(tǒng)公司、Pluribus Networks和Barefoot Networks等供應(yīng)商也有可編程網(wǎng)絡(luò)技術(shù)。
Reed解釋說:“我們正在嘗試在交換機中加入更多的智能,從而使網(wǎng)絡(luò)工程師只需要處理高級策略。網(wǎng)絡(luò)工程師應(yīng)該更關(guān)注于他們優(yōu)先處理哪一些應(yīng)用程序流量,而不是那些一成不變的網(wǎng)絡(luò)設(shè)計。”
當然,雖然更好更高效的交換機和路由器可以將網(wǎng)絡(luò)中斷的風險降到最低,但是網(wǎng)絡(luò)組織仍然需要注意Dovalina和Lumsden所推薦的最佳實踐。這種新型交換機可能流行更長時間并且能夠減少過載,但是網(wǎng)絡(luò)組織仍然需要刷新策略。而且,即使將大多數(shù)配置實現(xiàn)自動化,但是在出現(xiàn)異常情況時仍然需要監(jiān)控它們。
最后,網(wǎng)絡(luò)組織仍將需要審視環(huán)境和選擇最適合未來發(fā)展趨勢的網(wǎng)絡(luò)伙伴。一些組織仍然部署內(nèi)部數(shù)據(jù)中心,并且仍然堅持使用自己熟悉的技術(shù)和策略。但是,經(jīng)濟因素可能促使許多企業(yè)至少將一部分數(shù)據(jù)中心遷移去云供應(yīng)端環(huán)境,如亞馬遜Web服務(wù)和微軟Azure,這種方式要求有創(chuàng)新思考方式和開放網(wǎng)絡(luò)等新技術(shù)。
但是,這屬于另一個話題。在目前而言,我們要做的事情是保持網(wǎng)絡(luò)正常運行。