本月初,澳大利亞電信發(fā)生大規(guī)模停電,導(dǎo)致1000萬澳大利亞人和40萬家企業(yè)長(zhǎng)達(dá)12個(gè)小時(shí)無法使用電話和互聯(lián)網(wǎng),澳大利亞電信的CEO Kelly Bayer Rosmarin本周辭職,突顯了為業(yè)務(wù)彈性制定IT戰(zhàn)略所涉及的利害關(guān)系。
在澳大利亞參議院上周的一次調(diào)查中,澳大利亞電信負(fù)責(zé)網(wǎng)絡(luò)的董事總經(jīng)理Lambo Kanagaratnam對(duì)議員們說,澳大利亞電信“還沒有針對(duì)這種具體的停電規(guī)模制定計(jì)劃。”Rosmarin本人承認(rèn),在停電之前,她攜帶了競(jìng)爭(zhēng)對(duì)手沃達(dá)豐的一張備用SIM卡-自停電以來,她現(xiàn)在攜帶了競(jìng)爭(zhēng)對(duì)手Telstra的第二張備用SIM卡。
在停電期間,澳大利亞電信未能接通228個(gè)緊急電話,其中包括一名心臟病發(fā)作男子的同事打來的電話。
網(wǎng)絡(luò)中斷顯示了互聯(lián)系統(tǒng)中的漏洞,提醒人們,系統(tǒng)復(fù)雜,可能會(huì)出錯(cuò),它為CIO們提供了一些重要的教訓(xùn),讓他們現(xiàn)在就采取謹(jǐn)慎的行動(dòng)。
與澳大利亞電信停機(jī)事件一樣,這類事件遠(yuǎn)不是孤立的異常情況,許多企業(yè)都會(huì)發(fā)生嚴(yán)重程度不同的事件。根據(jù)Uptime Institute的2023年年度停電報(bào)告,行業(yè)分析發(fā)現(xiàn),此類中斷的成本正在上升。
對(duì)于CIO來說,處理此類事件不僅僅是管理IT系統(tǒng),它需要結(jié)合遠(yuǎn)見、戰(zhàn)略優(yōu)先順序以及制定有效的災(zāi)難恢復(fù)計(jì)劃。澳大利亞電信故障為評(píng)估提供了提示,為IT領(lǐng)導(dǎo)者提供了關(guān)于如何更好地加強(qiáng)防御以及如何在出現(xiàn)問題時(shí)更好地響應(yīng)的洞察。以下是最近這起備受矚目的IT故障的一些關(guān)鍵教訓(xùn)。
采用先測(cè)試再更新的原則
澳大利亞電信最初的報(bào)告稱,此次停電是因?yàn)樵谝淮?ldquo;例行軟件升級(jí)”之后,“對(duì)來自國(guó)際對(duì)等網(wǎng)絡(luò)的路由信息進(jìn)行了更改”,自那以后,母公司新加坡電信駁斥了這一解釋,稱澳大利亞電信路由器的安全系統(tǒng)存在問題,而不是軟件升級(jí)。
Bayer Rosmarin在她的參議院證詞中表示,根本原因是該公司的路由器“遇到了故障保護(hù)機(jī)制,這意味著它們每一個(gè)都獨(dú)立關(guān)閉”,她說這一事件是“由新加坡電信國(guó)際對(duì)等網(wǎng)絡(luò)的升級(jí)引發(fā)的”。
盡管如此,這次中斷強(qiáng)調(diào)了一個(gè)重要的問題:在進(jìn)行更新之前,尤其是企業(yè)范圍內(nèi)的更新或網(wǎng)絡(luò)范圍的更新,建議在上傳到網(wǎng)絡(luò)之前在內(nèi)部系統(tǒng)上進(jìn)行測(cè)試。“這就是他們所說的‘胖手指’,”電信分析師Paul Budde說。
“如果其中有一個(gè)錯(cuò)誤,你希望網(wǎng)絡(luò)識(shí)別它并過濾掉它,或者你可以在整個(gè)系統(tǒng)中獲得這種連鎖效應(yīng),”Budde說,“如果整個(gè)網(wǎng)絡(luò)都癱瘓了,技術(shù)人員進(jìn)入系統(tǒng)就會(huì)有問題,那么問題就變成了:你的冗余是什么?”
在澳大利亞電信的案例中,修復(fù)涉及對(duì)澳大利亞14個(gè)地點(diǎn)的100多臺(tái)設(shè)備進(jìn)行系統(tǒng)重置。ABC新聞根據(jù)參議院調(diào)查文件的一篇報(bào)道稱,一個(gè)由150名工程師和技術(shù)人員組成的核心小組總共努力修復(fù)停電,“其他250名工人和五家跨國(guó)公司也提供了支持”。
找出薄弱環(huán)節(jié)并加以解決
IT研究和咨詢公司Adapt的數(shù)據(jù)和分析主管Gabby Fredkin表示,至關(guān)重要的是繪制公司的基礎(chǔ)設(shè)施圖,對(duì)服務(wù)進(jìn)行細(xì)分,以便在發(fā)生故障時(shí)能夠獨(dú)立工作,找出薄弱環(huán)節(jié),并對(duì)這些薄弱環(huán)節(jié)進(jìn)行壓力測(cè)試,以了解系統(tǒng)中的任何漏洞。
“說起來容易做起來難。”Fredkin承認(rèn)。
盡管如此,網(wǎng)絡(luò)的健壯性取決于其最薄弱的方面,當(dāng)出現(xiàn)單點(diǎn)故障時(shí),特別是當(dāng)它與關(guān)鍵基礎(chǔ)設(shè)施有關(guān)時(shí),它可能會(huì)導(dǎo)致嚴(yán)重的系統(tǒng)范圍停機(jī)。至少,CIO必須知道系統(tǒng)中存在這些單點(diǎn)故障的位置,以幫助確保冗余,并為圍繞優(yōu)先級(jí)和預(yù)算做出決策提供背景。
你可能無法在整個(gè)網(wǎng)絡(luò)中使用冗余路徑,這太昂貴了,但當(dāng)你的企業(yè)或其他企業(yè)發(fā)生重大故障時(shí),這是一個(gè)評(píng)估風(fēng)險(xiǎn)與成本的機(jī)會(huì),“EneX測(cè)試實(shí)驗(yàn)室董事總經(jīng)理Matt Tett說。
他說:“有必要審查預(yù)算,考慮在網(wǎng)絡(luò)上有更多的雙負(fù)載是否有益,以減少未來的一些痛苦。”
為不可避免的停機(jī)做好計(jì)劃
即使他們沒有監(jiān)管像澳大利亞電信這樣的龐大網(wǎng)絡(luò),IT領(lǐng)導(dǎo)者和他們的高管同行也必須為他們自己或他們的服務(wù)提供商的停機(jī)做好計(jì)劃,因?yàn)榧词故切〉幕蚓植康耐C(jī)仍然可能擾亂業(yè)務(wù)及其客戶。
“重要的是要審查你的業(yè)務(wù)連續(xù)性計(jì)劃,并確保在可能的情況下有某種備份,以繼續(xù)一切照常。”Tett說。
這一業(yè)務(wù)連續(xù)性計(jì)劃可能包括恢復(fù)到紙質(zhì)系統(tǒng)、轉(zhuǎn)向蜂窩覆蓋而不是互聯(lián)網(wǎng)、確保高管和關(guān)鍵員工擁有雙SIM卡電話以切換網(wǎng)絡(luò)以確保通信連續(xù)性或任何與企業(yè)相關(guān)的流程。
“這就像有一本飛行手冊(cè),這樣如果你失去了技術(shù)的重要部分,你可以嘗試并確保有一些離線方法來繼續(xù)運(yùn)行。”他說。
進(jìn)行和災(zāi)難恢復(fù)有關(guān)的對(duì)話
CIO可以利用這些引起轟動(dòng)的事件來推動(dòng)與基礎(chǔ)設(shè)施領(lǐng)導(dǎo)者的對(duì)話,以審查他們的災(zāi)難恢復(fù)計(jì)劃,不要等著什么事情發(fā)生,這應(yīng)該是一種持續(xù)的、系統(tǒng)的方法來尋找漏洞所在,“Fredkin說,他引用了Netflix的Chaos Monkey,它會(huì)在其生產(chǎn)環(huán)境中造成隨機(jī)中斷,作為這家流媒體巨頭提高其復(fù)雜系統(tǒng)彈性的戰(zhàn)略的關(guān)鍵組成部分。
“在他們的系統(tǒng)中制造混亂,讓他們能夠暴露弱點(diǎn),看看事情可能會(huì)如何發(fā)展,并計(jì)劃和運(yùn)行可能發(fā)生的事情。”他說。
圍繞災(zāi)難恢復(fù)的對(duì)話需要讓首席財(cái)務(wù)官和CEO參與,以規(guī)劃離線和失去客戶信任的風(fēng)險(xiǎn),以及降低這些風(fēng)險(xiǎn)的成本。“一家公司受到的影響可能與另一家公司受到影響的方式有很大不同,所以你必須考慮到這一點(diǎn)。”Fredkin說。
了解第三方風(fēng)險(xiǎn)
根據(jù)Uptime的數(shù)據(jù),托管數(shù)字基礎(chǔ)設(shè)施服務(wù),包括云、主機(jī)托管、電信和托管公司,在當(dāng)今的停機(jī)中所占的比例越來越大,因此,IT領(lǐng)導(dǎo)者必須意識(shí)到——并知道如何管理——第三方供應(yīng)商風(fēng)險(xiǎn),布德說,“尤其是在成本節(jié)約措施和外包已變得普遍的技術(shù)環(huán)境中。”
對(duì)于軟件或硬件更新,關(guān)鍵供應(yīng)商的列表以及更新的時(shí)間和性質(zhì)至關(guān)重要。Fredkin說,CIO需要考慮是否可行,向一些客戶而不是其他客戶推出更新,或者對(duì)部分基礎(chǔ)設(shè)施而不是其他基礎(chǔ)設(shè)施進(jìn)行更新,他們還需要找到“一種你可以做一些測(cè)試的方法,這樣它就不會(huì)影響整個(gè)生產(chǎn)環(huán)境。”他補(bǔ)充道。
“與提供硬件和軟件的人保持良好的關(guān)系至關(guān)重要,了解更新等事情何時(shí)提前到來,并對(duì)何時(shí)將更新推送到你的企業(yè)中進(jìn)行某種程度的控制是非常有益的。”
為IT現(xiàn)代化做好準(zhǔn)備
Fredkin建議說,不幸的是,搶占新聞?lì)^條的故障往往為IT領(lǐng)導(dǎo)者提供了機(jī)會(huì),讓他們?yōu)镮T現(xiàn)代化提出自己的理由,他說,雖然澳大利亞電信的情況并不明確,但當(dāng)系統(tǒng)下線時(shí),往往與遺留技術(shù)問題有關(guān),這些事件可以幫助激勵(lì)領(lǐng)導(dǎo)層和董事會(huì)層面的買入,以更新系統(tǒng),以確保它們?cè)谒俣群鸵?guī)模上都是安全和有彈性的。
他說:“當(dāng)CIO制定現(xiàn)代化用例時(shí),他們需要利益相關(guān)者的支持,才能讓企業(yè)與之同行。”
復(fù)雜的關(guān)鍵任務(wù)功能可能需要兩到三年的時(shí)間才能完成,因此還需要一種方法來對(duì)工作進(jìn)行排序,“把它想象成一個(gè)紅綠燈系統(tǒng),”Fredkin說,看著什么是關(guān)鍵的,什么是緊急的。“系統(tǒng)中最大的差距是什么?而就長(zhǎng)期更新而言,這是一個(gè)不同的優(yōu)先順序,因?yàn)橛行┦虑樾枰凑仗囟ǖ捻樞蜻M(jìn)行。”
他補(bǔ)充稱:“這是一種經(jīng)典的瀑布思維,在重新設(shè)計(jì)關(guān)鍵基礎(chǔ)設(shè)施方面,這種思維仍然占有非常重要的地位。”
考慮更大的圖景
無論是源自你的系統(tǒng)還是網(wǎng)絡(luò)連接的結(jié)果,停機(jī)都會(huì)同時(shí)影響廣泛的業(yè)務(wù),因此,Budde說,IT領(lǐng)導(dǎo)者可能要考慮超越企業(yè)的四個(gè)重要元素進(jìn)行思考。
他說:“一個(gè)量身定制的災(zāi)難和恢復(fù)能力計(jì)劃需要包括遵守行業(yè)標(biāo)準(zhǔn)和定期審查IT系統(tǒng)和協(xié)議,以確保健壯性,特別是在應(yīng)對(duì)潛在的網(wǎng)絡(luò)壓力和安全威脅時(shí)。”他補(bǔ)充說,根據(jù)你所在的行業(yè),此類努力可能需要更深入,而不僅僅是你的企業(yè)。
“我們可能需要一些開箱即用的思維,并開始考慮全國(guó)性的解決方案和行業(yè)范圍的解決方案,看看企業(yè)如何在這些情況下相互幫助。”他說。
忽視溝通會(huì)給你帶來危險(xiǎn)
最后,但絕不是最不重要的一點(diǎn)是,企業(yè)需要一個(gè)全面的通信手冊(cè)來應(yīng)對(duì)何時(shí)發(fā)生停機(jī)或中斷,無論這些停機(jī)是否是由它們引起的。
EneX測(cè)試實(shí)驗(yàn)室的Tett說:“就任何停機(jī)或問題進(jìn)行清晰、簡(jiǎn)潔的溝通是至關(guān)重要的。”這種溝通應(yīng)該沿著鏈條向上傳遞到CEO,并向外傳遞給客戶和媒體,以盡可能清楚地了解情況。
企業(yè)需要考慮的第一件事是如何清楚地與他們的客戶溝通,即使不是他們?cè)斐闪酥袛?,第二件事是,如果他們因?yàn)榫W(wǎng)絡(luò)中斷而無法與客戶溝通,就制定能夠通過媒體進(jìn)行溝通的戰(zhàn)略。
它還應(yīng)該包括某種時(shí)間框架,以幫助管理停機(jī)和恢復(fù)正常業(yè)務(wù)的預(yù)期。“無論是幾個(gè)小時(shí)還是48小時(shí),都要保持開放和透明。”Tett說。
關(guān)于企業(yè)網(wǎng)D1net(r5u5c.cn):
國(guó)內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營(yíng)19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。