業(yè)務連續(xù)性是CIO和CTO規(guī)劃流程的重要組成部分。“黑天鵝事件”(極不可能發(fā)生,實際卻又發(fā)生的事件)會對業(yè)務產(chǎn)生重大影響。雖然其中一些事件是無法預料的——但有些卻是可以提前預知的,甚至是完全可以做好防備的。業(yè)務連續(xù)性就是評估威脅形勢并制定計劃,以應對可預見的威脅并構建應對威脅的運營彈性。
威脅形勢
領導團隊的最佳實踐是不斷思考威脅形勢,識別潛在問題并做好準備,否則的話可能會對企業(yè)造成重大的財務影響。
可能需要計劃在內(nèi)的事件包括(但不僅限于):
• 地緣政治威脅(例如,俄烏事件);
• 自然災害(例如地震);
• 定向威脅(例如勒索軟件);
• 監(jiān)管變化;
針對其中的一些威脅需要立即采取措施。其他威脅則需要制定計劃,以確保團隊知道關鍵目標是什么,以及面對威脅時需要采取的行動。CIO和CTO需要不斷監(jiān)控威脅形勢并在必要時進行更新。像SOC-2認證這樣的檢查就具備很好的強制功能,允許對某些威脅進行外部檢查。
SOC-2是一份基于美國注冊會計師協(xié)會現(xiàn)有信托服務標準(TSC)審計標準委員會的報告,目的是評估與安全性、可用性、處理完整性、機密性和隱私相關的組織信息系統(tǒng)。
為地緣政治威脅做好應對計劃
以Inflection公司為例,早在俄烏沖突發(fā)生前一年半,該公司就已經(jīng)為可能與烏克蘭相關的業(yè)務中斷做好了準備。他們制定了一套原則,并根據(jù)這些原則制定了計劃,關鍵原則包括:
• 建立一個地域多元化的團隊。除烏克蘭外,Inflection還在美國和巴西建立了大量業(yè)務。
• 建立工作多樣性。Inflection并非在每個區(qū)域都擁有完整的功能,而是要求團隊跨區(qū)域協(xié)作。這種方式存在缺點(例如,溝通障礙),但長遠來看,這是一個正確的權衡。
• 優(yōu)先考慮員工和承包商的安全。在地緣政治事件中,想要確保安全無疑需要產(chǎn)生額外的財務支出,Inflection愿意花更多的錢來確保員工和承包商的安全。他們?yōu)闉蹩颂m的團隊成員提供了三個月的生活費,以便他們能夠搬到不同的地方。
• 強調書面交流而非口頭交流。例如,每個重要的工程決策都要經(jīng)過嚴格的架構決策過程。
這些主動措施使Inflection能夠在確保業(yè)務連續(xù)性的同時,優(yōu)先考慮員工安全。除了上述這些原則外,Inflection還制定了一份詳細的計劃來確保為長期無法工作的員工提供保障。
實踐中的連續(xù)性規(guī)劃:深入了解軟件可用性
主動規(guī)劃的一個例子與自然災害有關。如果災難(例如地震)襲擊企業(yè)的數(shù)據(jù)中心所在的區(qū)域并導致網(wǎng)絡分區(qū),企業(yè)的計劃是什么?假設企業(yè)使用的是公有云供應商,下面的示例將呈現(xiàn)整個思考過程。
規(guī)劃可用性的出發(fā)點是企業(yè)向客戶承諾的正常運行時間。標準的SaaS正常運行時間基準是99.95%的可用性,這相當于每年允許4小時22分58秒的不可用性。在計劃這一點時,企業(yè)需要考慮:
• 當事件確實發(fā)生時,企業(yè)的RTO(恢復時間目標)和RPO(恢復點目標)是什么?做出權衡決策需要就這些指標達成一致。
• 有維護窗口嗎?如果有,請從不可用性預算中減去它。(還應該問自己為什么有一個維護窗口。)
• 所在平臺的基本保證是什么?云供應商通常不提供任何正常運行時間保證。
• 如果可用區(qū)(數(shù)據(jù)中心)失去可用性,企業(yè)的計劃應該是什么?
• 如果一個區(qū)域(多個可用區(qū))出現(xiàn)中斷,企業(yè)的計劃應該是什么?
• 如果供應商(多個地區(qū))不可用,企業(yè)的計劃是什么?
這些問題有不同的“成本-復雜性”(cost-complexity)權衡。較小的企業(yè)可能會選擇規(guī)避更大的復雜性,而對于大型企業(yè)來說,選擇可能會有所不同。
計劃的目標是對這些問題中的每一個都有一個清晰的認知和把控。
企業(yè)是否應該通過多個可用區(qū)(vailability zones)支持高可用性?對于大多數(shù)企業(yè)來說,這是一個簡單的決定:在AWS中支持多個可用區(qū)并不復雜,并且可以用相對較少的費用和復雜性來完成。
如果出現(xiàn)區(qū)域性中斷-災難恢復 (DR) 情況,企業(yè)應該怎么做?進行跨區(qū)域同步既復雜又昂貴。很少有企業(yè)會選擇這樣做。相反地,企業(yè)可以選擇將數(shù)據(jù)備份到另一個區(qū)域,并讓企業(yè)的RTO(恢復時間目標)和RPO(恢復點目標)反映這樣一個事實,即企業(yè)的權衡結果是用更長的恢復時間換取更簡單的架構。
如果云供應商完全中斷怎么辦?進行跨供應商部署非常復雜且昂貴。在大多數(shù)情況下,將企業(yè)的數(shù)據(jù)備份到不同的云提供商就足夠了。但是,如果企業(yè)經(jīng)營的是一家大型企業(yè),出于成本和規(guī)模的原因,企業(yè)可能希望加入多個云供應商。
企業(yè)制定的計劃需要考慮到所有這些問題,并獲得公司高管的同意。當事件真實發(fā)生時,企業(yè)還需要制定溝通計劃(例如,我們將如何通知客戶?),最重要的是,必須對計劃進行測試。除非定期實踐,否則這些計劃將毫無意義。
以Inflection公司為例,他們最終做出的決定包括:
• 通過部署多個可用區(qū)來支持高可用性??蛻魺o法察覺單個數(shù)據(jù)中心的損失。
• 在多個區(qū)域之間同步數(shù)據(jù),以支持小于24小時的恢復點目標(RPO)和小于72小時的區(qū)域災難恢復時間目標(RTO)。
• 將數(shù)據(jù)同步到二級云供應商,以確保在云供應商完全中斷的情況下,企業(yè)仍然可以恢復運行。
• 最后,每年進行一次數(shù)據(jù)庫恢復實踐,每季度測試一次災難恢復實踐。
規(guī)劃定向威脅
在過去幾年中,勒索軟件等威脅顯著增加。這些威脅需要正面應對。在Inflection公司,他們的計劃包括:
• 獲得 SOC-2 認證并確保公司的流程與業(yè)內(nèi)最佳流程相媲美;
• 確保靜態(tài)數(shù)據(jù)和傳輸數(shù)據(jù)始終加密;
• 參與漏洞賞金計劃;
• 讓外部機構進行滲透測試;
• 確保員工設備已加密并具有適當?shù)能浖Wo,可抵御惡意軟件、網(wǎng)絡釣魚和其他攻擊;
• 為自己投保;
事前分析
領導者需要考慮的一個有用的練習是“事前分析”。在考慮業(yè)務連續(xù)性問題時,最好是主動而不是被動的。
事前分析與事后分析相反。雖然事后分析可以讓我們在事情已經(jīng)發(fā)生之后分析“出了什么問題”,事前分析的重點在于了解“可能出了什么問題?我們怎樣才能防止這種情況發(fā)生?”事前分析允許對業(yè)務連續(xù)性進行更深入的規(guī)劃,以便在意外發(fā)生時毫不費力地利用已規(guī)劃好的內(nèi)容,從容地應對現(xiàn)實事件。
結語
規(guī)劃業(yè)務連續(xù)性是領導者必備的一項職能要求。被動接受災難發(fā)生的企業(yè),將無法迅速做出響應。企業(yè)的執(zhí)行團隊必須就原則和成本/復雜性權衡達成一致。
版權聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權利。