制定計劃
這些事件和類似的IT問題為人們提供了兩個重要的信息:
(1)IT中斷可能發(fā)生在任何人身上。
(2)下一次IT中斷造成的損害程度取決于現(xiàn)在的準(zhǔn)備情況。
值得注意的是,超過60%的IT中斷或“災(zāi)難事件”都是由人為錯誤引起的。那么,企業(yè)如何才能最大限度地減少下一次IT中斷對其收入、聲譽和客戶造成的損害?
首先,確保企業(yè)有一個業(yè)務(wù)連續(xù)性計劃(BCP),其中包括災(zāi)難恢復(fù)計劃(概述企業(yè)將如何處理IT事務(wù))以及保持業(yè)務(wù)其余部分的計劃(例如,如果關(guān)鍵渠道是確保關(guān)鍵人員知道發(fā)生了什么、會面地點、定義指揮鏈等等)。
在這里將概述在IT方面取得成效的四個關(guān)鍵步驟:
1.定義潛在的災(zāi)難情景
對于大多數(shù)企業(yè)而言,主要有兩種IT災(zāi)難場景:
•系統(tǒng)中斷,網(wǎng)絡(luò)或應(yīng)用程序的某些關(guān)鍵部分出現(xiàn)故障,企業(yè)或其服務(wù)在一段時間內(nèi)處于“脫機”狀態(tài)。這通常是一個相對簡單的恢復(fù)點,因為企業(yè)重新上線運營,受停機影響的事務(wù)最少。
•數(shù)據(jù)丟失,企業(yè)丟失信息、內(nèi)容或數(shù)據(jù)(企業(yè)自己或其客戶)。并不總是可以從數(shù)據(jù)丟失中恢復(fù),例如在VFEmail.net的黑客攻擊事件中,刪除了其所有備份副本。
確保企業(yè)為災(zāi)難做好準(zhǔn)備的第一步是了解這些常見類型的中斷的風(fēng)險狀況:例如,系統(tǒng)中斷會影響哪些功能?這些功能對企業(yè)的業(yè)務(wù)有多重要?中斷是否會導(dǎo)致數(shù)據(jù)丟失?還有哪些其他事件會導(dǎo)致數(shù)據(jù)丟失?等等。
此外還要記住,人為錯誤將是造成這兩種災(zāi)難的最常見原因(如在芝加哥鐵路公司的停機事件中,一名工人在更新服務(wù)器期間摔倒在電路板上)。
2.評估對企業(yè)的業(yè)務(wù)可能造成的損害
這是IT部門和其他領(lǐng)導(dǎo)共同完成的工作。企業(yè)的目標(biāo)是了解如果單個數(shù)據(jù)塊出現(xiàn)故障或各種類型的數(shù)據(jù)丟失,其業(yè)務(wù)將受到的影響。
在這些對話中,目的是了解業(yè)務(wù)關(guān)鍵型應(yīng)用程序之間的依賴關(guān)系(例如,企業(yè)知道需要激活支付處理應(yīng)用程序,但它是否取決于庫存應(yīng)用程序的功能?)闡明停機對用戶的影響,并評估每分鐘停機對企業(yè)的業(yè)務(wù)的財務(wù)影響。
以下是衡量的標(biāo)準(zhǔn):
•RTO(恢復(fù)時間目標(biāo)),定義企業(yè)的業(yè)務(wù)可以在業(yè)務(wù)中斷之后多長時間而不會造成嚴(yán)重損害。企業(yè)的災(zāi)難恢復(fù)計劃應(yīng)概述通過企業(yè)定義的RTO(恢復(fù)時間目標(biāo))恢復(fù)業(yè)務(wù)運營的策略。
•RPO(恢復(fù)點目標(biāo)),定義數(shù)據(jù)備份之間的時間長度,而不會顯著損害企業(yè)和業(yè)務(wù)運營。企業(yè)的業(yè)??務(wù)中斷分析將定義企業(yè)的RPO(恢復(fù)點目標(biāo))。因此,如果企業(yè)的災(zāi)難恢復(fù)計劃要求從上次已知備份中恢復(fù)數(shù)據(jù),則RPO(恢復(fù)點目標(biāo))會定義該備份可接受的時間。
如果企業(yè)想再采取其他步驟,請確保評估中包含對停機時間可能造成聲譽損害的評估。這很難計算,但它可以成為決策過程中的一個有價值的組成部分。
3.查看當(dāng)前的災(zāi)難恢復(fù)計劃
一旦企業(yè)了解了自己可以合理承擔(dān)的停機時間,請查看其當(dāng)前的災(zāi)難恢復(fù)計劃。如果像大多數(shù)企業(yè)一樣擁有一個災(zāi)難恢復(fù)計劃,但是沒有努力去更新或者定期測試它,那么現(xiàn)在是時候改變了。
在查看災(zāi)難恢復(fù)計劃時,請考慮以下事項:
•它是否反映了企業(yè)當(dāng)前業(yè)務(wù)的現(xiàn)實情況,包括企業(yè)之前的對話中闡述的業(yè)務(wù)關(guān)鍵型應(yīng)用的計劃?如果沒有,就需要更新它。
•規(guī)模合適嗎?IT團隊非常擅長提出創(chuàng)造性的災(zāi)難恢復(fù)方法。這部分是因為這些系統(tǒng)是他們創(chuàng)建的,他們非常適應(yīng)所有可能出錯的方式。但精心設(shè)計的災(zāi)難恢復(fù)通常不僅僅是企業(yè)的需求,而且比其能夠承受的成本更高。如果企業(yè)確定可以承受三天的停機時間,并且當(dāng)前的災(zāi)難恢復(fù)計劃讓其在六小時內(nèi)重新上線運營,則需要進行一些更改。
•企業(yè)測試過嗎?制定了許多災(zāi)難恢復(fù)計劃來檢查選項或滿足監(jiān)管要求。但如果企業(yè)沒有測試自己的計劃,那么在真正的災(zāi)難中對企業(yè)毫無價值。企業(yè)無法知道它是否會實際阻止意外中斷和數(shù)據(jù)丟失可能導(dǎo)致的收入損失和聲譽損害。
4.更新并測試企業(yè)災(zāi)難恢復(fù)計劃
大多數(shù)企業(yè)不會定期更新和測試他們的災(zāi)難恢復(fù)計劃,這是一個很大的問題,因為過時的災(zāi)難恢復(fù)計劃在發(fā)生真正災(zāi)難時或多或少地變得毫無價值。
在進行更改時,請執(zhí)行以下步驟:
•指派專人負責(zé)災(zāi)難恢復(fù)和測試。這意味著如果出現(xiàn)錯誤,就會有人負責(zé),這會大大增加測試完成的機會。
•確保企業(yè)管理層與制定災(zāi)難恢復(fù)計劃和進行定期壓力測試的重要性保持一致。這對于獲得非IT同事所需的參與至關(guān)重要。
•包括“災(zāi)難”的定義。管理人員知道何時以及如何啟動災(zāi)難恢復(fù)計劃,停機一小時后?一天?也可以確定聯(lián)系人,如果不在,還有哪個人可以處理。
•制定防災(zāi)規(guī)則。之前提到的芝加哥鐵路公司災(zāi)難發(fā)生的部分原因是因為該公司在高峰時段對服務(wù)器進行了升級。這是一個令人難以置信的卻可以避免的錯誤:如果那名工人沒有在半夜摔倒在電路板上,就不會有那么多客戶受到影響。
•包括溝通計劃。在災(zāi)難期間(“發(fā)生的事情”)和災(zāi)難之后(“發(fā)生的事情和正在做的事情以提高未來的績效”)與利益相關(guān)者保持透明,對于減輕災(zāi)難可能造成的聲譽損害將有很大的幫助。
有效的災(zāi)難恢復(fù)就是細節(jié)
雖然每個企業(yè)都應(yīng)該擁有并測試災(zāi)難恢復(fù)計劃,但企業(yè)能夠滿足他們的需求或應(yīng)對災(zāi)難的方式并不都是相同的。對于任何企業(yè)來說,災(zāi)難恢復(fù)應(yīng)該基于兩個方面:風(fēng)險狀況和從事件中恢復(fù)的能力。
為了確保企業(yè)的下一次IT中斷對其客戶、收入、聲譽造成盡可能小的損害,需要花費時間了解可能出現(xiàn)問題的具體情況以及這些問題將如何影響其客戶,并制定災(zāi)難恢復(fù)計劃以盡量減少這種影響。