在災(zāi)難恢復(fù)中,一個要點是如何快速有效地執(zhí)行災(zāi)難恢復(fù)技術(shù)方案,將關(guān)鍵業(yè)務(wù)系統(tǒng)從破壞性事故中重新運轉(zhuǎn)起來。典型的方案文檔可能有幾十上百頁,當(dāng)緊急狀況發(fā)生,分秒必爭,這時卻需要很長時間來找到正確信息,組織適合的人力,然后執(zhí)行計劃。
恢復(fù)關(guān)鍵數(shù)據(jù)的系統(tǒng)和平臺選擇有很多,而已在使用的故障恢復(fù)管理軟件技術(shù)是功能完整并在實踐中被證明行之有效的。一個典型例子是“切換”軟件正實時監(jiān)控著IT資源,如服務(wù)器,發(fā)現(xiàn)可能出現(xiàn)的問題。如果生產(chǎn)系統(tǒng)突然崩潰,切換軟件檢測到環(huán)境變化,更新DNS記錄,將數(shù)據(jù)處理重定向到可用IT設(shè)備。
當(dāng)然,這一方案是假定備份IT設(shè)備是可用的——最好位于另一個地點——并且被配置成可以接管故障系統(tǒng)的處理工作。
故障恢復(fù)軟件也應(yīng)該具有“回切”功能,即當(dāng)故障設(shè)備重新恢復(fù)正常運轉(zhuǎn),可更新DNS將處理流程重定向回原生產(chǎn)系統(tǒng)。
上面的例子適用于一個或兩個設(shè)備故障,沒有其它生產(chǎn)系統(tǒng)受到影響的場景。但是,如果一個巨大的災(zāi)難損壞甚至摧毀整個建筑,包括辦公室,工作站,通信系統(tǒng),數(shù)據(jù)系統(tǒng),網(wǎng)絡(luò)接入設(shè)備,存儲設(shè)備及其它IT資產(chǎn),這時又該怎么辦?
針對這一挑戰(zhàn),一些提供基于云的故障恢復(fù)產(chǎn)品的公司提出了很多有用方案,這些方案直觀易用,激活方便。例如EvolveIP、Axcient以及Unitrends。這些產(chǎn)品可復(fù)制全部或者部分辦公室環(huán)境及IT基礎(chǔ)設(shè)施,從而可以“恢復(fù)”為一個基于云的辦公環(huán)境。 圖一顯示了正常場景下的基于云的災(zāi)難恢復(fù)產(chǎn)品。基于云的IT環(huán)境備份定期更新以保障[它備份的]系統(tǒng)和數(shù)據(jù)都是最新的。
圖二顯示當(dāng)主IT環(huán)境和辦公區(qū)域突然發(fā)生故障不可訪問時,一條去往云災(zāi)難恢復(fù)系統(tǒng)的命令會觸發(fā)連續(xù)步驟將生產(chǎn)活動重定向到基于云的辦公環(huán)境。
這是一個簡單例子,并假設(shè)以下幾點關(guān)鍵因素:1)員工可以從家或備用辦公區(qū)接入網(wǎng)絡(luò);2)所有DNS表和其它相關(guān)信息都可訪問并能更改做重定向服務(wù);3)業(yè)務(wù)中斷期間IT人員還可以接入網(wǎng)絡(luò)并遠(yuǎn)程管理操作。
對于災(zāi)難恢復(fù),這類產(chǎn)品到底意味著什么?首先災(zāi)難恢復(fù)現(xiàn)在可以作為IT運維具有戰(zhàn)略意義的一部分工作,基于云的故障切換/回切產(chǎn)品使得故障恢復(fù)很容易整合到IT運維中。其二,它意味著傳統(tǒng)的故障恢復(fù)活動在系統(tǒng)修復(fù)和業(yè)務(wù)恢復(fù)流程方面得到增強,尤其對于大規(guī)?;謴?fù)的應(yīng)用場景。第三,對災(zāi)難恢復(fù)計劃中的技術(shù)測試可以大大簡化。
讓我們進(jìn)一步考量測試方面。當(dāng)對災(zāi)難恢復(fù)計劃中的數(shù)據(jù)系統(tǒng)部分進(jìn)行測試時,備選操作從簡單的桌面演習(xí)到全系統(tǒng)的切換/回切。創(chuàng)建操作手冊或腳本文檔是好的測試的關(guān)鍵部分。腳本文檔記錄了操作步驟,正確操作順序,輸入命令以及預(yù)期輸出等。這通常是數(shù)據(jù)系統(tǒng)測試最重要的部分,因為恢復(fù)步驟的順序必須正確,輸入命令必須準(zhǔn)確,否則測試失敗,而當(dāng)真正的災(zāi)難來臨時,系統(tǒng)故障將對公司產(chǎn)生負(fù)面影響。
假設(shè)我們能夠?qū)⑸厦娴牟僮髯詣踊?,將測試以簡單得如同單擊按鈕(或者幾個按鈕)的方式來執(zhí)行。盡管對很多人來說,“簡化災(zāi)難恢復(fù)”依然是陌生的新想法,但它距離我們比你所意識到的更近。
假定你已經(jīng)對某些關(guān)鍵IT資產(chǎn)或整個辦公環(huán)境配置了一個基于云的副本,如果災(zāi)難恢復(fù)管理軟件將主生產(chǎn)系統(tǒng)重定向到這個可見的基于云的副本,那么系統(tǒng)的“恢復(fù)”可以在瞬間完成。相比將IT人員和員工搬到另一地點,這樣的恢復(fù)與重啟無疑要迅捷得多。當(dāng)然,我們假定生產(chǎn)數(shù)據(jù)存在的文件和數(shù)據(jù)庫是可以立即備份到云端的,更進(jìn)一步我們其實是假定了充足的網(wǎng)絡(luò)帶寬以保障數(shù)據(jù)資產(chǎn)能復(fù)制到云端。還有重要的一點,我們假定能在云端啟動服務(wù)器。
你很自然地會認(rèn)真考慮這樣的產(chǎn)品,尤其是它們的云端計算,存儲和復(fù)制的成本是否滿足你對恢復(fù)時間和恢復(fù)點的要求。
現(xiàn)有的故障恢復(fù)計劃和流程將需要修改或重寫。你的計劃會變得更簡單,尤其是對數(shù)據(jù)系統(tǒng),工作數(shù)據(jù)、數(shù)據(jù)庫、通信服務(wù)、網(wǎng)絡(luò)服務(wù)以及其它IT領(lǐng)域進(jìn)行恢復(fù)的部分?;謴?fù)流程中的這些改進(jìn)將提高數(shù)據(jù)系統(tǒng)恢復(fù)成功的可能性。
隨著云技術(shù)和故障恢復(fù)管理系統(tǒng)的顯著提高,“一點即可”的故障恢復(fù)正實實在在成為一種現(xiàn)實。如果你的IT故障恢復(fù)需求包含快速切換和回切,并且可能在一個大規(guī)模應(yīng)用環(huán)境下,那么是時候開始調(diào)研本文所談的解決方案了。