像哈維、艾瑪、瑪麗亞等颶風(fēng)事件,美國(guó)中西部和南部的龍卷風(fēng),加利福尼亞州的火災(zāi)和洪水,以及席卷美國(guó)各地的風(fēng)暴影響了成千上萬(wàn)的企業(yè)運(yùn)營(yíng),導(dǎo)致部分企業(yè)在幾天、幾周甚至幾個(gè)月內(nèi)沒(méi)有電力和互聯(lián)網(wǎng)連接。
根據(jù)美國(guó)國(guó)家海洋和大氣管理局(NOAA)的數(shù)據(jù),2017年是美國(guó)有史以來(lái)?yè)p失最為慘重的一年,其中大多是自然災(zāi)害。美國(guó)經(jīng)歷了16次不同的自然災(zāi)害事件,每次造成超過(guò)10億美元的損失,總損失成本高達(dá)3062億美元。
影響企業(yè)的不僅僅是自然災(zāi)害,大量的人為事件導(dǎo)致企業(yè)業(yè)績(jī)下滑或停工。勒索軟件、內(nèi)部騷亂、恐怖主義以及更多突發(fā)事件可能會(huì)導(dǎo)致企業(yè)的數(shù)據(jù)中心出現(xiàn)故障組件、意外刪除文件、錯(cuò)誤配置硬件、錯(cuò)誤地切斷電源線,并可能導(dǎo)致業(yè)務(wù)宕機(jī)。
為了對(duì)這些不可避免的情況做好準(zhǔn)備,專家建議企業(yè)應(yīng)該制定災(zāi)難恢復(fù)/業(yè)務(wù)連續(xù)性(DR/BC)計(jì)劃。而且,由于當(dāng)今的業(yè)務(wù)大多是以數(shù)字方式進(jìn)行的,這意味著要制定一個(gè)計(jì)劃,以便在停電之后讓IT系統(tǒng)重新聯(lián)機(jī)。
什么是災(zāi)難恢復(fù)?
有些人錯(cuò)誤地認(rèn)為如果他們有備份就足夠了。但是真正的災(zāi)難恢復(fù)不僅僅是從備份中恢復(fù)文件。
在發(fā)生自然災(zāi)害的情況下,企業(yè)需要一種在停電或互聯(lián)網(wǎng)中斷期間保持關(guān)鍵應(yīng)用程序和服務(wù)在線運(yùn)營(yíng)的方式。如果電話線路、小區(qū)服務(wù)和網(wǎng)絡(luò)出現(xiàn)故障,則需要一種讓員工進(jìn)行溝通的方法。如果辦公室遭到災(zāi)難的破壞或損壞,需要一種方法讓技術(shù)工作人員繼續(xù)工作。盡管所有這些情況都有可能發(fā)生,而企業(yè)需要確保其繼續(xù)履行安全和合規(guī)義務(wù)。
此外,根據(jù)企業(yè)所在的行業(yè)可能有其他特殊需求。例如,醫(yī)療機(jī)構(gòu)需要一些方法和措施保障病人安全。教育機(jī)構(gòu)需要為教師提供一種與學(xué)生互動(dòng)的方式。制造商可能需要采用替代的工廠或倉(cāng)庫(kù),零售商可能需要使用不同的方法將商品送到他們的商店,等等。完整的災(zāi)難恢復(fù)計(jì)劃將考慮所有這些需求。
災(zāi)難恢復(fù)最佳實(shí)踐
•制定書面計(jì)劃。企業(yè)在災(zāi)難恢復(fù)方面犯的最大錯(cuò)誤是沒(méi)有計(jì)劃。如果企業(yè)沒(méi)有書面計(jì)劃,還必須在緊急情況中把所有事情都弄清楚。這實(shí)際會(huì)犯一些錯(cuò)誤,損失更多的成本,并且離線中斷的正常運(yùn)行時(shí)間超過(guò)企業(yè)的估計(jì)。
•遵循3-2-1規(guī)則。專家通常建議遵循3-2-1規(guī)則進(jìn)行備份:擁有三份數(shù)據(jù)副本,使用兩種不同類型的存儲(chǔ)設(shè)備,并將至少一份副本存儲(chǔ)在數(shù)據(jù)中心之外的場(chǎng)合。例如,企業(yè)可以通過(guò)創(chuàng)建一個(gè)本地備份和一個(gè)基于云計(jì)算的備份來(lái)遵循此規(guī)則。這為他們提供了三份數(shù)據(jù)副本(主要備份、本地備份和云備份),兩種不同類型的存儲(chǔ)(本地部署和云計(jì)算)以及一份存儲(chǔ)在公共云平臺(tái)的副本。
•測(cè)試制定的計(jì)劃。災(zāi)難恢復(fù)計(jì)劃在寫入文件后如果沒(méi)有測(cè)試或?qū)嵤?,則幾乎沒(méi)有用處。為了確保計(jì)劃可行,企業(yè)需要在實(shí)際情況下對(duì)其進(jìn)行測(cè)試。這意味著在電力和互聯(lián)網(wǎng)中斷后嘗試使系統(tǒng)聯(lián)機(jī)時(shí)創(chuàng)造條件。顯然,企業(yè)不想中斷自己的生產(chǎn)應(yīng)用程序,但應(yīng)該盡可能地模擬這樣的環(huán)境。
•定期更新自己的計(jì)劃。企業(yè)的IT環(huán)境一直在變化。也許正在添加新應(yīng)用程序、新硬件和新員工。這意味著企業(yè)的災(zāi)難恢復(fù)計(jì)劃也需要發(fā)展。定期按月、季度或年度定期進(jìn)行災(zāi)難恢復(fù)測(cè)試是一個(gè)不錯(cuò)的主意,并通過(guò)企業(yè)在測(cè)試期間學(xué)到的知識(shí)和經(jīng)驗(yàn)更新災(zāi)難恢復(fù)計(jì)劃。
災(zāi)難恢復(fù)解決方案的類型
為了從災(zāi)難中恢復(fù),企業(yè)還將需要一個(gè)故障切換站點(diǎn),在這里企業(yè)可以存儲(chǔ)備份數(shù)據(jù),并在主要的數(shù)據(jù)中心脫機(jī)時(shí)運(yùn)行生產(chǎn)工作負(fù)載。在選擇災(zāi)難恢復(fù)站點(diǎn)時(shí),組織有幾個(gè)不同的選擇,每個(gè)組織都有自己的優(yōu)勢(shì)和弱點(diǎn)。一般來(lái)說(shuō),企業(yè)需要在成本和組織對(duì)流程的控制量之間找到平衡點(diǎn)。其正確的選擇取決于公司的規(guī)模、內(nèi)部的技能、環(huán)境的復(fù)雜性、安全性和合規(guī)性需求以及其他各種因素。
•內(nèi)部操作。企業(yè)自己的災(zāi)難恢復(fù)數(shù)據(jù)中心通常是成本最昂貴的故障切換站點(diǎn)選項(xiàng),但在某些情況下,對(duì)于擁有眾多熟練員工的大型組織來(lái)說(shuō)是有意義的。例如,在合并、收購(gòu)或數(shù)據(jù)中心整合項(xiàng)目之后,有時(shí)全球企業(yè)會(huì)發(fā)現(xiàn)自己擁有額外的數(shù)據(jù)中心空間。在某些情況下,將某個(gè)數(shù)據(jù)中心用作災(zāi)難恢復(fù)站點(diǎn)可能是最具成本效益的。
這種方法的最大好處是企業(yè)可以完全控制備份和恢復(fù)過(guò)程。但最大的弱點(diǎn)也是在于企業(yè)完全控制了備份和恢復(fù)過(guò)程。其內(nèi)部員工可能沒(méi)有災(zāi)難恢復(fù)供應(yīng)商擁有的專業(yè)技能,這可能是災(zāi)難恢復(fù)專家認(rèn)為內(nèi)部災(zāi)難恢復(fù)在發(fā)生實(shí)際緊急情況時(shí)最有可能失敗的原因之一。
•企業(yè)可以采用托管成本較低的選項(xiàng)來(lái)管理自己的災(zāi)難恢復(fù)站點(diǎn)。通過(guò)傳統(tǒng)托管服務(wù),企業(yè)可以共享其數(shù)據(jù)中心設(shè)施中的空間、電源、散熱和網(wǎng)絡(luò)連接。托管服務(wù)供應(yīng)商將為企業(yè)提供物理安全性,但是企業(yè)將購(gòu)買、部署和配置將在數(shù)據(jù)中心設(shè)施中運(yùn)行的硬件和數(shù)據(jù)恢復(fù)軟件。
此選項(xiàng)可能會(huì)減少一些成本,并消除了管理企業(yè)的災(zāi)難恢復(fù)站點(diǎn)相關(guān)的一些負(fù)擔(dān),節(jié)省了大量時(shí)間、精力和技能。但是,它確實(shí)將大部分控制權(quán)留在了客戶手中,這對(duì)于一些有嚴(yán)格合規(guī)要求的組織來(lái)說(shuō)可能是必要的。
•主機(jī)托管也有時(shí)稱為“主機(jī)托管”或“托管宿主”,主機(jī)托管將更多災(zāi)難恢復(fù)的負(fù)載轉(zhuǎn)移到托管服務(wù)提供商。除物理數(shù)據(jù)中心空間和實(shí)用程序外,托管的托管服務(wù)提供商還提供并部署IT基礎(chǔ)設(shè)施,以及監(jiān)視和維護(hù)軟件,以便客戶遠(yuǎn)程訪問(wèn)站點(diǎn)。一些供應(yīng)商也可能提供數(shù)據(jù)恢復(fù)軟件、測(cè)試或?yàn)?zāi)難恢復(fù)服務(wù)。
這種方法給供應(yīng)商的備災(zāi)帶來(lái)了更多的負(fù)擔(dān),但它也需要獲得客戶的一些控制權(quán)。其價(jià)格和可用服務(wù)可能差別很大,因此組織需要執(zhí)行總擁有成本(TCO)或投資回報(bào)(ROI)分析,以確定這是否是最具成本效益的選項(xiàng)。
•災(zāi)難恢復(fù)即服務(wù)(DRaaS)。近年來(lái),一些托管服務(wù)提供商(MSP)和云計(jì)算供應(yīng)商已經(jīng)開始提供DRaaS解決方案。這些解決方案通常涉及備份和故障轉(zhuǎn)移到云計(jì)算環(huán)境。該選項(xiàng)將幾乎所有的處理備份和災(zāi)難恢復(fù)的控制權(quán)交給供應(yīng)商。對(duì)于沒(méi)有大量IT人員的小型組織而言,DRaaS可能是災(zāi)難恢復(fù)的唯一可行且經(jīng)濟(jì)實(shí)惠的選擇。
但是,DRaaS可能無(wú)法滿足某些行業(yè)大型組織面臨的所有合規(guī)要求。他們通常也不會(huì)提供與其他災(zāi)難恢復(fù)站點(diǎn)選項(xiàng)一樣多的定制范圍。
災(zāi)難恢復(fù)解決方案 | 優(yōu)勢(shì) | 劣勢(shì) |
內(nèi)部部署 | ·企業(yè)保留對(duì)數(shù)據(jù)、應(yīng)用程序和流程的控制 ?·完全可定制 |
?·價(jià)格昂貴 ?·需要工作人員的時(shí)間和技能 ?·更容易在災(zāi)難中失敗 |
托管 | ?·可能比擁有自己的數(shù)據(jù)中心便宜 ?·比擁有自己的數(shù)據(jù)中心需要更少的時(shí)間和專業(yè)知識(shí) ?·企業(yè)保留對(duì)數(shù)據(jù),應(yīng)用程序和流程的大部分控制權(quán) •需要一些員工時(shí)間和技能 |
·企業(yè)保留對(duì)數(shù)據(jù),應(yīng)用程序和流程的大部分控制權(quán)•需要一些員工時(shí)間和技能 ?·工作人員必須親自前往主機(jī)托管站點(diǎn)部署硬件 |
主機(jī)托管 | ?·供應(yīng)商處理IT基礎(chǔ)設(shè)施部署 ?·遠(yuǎn)程基礎(chǔ)架構(gòu)管理 ?·可能比其他選項(xiàng)更具成本效益 |
?·減少客戶對(duì)物理基礎(chǔ)設(shè)施的控制 ?·定制能力較差 |
災(zāi)難恢復(fù)即服務(wù) | ?·供應(yīng)商處理災(zāi)難恢復(fù)的各個(gè)方面 ?·可能比其他選項(xiàng)更具成本效益 |
?·可能不符合法規(guī)要求 ·更少的自定義選項(xiàng) ?·客戶對(duì)硬件和流程幾乎沒(méi)有控制權(quán) |
選擇災(zāi)難恢復(fù)解決方案的關(guān)鍵注意事項(xiàng)
無(wú)論企業(yè)是自行設(shè)置災(zāi)難恢復(fù)解決方案還是使用托管主機(jī)或DRaaS供應(yīng)商的服務(wù),都需要確保其滿足自己的需求,并符合自己的預(yù)算。以下問(wèn)題可以幫助企業(yè)根據(jù)自己的情況指導(dǎo)正確的災(zāi)難恢復(fù)解決方案:
•什么是恢復(fù)點(diǎn)目標(biāo)(RPO),企業(yè)的恢復(fù)時(shí)間目標(biāo)(RTO)是什么?企業(yè)的恢復(fù)點(diǎn)目標(biāo)(RPO)決定其數(shù)據(jù)需要備份的頻率。例如,如果企業(yè)的恢復(fù)點(diǎn)目標(biāo)(RPO)是24小時(shí),只需要每24小時(shí)備份一次數(shù)據(jù)。如果企業(yè)的RPO為10分鐘,這意味著企業(yè)的業(yè)務(wù)不會(huì)丟失超過(guò)10分鐘的數(shù)據(jù)。
企業(yè)的恢復(fù)點(diǎn)目標(biāo)(RPO)需要多長(zhǎng)時(shí)間才能恢復(fù)已恢復(fù)的數(shù)據(jù)和應(yīng)用程序的運(yùn)行。例如,5分鐘的恢復(fù)時(shí)間目標(biāo)(RTO)意味著如果發(fā)生緊急情況,企業(yè)可以將故障轉(zhuǎn)移到災(zāi)難恢復(fù)系統(tǒng),并讓所有人在5分鐘內(nèi)重新開始工作。
許多組織針對(duì)不同的應(yīng)用程序有不同的恢復(fù)點(diǎn)目標(biāo)(RPO)和恢復(fù)時(shí)間目標(biāo)(RTO)。例如,企業(yè)的電子郵件系統(tǒng)可能有6個(gè)小時(shí)的恢復(fù)點(diǎn)目標(biāo)(RPO),但企業(yè)的交易處理系統(tǒng)的恢復(fù)時(shí)間目標(biāo)(RTO)時(shí)間為10秒。
•企業(yè)的合規(guī)要求是什么?根據(jù)企業(yè)所在行業(yè)和開展業(yè)務(wù)的地理位置,法規(guī)可能會(huì)要求企業(yè)制定災(zāi)難恢復(fù)/業(yè)務(wù)連續(xù)性計(jì)劃,在一段時(shí)間后備份數(shù)據(jù)或使用符合特定條件的故障轉(zhuǎn)移站點(diǎn)。企業(yè)的災(zāi)難恢復(fù)計(jì)劃可能還需要滿足某些隱私和安全標(biāo)準(zhǔn),以滿足其合規(guī)需求。
•企業(yè)的故障轉(zhuǎn)移站點(diǎn)需要什么級(jí)別的可用性?從本質(zhì)上講,企業(yè)需要確定備份系統(tǒng)可用的備份等級(jí)。Uptime Institute根據(jù)其冗余等級(jí)將數(shù)據(jù)中心分為不同的等級(jí)。宣傳Tier 4等級(jí)的數(shù)據(jù)中心的托管和云計(jì)算供應(yīng)商滿足最高要求(并且價(jià)格最高),而提供最低可用性的托管商和云計(jì)算供應(yīng)商僅滿足Tier 1標(biāo)準(zhǔn)。
數(shù)據(jù)中心等級(jí) | 冗余要求 | 可用性 | 每年可用性停機(jī)時(shí)間 |
Tier 1 | 沒(méi)有冗余 | 99.671% | 28.8小時(shí) |
Tier 2 | 電源和冷卻的部分冗余 | 99.741% | 22小時(shí) |
Tier 3 | 所有組件至少有一個(gè)備份(N + 1) | 99.982% | 1.6 小時(shí) |
Tier 4 | 所有組件都有備份,即使所有主系統(tǒng)一次失?。?N + 1),數(shù)據(jù)中心也將保持運(yùn)行 | 99.995% | 26.3 分鐘 |
•企業(yè)的災(zāi)難恢復(fù)站點(diǎn)應(yīng)距離主要站點(diǎn)有多遠(yuǎn)?在附近設(shè)置故障轉(zhuǎn)移站點(diǎn)意味著更少的延遲,因此恢復(fù)情況下的性能更快。但是,如果企業(yè)設(shè)置故障轉(zhuǎn)移站點(diǎn)離主要的站點(diǎn)太靠近,則可能會(huì)出現(xiàn)災(zāi)難恢復(fù)站點(diǎn)受主要站點(diǎn)所遭遇的同一災(zāi)難的影響。要回答這個(gè)問(wèn)題,企業(yè)需要考慮所在的地理位置、自然或人為災(zāi)難的風(fēng)險(xiǎn),以及自己的需求。
•企業(yè)的災(zāi)難恢復(fù)站點(diǎn)是否已做好充分的準(zhǔn)備來(lái)應(yīng)對(duì)重大災(zāi)難?如果災(zāi)難恢復(fù)站點(diǎn)位于可能受到颶風(fēng)、龍卷風(fēng)、火災(zāi)、洪水或其他事件影響的區(qū)域,則需要確保供應(yīng)商采取足夠的措施來(lái)處理這些情況。
•災(zāi)難恢復(fù)解決方案具有哪些測(cè)試功能?如前所述,定期測(cè)試災(zāi)難恢復(fù)計(jì)劃非常重要。確保企業(yè)使用的任何供應(yīng)商都支持其測(cè)試需求,并且企業(yè)可以將它們包含在其SLA中。
•災(zāi)難恢復(fù)解決方案是否提供適當(dāng)?shù)陌踩?無(wú)論企業(yè)使用哪種災(zāi)難恢復(fù)站點(diǎn),都需要確保故障切換站點(diǎn)具有良好的物理安全性,包括受控的入口和出口以及監(jiān)控系統(tǒng)。企業(yè)還需要確保其故障轉(zhuǎn)移站點(diǎn)與其他網(wǎng)絡(luò)具有相同類型的IT安全,其中包括防火墻、加密、身份和訪問(wèn)管理、入侵防護(hù)等。
•災(zāi)難恢復(fù)解決方案能夠處理日益增長(zhǎng)的數(shù)據(jù)量嗎?由于企業(yè)的系統(tǒng)正在存儲(chǔ)越來(lái)越多的數(shù)據(jù),因此企業(yè)需要確保其災(zāi)難恢復(fù)解決方案也可以擴(kuò)展,而不會(huì)浪費(fèi)自己的預(yù)算。
•災(zāi)難恢復(fù)解決方案的成本是多少?不同的供應(yīng)商以不同的方式收取軟件和災(zāi)難恢復(fù)服務(wù)費(fèi)用,因此企業(yè)需要進(jìn)行總擁有成本(TCO)和投資回報(bào)率(ROI)評(píng)估以確保企業(yè)公平地比較不同的選項(xiàng)。
災(zāi)難恢復(fù)服務(wù)
提供災(zāi)難恢復(fù)解決方案的公司名單非常長(zhǎng)。以下內(nèi)容僅僅是一些較為知名的災(zāi)難恢復(fù)提供商的示例,以及各自提供的產(chǎn)品和服務(wù)類型的簡(jiǎn)要概述:
•Acronis - DR軟件和DRaaS
•Arcserve(以前稱Zetta)- DRaaS
•Axcient - DRaaS
•Bluelock - DRaaS
•Carbonite - DRaaS
•CloudEndure - DR軟件
•Carbonite - DRaaS
•Cordero - DRaaS
•C&W業(yè)務(wù) - 托管和DRaaS
•CloudHPT - 托管和DRaaS
•Carbonite - DRaaS
•Cordero - DRaaS
•Datto - DRaaS
•EvolveIP - 托管和DRaaS
•Expediant-主機(jī)托管和DRaaS
•Flexential(以前的Peak 10) - 托管,托管托管和DRaaS
•Geminare-DR軟件和DRaaS
IBM - DR軟件和DRaaS
•Iland - 托管和DRaaS
•Infrascale - DRaaS
•Iron Mountain - DRaaS
•Microsoft - DRaaS
•Managecast - DRaaS
•OwnBackup - DR軟件
•Quorum-DR設(shè)備和DRaaS
•Quorum-DR設(shè)備和DRaaS
•Recovery Point - 托管和DRaaS
•StorageCraft - DR軟件和DRaaS
•Sungard Availability Services - 托管和DRaaS
•Syncsort Vision Solutions - DRaaS
•TierPoint - 托管和DRaaS
•UltraBac - DR軟件,設(shè)備和DRaaS
•Unitrends - DR軟件,設(shè)備和DRaaS
•Verizon - 托管和DRaaS
•Veeam - DR軟件和DRaaS
•Vembu - DR軟件和DRaaS
•VMware - DR軟件
•WANDisco - DR軟件
•Zerto - DR軟件