故障切換到遠(yuǎn)程站點(diǎn)是一項(xiàng)成熟的技術(shù),云存儲也是一項(xiàng)成熟的技術(shù)。但是如果用戶們在遇到故障后想把虛擬環(huán)境切換到云端,他們就面臨獨(dú)特的挑戰(zhàn)。
雖然這兩個(gè)過程都用到復(fù)制,但云故障切換要雙將備份內(nèi)容復(fù)制到云端以便之后恢復(fù)復(fù)雜得多。故障切換過程使用云作為輔助的災(zāi)難恢復(fù)站點(diǎn)。備用服務(wù)器接手處理出現(xiàn)故障的虛擬機(jī)環(huán)境,確保應(yīng)用程序性能不受影響,然后等問題解決后,再切換回到主數(shù)據(jù)中心。出現(xiàn)故障后切換到云的過程可能是自動化,也可能是人工的,各自有其優(yōu)缺點(diǎn)。
不妨定義一些細(xì)節(jié)。我們在此談?wù)摰氖翘摂M機(jī)到虛擬機(jī)。使用裸機(jī)恢復(fù)(BMR)技術(shù),將內(nèi)部物理服務(wù)器故障切換到云端物理服務(wù)器在技術(shù)上可行的,但是這不切實(shí)際。很少有云災(zāi)難恢復(fù)廠商支持這么做,因?yàn)樗鼈兓谔摂M服務(wù)器技術(shù)。虛擬機(jī)架構(gòu)讓用戶得以避免在輔助數(shù)據(jù)中心維護(hù)相同的硬件這個(gè)問題,這是基于云的災(zāi)難恢復(fù)解決方案的一大賣點(diǎn)。
我們還會探討公有云環(huán)境下的故障切換。雖然故障切換在公司自身擁有的私有云中肯定可行,但是它有悖于公有云提供的易于擴(kuò)展這個(gè)初衷。
你需要了解的方面
為何故障切換到遠(yuǎn)程站點(diǎn)是一項(xiàng)成熟技術(shù),而故障切換到云端卻不是?云本身是區(qū)別所在。
毫無疑問,云因靈活擴(kuò)展、經(jīng)濟(jì)實(shí)惠而很吸引人;一旦故障切換站點(diǎn)經(jīng)過了測試,而且很全面,維護(hù)起來就比較簡單。就虛擬環(huán)境故障切換而言,你不需要像在遠(yuǎn)程站點(diǎn)那樣非要維護(hù)幾乎相同的硬件,能夠獲得近乎無限擴(kuò)展的好處。然而,將生產(chǎn)環(huán)境數(shù)據(jù)故障切換到云端也確實(shí)存在諸多挑戰(zhàn)。
保持服務(wù)級別
單單備份數(shù)據(jù)的風(fēng)險(xiǎn)相當(dāng)?shù)?。公有云的可靠性很高,可用性也很高,而且因分布式操作而在不斷提高。但是說到關(guān)鍵的業(yè)務(wù)應(yīng)用程序,備份和存儲引起的云存儲風(fēng)險(xiǎn)就會急劇加大。由于通過互聯(lián)網(wǎng)傳輸數(shù)據(jù)速度緩慢,在恢復(fù)時(shí)間目標(biāo)(RTO)和恢復(fù)點(diǎn)目標(biāo)(RPO)可以接受的情況下,將虛擬化生產(chǎn)數(shù)據(jù)遠(yuǎn)程故障切換到云端是相當(dāng)新穎的做法。
如果你有必要的帶寬,將服務(wù)器映像備份到云端相當(dāng)簡單。但是在故障切換場景下在云端運(yùn)行那些應(yīng)用程序卻完全不同。首先,VMware和Hyper-V需要各自不同的故障切換域;此外,特定的應(yīng)用程序可能需要配置不同的域,以便為故障切換的應(yīng)用程序提供合適的服務(wù)級別。
將應(yīng)用程序交給云端災(zāi)難恢復(fù)站點(diǎn)之前先要進(jìn)行測試。亞馬遜、谷歌、Azure及其他大型公有云都能滿足以較低服務(wù)提供較高性能的需要,但是你需要測試自己的帶寬和配置。
要在帶寬方面投入
帶寬在使用云端作為災(zāi)難恢復(fù)站點(diǎn)方面起到了重要作用。虛擬化數(shù)據(jù)中心會生成龐大快照,而且是大量的龐大快照。想有效地管理云端故障切換災(zāi)難恢復(fù)站點(diǎn),有效管理快照是關(guān)鍵所在,如果你在考慮一款可以縮短數(shù)據(jù)傳輸時(shí)間的云網(wǎng)關(guān)產(chǎn)品,更是如此??煺赵诘土髁凯h(huán)境下完全沒有問題,但是在大容量復(fù)制環(huán)境下,快照會成為瓶頸。
無論你是否使用云網(wǎng)關(guān),只需復(fù)制變化的增量數(shù)據(jù),并實(shí)行重復(fù)數(shù)據(jù)刪除和壓縮。如果你的服務(wù)級別允許,還需要避免不斷地復(fù)制快照。不斷或近乎不斷地復(fù)制快照會耗用以太網(wǎng)資源,更不用說耗用互聯(lián)網(wǎng)帶寬了。不管怎么樣,高效的快照算法對成功的云端故障切換而言必不可少。
安全性和可用性
另一個(gè)挑戰(zhàn)是安全性。為云端備份和歸檔數(shù)據(jù)確保安全很重要;保護(hù)及訪問生產(chǎn)數(shù)據(jù)更是重要得多。你同時(shí)需要可靠性和可用性:之所以需要可靠性,是因?yàn)槟菢釉品?wù)提供商不會丟失你的數(shù)據(jù);之所以需要可用性,是因?yàn)槟菢幽阍谛枰L問自己的數(shù)據(jù)時(shí),可以隨時(shí)訪問。與服務(wù)提供商一起敲定服務(wù)級別。雖然你支付的費(fèi)用高于簡單的備份和恢復(fù),但是說到應(yīng)用程序,你不希望有任何閃失。
在加密級別方面做好調(diào)查工作,并且決定要不要加密靜態(tài)數(shù)據(jù)(可能需要)和傳輸中數(shù)據(jù)(可能需要,也可能不需要)。另外要留意多租戶問題。公有云是一種大規(guī)模的多租戶環(huán)境。一個(gè)風(fēng)險(xiǎn)是,如果其他租戶突然耗用大量資源,你的性能就會下降。你最不希望看到的一幕是,就在你的應(yīng)用程序從云端災(zāi)難恢復(fù)站點(diǎn)啟動運(yùn)行時(shí),別人的突然使用搶占了你的資源。要弄明白公有云提供商和災(zāi)難恢復(fù)廠商如何保護(hù)你,遠(yuǎn)離其他租戶及系統(tǒng)故障的影響。
另一個(gè)潛在問題出現(xiàn)在自動化故障切換上。災(zāi)難恢復(fù)自動化通常來說是關(guān)鍵災(zāi)難恢復(fù)的一個(gè)最佳實(shí)踐,但由于所謂的腦裂事件(split-brain event),它也不是什么“靈丹妙藥”。當(dāng)虛擬機(jī)層面的錯(cuò)誤引發(fā)自動化故障切換時(shí),盡管虛擬機(jī)實(shí)際上并未處于故障狀態(tài),就會出現(xiàn)腦裂事件。2015年,出現(xiàn)故障后自動切換到云端在監(jiān)測路徑和事件方面有所改進(jìn),但這仍是需要留意的一個(gè)問題。就許多情況而言,一旦虛擬機(jī)出現(xiàn)故障,立即提醒IT團(tuán)隊(duì),這也許是比純粹自動化更合理的解決方案。
動態(tài)云
云是個(gè)動態(tài)環(huán)境,不過成功的故障切換有賴于用戶能夠找到遷移后的應(yīng)用程序及其數(shù)據(jù)。廠商提供的一種選擇就是,使用基于云的集群作為故障切換災(zāi)難恢復(fù)站點(diǎn)。
微軟Windows Server使用集群方法作為內(nèi)部站點(diǎn)與遠(yuǎn)程站點(diǎn)之間一種成熟可靠的災(zāi)難恢復(fù)技術(shù)。然而,基于Windows的集群需要訪問活動目錄。這就意味著IT人員需要將活動目錄擴(kuò)展到云端,而這又需要網(wǎng)絡(luò)活動目錄與云活動目錄不斷同步。
一種更常見的方法是,將虛擬機(jī)及其數(shù)據(jù)復(fù)制到云端,那樣萬一內(nèi)部環(huán)境出現(xiàn)故障,用戶可以被透明地重定向至云端。這種架構(gòu)的缺點(diǎn)在于需要解析IP地址和DNS記錄的變更,以便適應(yīng)出現(xiàn)變化的生產(chǎn)站點(diǎn)。
如今,大多數(shù)服務(wù)提供商和廠商為你傳輸變更內(nèi)容,或者提供更容易這么做的工具。比如說,Amazon Route 53的DNS Web服務(wù)就可以為開發(fā)人員和用戶使這兩種類型的變更實(shí)現(xiàn)自動化,因而更容易在云端執(zhí)行故障切換過程。解決地址問題的另一個(gè)辦法就是,新廠商從頭開始開發(fā)基于云的災(zāi)難恢復(fù)解決方案。Zadara公司推出了虛擬專用存儲陣列(VPSA),在AWS及其他云服務(wù)提供商的平臺上,使用公有云提供企業(yè)級災(zāi)難恢復(fù)服務(wù),并且使地址動態(tài)變更實(shí)現(xiàn)自動化。
為何操這份心?因?yàn)橹档靡蛔?/strong>
你做好了設(shè)置和服務(wù)級別后,虛擬故障切換到云端是一種出色的災(zāi)難恢復(fù)方案。盡管初始的設(shè)置和測試很復(fù)雜,但是這比租用遠(yuǎn)程站點(diǎn)、實(shí)際構(gòu)建另一個(gè)輔助數(shù)據(jù)中心來得容易,更不用說確保軟硬件基本相同帶來的麻煩和風(fēng)險(xiǎn)了。相反,你將復(fù)制到一個(gè)高度靈活、可動態(tài)擴(kuò)展的環(huán)境;對于試圖讓兩個(gè)數(shù)據(jù)中心確保步伐一致的人來說,這是需要考慮的重大因素。
你可能想花錢購置更高的帶寬,或者至少花錢購置提供帶寬優(yōu)化技術(shù)的產(chǎn)品――最好同時(shí)在這兩方面有所投入。然而,一旦你進(jìn)行了額外的投入,所需的日常成本相當(dāng)合理。除了可以避免建立和維護(hù)輔助數(shù)據(jù)中心的費(fèi)用外,沒必要花錢為輔助數(shù)據(jù)中心雇用工作人員。你還可以讓現(xiàn)有的IT工作人員騰出手來,處理不同的高價(jià)值項(xiàng)目。
管理起來與平常的管理很相似。如果你已經(jīng)在使用VMware或Hyper-V工具復(fù)制到輔助數(shù)據(jù)中心,可以使用同樣的工具復(fù)制到云端。第三方產(chǎn)品也是如此,因?yàn)樗鼈儠A舯M可能多的熟悉的虛擬機(jī)管理程序控制臺和工具集。
比如說,Hyper-V就使用以Azure為中心的Hyper-V Replica以及Azure站點(diǎn)恢復(fù)管理器,在Azure里面的虛擬機(jī)管理器(VMM)云中實(shí)現(xiàn)虛擬機(jī)的復(fù)制和故障切換。Hyper-V恢復(fù)管理器(HRM)可以使這個(gè)過程的更多環(huán)節(jié)實(shí)現(xiàn)自動化。VMware提供了站點(diǎn)恢復(fù)管理器(SRM);其新的公有云恢復(fù)產(chǎn)品是VMware vCloud Air Disaster Recovery。與SRM不同,Air DR為VMware vSphere提供了原生的云端災(zāi)難恢復(fù)。vCloud Air DR建立在vSphere Replication的異步復(fù)制和故障切換技術(shù)上。
不僅僅用于災(zāi)難恢復(fù)
云端故障切換的驅(qū)動因素不一而足。災(zāi)難恢復(fù)是最大的驅(qū)動因素,不過數(shù)據(jù)遷移、測試/開發(fā)和另外的過程也能從中得益。
· 虛擬機(jī)遷移。云端故障切換還適用于虛擬機(jī)遷移等規(guī)劃的過程。Nutanix用戶曾聲稱,他們使用Nutanix Cloud Connect作為故障切換站點(diǎn),用于遷移虛擬化的Web應(yīng)用程序。Nutanix使用Nutanix Prism和Cloud Connect,管理公有云中的備份和恢復(fù)、災(zāi)難恢復(fù)及測試/開發(fā)。基于云的控制器虛擬機(jī)(CVM)集群運(yùn)行起來與遠(yuǎn)程集群如出一轍。數(shù)據(jù)從內(nèi)部集群相應(yīng)地傳輸?shù)皆贫恕?/p>
在規(guī)劃遷移前幾天,該用戶將所有受影響的應(yīng)用程序及數(shù)據(jù)統(tǒng)統(tǒng)傳輸?shù)皆贫?,具體方法是:手動關(guān)閉虛擬機(jī),等待自動化故障切換完成,然后激活云集群。然后,等一切準(zhǔn)備就續(xù)后,他們將應(yīng)用程序及數(shù)據(jù)恢復(fù)到新的環(huán)境。
· 災(zāi)難恢復(fù)測試。災(zāi)難恢復(fù)測試傳統(tǒng)上很麻煩、不現(xiàn)實(shí)、耗費(fèi)時(shí)間,這就是為什么許多公司很少測試災(zāi)難恢復(fù)方案。有了云端故障切換,IT人員就很容易測試故障切換程序和恢復(fù)時(shí)間,不需要花心思建立相同的遠(yuǎn)程數(shù)據(jù)中心。Zerto Virtual Replication是一款基于虛擬機(jī)管理程序的復(fù)制產(chǎn)品,它支持云端的大規(guī)模災(zāi)難恢復(fù)和測試,另外還支持自動化故障切換和故障恢復(fù)。 Unitrends Reliable DR則為多虛擬機(jī)應(yīng)用程序管理針對特定應(yīng)用程序的測試,并使這種測試實(shí)現(xiàn)自動化,而且確保了在虛擬化生產(chǎn)環(huán)境下的故障切換。
·裸機(jī)恢復(fù)(BMR)。云端虛擬化還能幫助裸機(jī)恢復(fù)。裸機(jī)恢復(fù)是指萬一出現(xiàn)故障,恢復(fù)一個(gè)相同的系統(tǒng)這個(gè)過程,從操作系統(tǒng)、驅(qū)動程序、應(yīng)用程序一直到生產(chǎn)數(shù)據(jù)。物理裸機(jī)恢復(fù)需要相同的硬件環(huán)境,確保無差錯(cuò)恢復(fù),不然你會遇到嚴(yán)重錯(cuò)誤。在虛擬機(jī)環(huán)境中,Zetta.net等廠商能恢復(fù)虛擬機(jī)映像,以便啟動裸機(jī)。這有助于裸機(jī)恢復(fù)過程大大提高效率,并大大減少差錯(cuò)。
考慮到隨之而來的種種問題,基于云的故障切換值得研究和投入嗎?對許多公司來說,答案是肯定的;但并非對每家公司都是如此。如果你有效果良好的遠(yuǎn)程災(zāi)難恢復(fù)環(huán)境,就不需要丟棄這個(gè)環(huán)境。如果貴公司擁有多個(gè)數(shù)據(jù)中心,這些數(shù)據(jù)中心之間又有復(fù)制和災(zāi)難恢復(fù)系統(tǒng),肯定不需要丟棄現(xiàn)有環(huán)境。
然而,即便那樣,IT人員也應(yīng)該考慮測試基于云的災(zāi)難恢復(fù),作為虛擬化服務(wù)器環(huán)境下的試點(diǎn)項(xiàng)目。虛擬網(wǎng)絡(luò)正在非常迅速地?cái)U(kuò)大,它們在生成大量數(shù)據(jù)??伸`活擴(kuò)展的云在這些特定的環(huán)境提供了實(shí)實(shí)在在的優(yōu)點(diǎn)。