災(zāi)難恢復(fù)計劃如何使企業(yè)免受業(yè)務(wù)中斷?

責(zé)任編輯:editor005

作者:litao984lt編譯

2017-12-15 14:21:44

摘自:機房360

摘要:您企業(yè)的業(yè)務(wù)通過異步備份便能夠獲得支持,抑或還是必須通過異地服務(wù)器的更新,才能夠始終保持業(yè)務(wù)的正常運行呢。

您企業(yè)的業(yè)務(wù)通過異步備份便能夠獲得支持,抑或還是必須通過異地服務(wù)器的更新,才能夠始終保持業(yè)務(wù)的正常運行呢。

異步與同步;災(zāi)難恢復(fù)與主動的架構(gòu)(active architecture);主動與被動。客觀上而言,這幾者之間其實并沒有孰優(yōu)孰劣之分。對您企業(yè)來說,最適合的一套方案的選擇將主要取決于您企業(yè)業(yè)務(wù)對于服務(wù)器發(fā)生停機中斷等事故的容忍程度。

業(yè)界的安全專家指出,在預(yù)期可能發(fā)生停機中斷事故的情況下,個別公司所選擇的如何保存其數(shù)據(jù)的具體方式,將取決于他們的業(yè)務(wù)在停機中斷恢復(fù)之前所能夠保持繼續(xù)運行的時間有多久。您所在的公司需要怎樣的可用性呢?如果貴公司的主營業(yè)務(wù)是一個電子商務(wù)類的網(wǎng)站,那么,哪怕僅僅只是幾分鐘的停機離線中斷就能造成天文數(shù)字般的經(jīng)濟損失?投資于積極主動的系統(tǒng)保障的成本開銷較之因停機中斷而造成的業(yè)務(wù)潛在損失之間孰輕孰重,您又會如何決擇呢?

“這并不是一個比另一個更有效率的比較。更為重要的是要正視您企業(yè)究竟想要解決什么方面的需求。例如,購買一輛法拉利固然能夠完成運輸食品雜貨的需求,但殺雞真的焉用牛刀?”Commvault公司解決方案營銷和技術(shù)聯(lián)盟高級總監(jiān)Don Foster表示說。

在主動的體系架構(gòu)中,通常是由一組非現(xiàn)場的服務(wù)器與現(xiàn)場服務(wù)器同步的。這樣,就可以確保在發(fā)生一臺服務(wù)器處于脫機狀態(tài)的災(zāi)難事件時不會發(fā)生停機事故。其可以配置為故障的自動轉(zhuǎn)移。在此設(shè)置中,僅僅只需要較少的硬件,因為兩處站點上的所有系統(tǒng)都正在使用中,而在災(zāi)難恢復(fù)的情況下,則只有一半的硬件被使用。如果您企業(yè)擁有48個內(nèi)核的災(zāi)難恢復(fù),那么您總計將擁有96個內(nèi)核,并且只能使用48個內(nèi)核。在主動的模式下,您企業(yè)可以規(guī)?;s小為32 x 2的64個內(nèi)核,全部64個處于活躍狀態(tài)。

在災(zāi)難恢復(fù)情況下,容量是一個完全冗余的系統(tǒng)——所有的硬件和軟件都已經(jīng)準(zhǔn)備就緒,但是完全閑置。在第一處站點發(fā)生故障失敗之前,這一容量根本不會被使用,但是在某些特定時候會被復(fù)制。

Bluelock公司的高級云解決方案架構(gòu)師Erin Swike解釋說:“主動的災(zāi)難恢復(fù)是DR世界的獨角獸。這一理念是,如果您企業(yè)的生產(chǎn)站點發(fā)生故障,則您的災(zāi)難恢復(fù)站點將自動開始向用戶提供應(yīng)用程序,而絕不會造成那怕單個數(shù)據(jù)包的丟失,這絕對可以說是任何CIO或系統(tǒng)工程師們的必殺技。

“對于我們絕大多數(shù)人來說,這聽起來仍然像是童話般的東西。因此,請忘記接近數(shù)據(jù)中心處理站點和網(wǎng)絡(luò)延遲等明顯的要素吧;這其中所涉及到的一個最重要的因素是您的應(yīng)用程序是否被編寫為能夠支持這種類型的場景情況。”她說,除非從一開始就秉承著這一理念進行應(yīng)用程序的編寫,否則支持就不可能實現(xiàn)。

在主動模式下,軟件成本較高,因為在主動模式下運行的任何系統(tǒng)都必須具有軟件許可授權(quán)。當(dāng)系統(tǒng)處于災(zāi)難恢復(fù)模式時,第二個系統(tǒng)便不需要為數(shù)據(jù)庫內(nèi)核的許可授權(quán)付費,例如,因為一次只有一款設(shè)備處于活動狀態(tài)。兩個系統(tǒng)保持同步的事實根本不會影響到成本。

在同步復(fù)制中,兩臺服務(wù)器之間需要有可靠的網(wǎng)絡(luò)連接。此外,還將需要安排額外的人手來不斷管理另一處的站點。

異步復(fù)制的消極面包括會在停機和服務(wù)器上一次更新之間丟失一些數(shù)據(jù)。但這也可以設(shè)置為故障的自動轉(zhuǎn)移。

Webscale Networks公司的產(chǎn)品副總裁Anand Hariharan表示,這基本上是服務(wù)器的熱備份、溫備份、冷備份(Hot/Warm/Cold Backup)的概念。其利弊可以從兩個方面進行分析,即:服務(wù)水平協(xié)議和成本?;謴?fù)點目標(biāo)(RPO)和恢復(fù)時間目標(biāo)(RTO)定義了供應(yīng)商將提供的SLA,以便在發(fā)生停機時,通知用戶可接受的數(shù)據(jù)可能丟失的時間長度,以及服務(wù)恢復(fù)的速度。

“當(dāng)然,通過熱備份或主動架構(gòu),停機時間為零,數(shù)據(jù)完美復(fù)制,因此,從SLA的角度來看,這是一個非常有利的途徑,因為其確保了關(guān)鍵數(shù)據(jù)不會丟失,而且關(guān)鍵的應(yīng)用程序也將繼續(xù)正常運行。”Hariharan表示說。“這方面所存在的缺點當(dāng)然是成本。維護兩款始終運行的系統(tǒng)基本上會讓成本翻倍,無論這些成本是與在私有數(shù)據(jù)中心中運行的副本體系架構(gòu),支付托管托管服務(wù)提供商在非現(xiàn)場位置執(zhí)行相同的任務(wù)相關(guān),還是在云中運行雙倍實例的費用成本開銷相關(guān)。在其中一些情況下,根據(jù)部署規(guī)模的不同,可能還有人工成本方面的考慮,需要額外的技術(shù)人員來管理兩倍的系統(tǒng)也會導(dǎo)致成本急劇增加。”

考慮到平均每分鐘高達7,900美元(數(shù)據(jù)來源:Ponemon Institute)的停機時間成本,這無疑將對任何企業(yè)短期的業(yè)務(wù)利潤及長期的聲譽都會造成巨大的影響。

其他方面的成本還包括托管站點的服務(wù)器。這可以通過向眾多用戶分攤基礎(chǔ)架構(gòu)成本來節(jié)省資金帶來巨大的吸引力,但是,根據(jù)ScaleArc白皮書的說法:仔細分析,就會發(fā)現(xiàn)這些成本節(jié)省根本沒能實現(xiàn)。托管服務(wù)供應(yīng)商仍然會向企業(yè)客戶收取任何未使用的資源的費用,包括可能在未來某一天才被激活完全使用的資源。然而,企業(yè)不能減少專用于輔助站點的資源量,因為來自主服務(wù)器的所有信息都必須備份到輔助站點。

ScaleArc的報告還指出,就像托管服務(wù)一樣,公有云解決方案由于其規(guī)模經(jīng)濟而顯得很有吸引力。然而,由于隱私方面的問題,擔(dān)心安全問題的企業(yè)組織(例如銀行和政府機構(gòu))仍然避開采用云計算。另外,云系統(tǒng)可能會有延遲,造成對于應(yīng)用程序性能的影響超出可接受的水平。而且,云計算的經(jīng)濟性并不總是其表面上所看起來那樣。在全面運營的情況下,云計算的支出通常比企業(yè)自有和運營自己的基礎(chǔ)設(shè)施時的開支要高。

ScaleArc認為,主動架構(gòu)的維護成本較低,因為這些任務(wù)可以在工作時間內(nèi)完成,而無需在半夜安排機組人員。其所需要的工作人員的數(shù)量更少,因為企業(yè)組織可以在維護期間保持應(yīng)用程序的運行,所以不需要開發(fā)人員和其他應(yīng)用程序?qū)<业膮⑴c。

ScaleArc寫道:“成本僅增加20%,企業(yè)客戶將享有多出33%的系統(tǒng)容量,同時還能降低停機時間,降低運營成本,提高資產(chǎn)利用率,并可能帶來更高的總營收。”

企業(yè)客戶可能不了解計算體系架構(gòu),但他們確實希望他們的應(yīng)用程序和數(shù)據(jù)始終保持可用。任何無法提供100%正常運行時間的供應(yīng)商都有可能失去客戶和營收。

OneLogin公司的高級總監(jiān)Al Sargent從財務(wù)角度分析說,頂級企業(yè)在IT預(yù)算上的花費會讓一般企業(yè)相形見絀。一項研究表明,企業(yè)在IT方面的開銷占到其營收的3%至7%。他表示:“轉(zhuǎn)向主動的架構(gòu)可能會將IT預(yù)算增加一個百分點,但卻可以防止可能導(dǎo)致的高達百分之幾的營收下降的停機中斷。

一些基于云的SaaS解決方案降低了這些成本方面的問題,可以在兩個站點之間自動維護一個通用的管理環(huán)境。Hariharan說,云可以實現(xiàn)快速的橫向擴展,因此您企業(yè)可以部署一個縮小的(更小的占地面積)故障轉(zhuǎn)移基礎(chǔ)設(shè)施,在發(fā)生災(zāi)難事件時幾乎可以立即恢復(fù)應(yīng)用程序,從而實現(xiàn)更好的SLA。

Foster表示說,這兩種情況都適用于企業(yè)的災(zāi)難恢復(fù)策略。許多應(yīng)用程序甚至包括基礎(chǔ)設(shè)施(企業(yè)空間中的存儲陣列通過可跨數(shù)據(jù)中心的單個命名空間創(chuàng)建主動網(wǎng)格)已經(jīng)開發(fā)了這種技術(shù),以使企業(yè)客戶可以更容易的制定業(yè)務(wù)連續(xù)性計劃,并實現(xiàn)基礎(chǔ)設(shè)施的停機恢復(fù)。

“問題是維護和運行這些基礎(chǔ)設(shè)施的成本。如果一款應(yīng)用程序或服務(wù)要求真正成為始終在線的系統(tǒng),那么企業(yè)將花費所需的資金來確保五個九的可用性。”他說。

具有這方面需求的大多數(shù)關(guān)鍵應(yīng)用程序都具有內(nèi)置的故障轉(zhuǎn)移機制,以便在發(fā)生故障時二級或三級系統(tǒng)可以恢復(fù)。對于服務(wù)器來說,集群也已經(jīng)存在了很長一段時間,而且隨著技術(shù)已經(jīng)進入了基礎(chǔ)設(shè)施服務(wù)的范疇,可用性所提供的便利性也得到了極大的提高,只是需要付出成本代價。

他說,雖然成本并不是其唯一的缺點。“主動的恢復(fù)解決方案并不能解決用戶的人為錯誤。如果發(fā)生這種類型的停機中斷,則需要有一些跟蹤時間點來數(shù)據(jù)恢復(fù)的一致性。” Foster說。

市場調(diào)研機構(gòu)451 Research的高級存儲分析師Steven Hill表示:“可能有許多關(guān)鍵任務(wù)應(yīng)用程序值得采用主動冗余保護,訣竅在于確定那些應(yīng)用程序是值得花費的。重要的是要記住,一套好災(zāi)難恢復(fù)/業(yè)務(wù)連續(xù)性計劃要求對企業(yè)關(guān)鍵業(yè)務(wù)的優(yōu)先事項進行廣泛的評估;支持這些因為所需的人員、數(shù)據(jù)和應(yīng)用程序;以及替代它們的備選方案的成本,所有這些成本/效益分析權(quán)衡都是在發(fā)生損失風(fēng)險和重大業(yè)務(wù)中斷可能性的情況下進行的。

災(zāi)難恢復(fù)更具成本效益,其通常是數(shù)據(jù)中斷的重點,可以作為內(nèi)置的主動恢復(fù)服務(wù)的補充,F(xiàn)oster指出?;A(chǔ)架構(gòu)可以通過實時和版本化的時間點參考來跟蹤數(shù)據(jù)副本變得高度可用,以解決可能出現(xiàn)的任何中斷問題。

ScaleArc的首席執(zhí)行官Justin Barney認為,對主動架構(gòu)成本的評估必須考慮到潛在的停機損失。“主動操作確實會花費一定的費用 ——約20%的硬件和軟件成本。但是這些額外的成本不包括對于造成損失的來源的抵消,例如由于避免了停機而避免的營收損失??偟膩碚f,主動操作只適用于無法承受停機時間的企業(yè)。

Barney表示,隨著持續(xù)可用性的需求開始逐漸主導(dǎo)幾乎每個行業(yè),主動的操作運營顯然提供了最佳的組合優(yōu)勢。

據(jù)Barney稱,有新的數(shù)據(jù)顯示,備份系統(tǒng)和企業(yè)流程最依賴的確保業(yè)務(wù)的連續(xù)性/災(zāi)難恢復(fù)實際上可能不利于防止重大的停機中斷。 “這在現(xiàn)在很重要,因為這些災(zāi)難恢復(fù)系統(tǒng)已經(jīng)不能滿足必須實現(xiàn)企業(yè)組織持續(xù)可用的需求了。”

他說:“今天的企業(yè)負擔(dān)不起停機失敗的損失,故而在脫機時從故障失敗中恢復(fù)過來并不是一種選擇。”

Foster不同意這種說法。“如果您企業(yè)仍然像十多年前那樣運行備份和恢復(fù)以及災(zāi)難恢復(fù),那么,這樣的說法可能是正確的,但現(xiàn)實情況是,隨著基礎(chǔ)架構(gòu)和體系架構(gòu)的成熟和變化,企業(yè)客戶正在對他們?nèi)绾螆?zhí)行災(zāi)難恢復(fù)和備份進行現(xiàn)代化改造。當(dāng)他們不這樣做時,由于沒有整合的方式來進行保護和災(zāi)難恢復(fù)決策,停機中斷可能會發(fā)生。”

另外,主服務(wù)器的正常工作流程必須重定向到輔助服務(wù)器,至少暫時成為新的主服務(wù)器。這種重定向可能需要大量的人工手動配置,需要兩個IT團隊(每處站點位置一個團隊)加班工作,以啟用和排除交換機故障。類似的重新配置適用于DNS、網(wǎng)絡(luò)、復(fù)制拓撲和其他基礎(chǔ)設(shè)施元素。測試需求是巨大的,必須安排額外的IT人員在輔助設(shè)施中就位管理,而原始的IT團隊仍然將會被迫停止嘗試將主要設(shè)施恢復(fù)到在線狀態(tài)。

“當(dāng)然,隨著我們看到‘軟件正在主導(dǎo)整個世界’和‘每家公司都在成為軟件公司’的大趨勢,只會有越來越少的企業(yè)可以接受停機中斷。災(zāi)難恢復(fù)通常意味著至少幾分鐘的停機時間,當(dāng)然,因為您企業(yè)突然間將一款閑置的系統(tǒng)聯(lián)機,可能無法順利啟動。而主動架構(gòu)最適合那些不能容忍停機中斷的企業(yè)組織。”Barney說。

Sungard AS的產(chǎn)品管理副總裁Joseph George表示,他不會僅僅從效率角度來看待這兩種架構(gòu)之間的爭論,因為決定企業(yè)彈性層級選擇的最大決定因素是基于企業(yè)是否能夠負擔(dān)得起的。“顯然,如果成本不是唯一一個因素,每家企業(yè)都會有高可用性的系統(tǒng)。但他們通常只能為大多數(shù)關(guān)鍵任務(wù)的系統(tǒng)和應(yīng)用程序提供(并且需要)這一級別的可用性。他說。

企業(yè)將他們的應(yīng)用程序進行分層,以幫助管理風(fēng)險與投資之間的經(jīng)濟平衡,對于減輕風(fēng)險來說是至關(guān)重要的。應(yīng)用程序分層以及映射它們之間的相互依賴關(guān)系,可以實現(xiàn)最佳的恢復(fù)順序排序,并允許基于應(yīng)用程序停機中斷和數(shù)據(jù)丟失業(yè)務(wù)所造成的影響水平,來確定最具成本效益的可用性程序,他補充說。

Swike說,大多數(shù)企業(yè)并不需要特別實施主動的災(zāi)難恢復(fù)。溫災(zāi)難恢復(fù)就能夠滿足他們的需求。利用站點之間的適當(dāng)帶寬,就可以實現(xiàn)幾秒鐘的RPO和幾分到幾小時的RTO技術(shù)。“技術(shù)只是這其中的一部分,災(zāi)難的過程必須有嚴格的規(guī)定和時間。服務(wù)器的復(fù)制是一個很好的步驟,但是如果您企業(yè)不經(jīng)常進行測試的話,您怎么知道其到底是否奏效呢?

她說,對于很多企業(yè)來說,災(zāi)難恢復(fù)在他們企業(yè)排名前10位的優(yōu)先級事項中僅排名第11位。“這絕不意味著他們不關(guān)心災(zāi)難恢復(fù)。只是日常問題和生產(chǎn)項目往往是排在最前面的。”

Coalfire實驗室的副總裁Mike Weber說,從根本上說,堅實的備份戰(zhàn)略的關(guān)鍵取決于企業(yè)的業(yè)務(wù)需求和關(guān)鍵任務(wù)的系統(tǒng)。有許多分層模型會需要與關(guān)鍵數(shù)據(jù)通信,在幾分鐘內(nèi)需要RTO測量,需要流式備份或復(fù)制到冗余(但不是高可用性)系統(tǒng),通過非關(guān)鍵數(shù)據(jù)可以在幾天內(nèi)消化恢復(fù)的影響。

“這兩者之間以及各個層面都需要不同的策略來實現(xiàn)業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)目標(biāo)。有幾十種方法可以實現(xiàn)這些目標(biāo)。” Weber說。

他曾多次表示,Coalfire實驗室發(fā)現(xiàn)備份或災(zāi)難恢復(fù)站點并沒有與生產(chǎn)站點相同的安全保護和控制。滲透測試發(fā)現(xiàn),當(dāng)系統(tǒng)使用各種備份或冗余容量時,預(yù)算限制通常會導(dǎo)致缺乏相同的網(wǎng)絡(luò)安全控制措施來保護生產(chǎn)環(huán)境。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號