企業(yè)可以立即切換故障應用程序,并連續(xù)復制其數(shù)據(jù)以實現(xiàn)接近零的損失。但是這些操作耗費資源并且很昂貴。實際上,IT部門需要根據(jù)預算、資源和應用優(yōu)先級來設置不同的恢復時間和恢復點目標。
人們將這兩個目標稱為恢復時間目標(RTO)和恢復點目標(RPO)。它們是相關的,并且這兩者都是應用程序和數(shù)據(jù)恢復所必需的。它們也是不同用途的度量指標。
以下討論一下它們是什么,它們的相似之處和不同之處,以及為什么需要分析應用程序的優(yōu)先級來平衡資源和應用程序的可用性。
定義RTO和RPO
(1)RTO:恢復時間目標
RTO指的是應用程序可以中斷或關閉多少時間而不會對業(yè)務造成重大損害。有些應用程序可能會停機數(shù)天而不會產(chǎn)生嚴重的后果。而一些高優(yōu)先級的應用程序只能停下來幾秒鐘,否則將會讓企業(yè)和客戶難以應對,并導致業(yè)務丟失。
RTO不僅僅是業(yè)務損失和恢復之間的持續(xù)時間。這個目標還包括IT部門必須采取的步驟來恢復應用程序及其數(shù)據(jù)。如果IT已經(jīng)投入高優(yōu)先級應用程序的故障轉移服務,那么它們可以在幾秒鐘內安全地表達RTO(IT部門必須恢復本地環(huán)境,但由于應用程序正在云中進行處理,因此IT部門可能需要一些時間)。
企業(yè)的RTO任務是根據(jù)優(yōu)先級和潛在業(yè)務損失對應用程序進行分類,并相應地匹配企業(yè)的資源。例如,接近零的RTO的典型計劃將需要故障轉移服務。4小時RTO允許從裸機恢復開始進行本地恢復,并以完整的應用程序和數(shù)據(jù)可用性結束。對于8小時以上的RTO,IT團隊可以與本地系統(tǒng)集成商簽署維護合同。
(2)RPO:恢復點目標
恢復點目標是指企業(yè)的損失容限:在對業(yè)務造成重大損害之前可能丟失的數(shù)據(jù)量。該目標表示為從丟失事件到最近一次在前備份的時間度量。
如果以定期計劃的24小時增量備份全部或大部分數(shù)據(jù),那么在最壞的情況下,企業(yè)將丟失24小時的數(shù)據(jù)。對于某些應用來說,這是可以接受的,對于其他人來說并不是這樣。
例如,如果企業(yè)的應用程序具有4小時RPO,那么備份和數(shù)據(jù)丟失之間的最大間隔時間將為4小時。擁有4小時的RPO并不一定意味著企業(yè)將失去4小時的數(shù)據(jù)。例如一個文字處理應用程序在午夜停止運行并在凌晨出現(xiàn)故障,那么可能沒有丟失太多(或任何)數(shù)據(jù)。但是如果一個任務繁忙的應用程序在上午10點關閉并且直到下午2點才恢復,那么企業(yè)可能會失去4個小時的高價值并且可能無法替代的數(shù)據(jù)。在這種情況下,需要進行更加頻繁的備份,以便訪問特定于應用程序的RPO。
這取決于應用優(yōu)先級,單個RPO的范圍通常為24小時、12小時、8小時、4小時。以秒為單位測量到接近零。只要對生產(chǎn)系統(tǒng)的影響最小,8小時以上的RPO就可以利用現(xiàn)有的備份解決方案。4小時的RPO將需要計劃的快照復制,而接近零的RPO將需要連續(xù)復制。在RPO和RTO都接近于零的情況下,將連續(xù)復制與故障轉移服務結合使用,以實現(xiàn)接近100%的應用程序和數(shù)據(jù)可用性。
RTO和RPO如何相似以及不同的原因
(1)RTO和RPO的幾個特征
*恢復時間和恢復點目標因應用程序和數(shù)據(jù)優(yōu)先級而異。即使是規(guī)模和實力最強的公司也不能為所有應用程序提供接近零的RTO或RPO,也不應該這樣做。
*確保100%正常運行時間(RTO)和沒有丟失數(shù)據(jù)(RPO)的唯一方法是投資連續(xù)數(shù)據(jù)復制功能的故障轉移虛擬環(huán)境。
*IT優(yōu)先處理應用程序和數(shù)據(jù)以匹配所實現(xiàn)的RTO和RPO的費用。請注意,優(yōu)先事項不僅取決于收入,還取決于風險。企業(yè)可能不經(jīng)常使用應用程序,但如果其數(shù)據(jù)受到管制,那么數(shù)據(jù)丟失可能會導致巨額罰款。
* RTO和RPO均以時間為單位進行測量。對于RTO來說,其度量標準是應用程序失敗和包括數(shù)據(jù)恢復在內的完整可用性之間的時間量。RPO也以時間單位來衡量。度量標準是數(shù)據(jù)丟失和前一次備份之間的時間間隔。對于RTO和RPO來說,其應用程序/數(shù)據(jù)優(yōu)先級可直接轉換為更短的時間單位。
(2)RTO和RPO的目標存在巨大的差異
盡管它們有相似之處,但RPO和RTO服務于不同的目標。RTO涉及應用程序和系統(tǒng),但主要描述應用程序停機時間的限制。
RPO主要與失敗事件后丟失的數(shù)據(jù)量有關。但是,損失數(shù)十萬美元的客戶交易將是災難性的后果。
RTO和RPO在行動中的實例
•單一文件恢復:例如一家公司員工意外刪除一個時間敏感的電子郵件,然后清空回收站和文件夾的內容。由于Microsoft Exchange是這家公司的業(yè)務關鍵型應用程序,因此IT部門不斷支持Exchange中的增量更改。而且由于他們的備份應用程序能夠進行精細的備份和恢復,他們可以在5分鐘的RTO內恢復單個文件,而不用為單個文件恢復整個虛擬機。
•電子商務網(wǎng)站:例如,一家零售商店的自營電子商務網(wǎng)站使用三種不同的數(shù)據(jù)庫:存儲產(chǎn)品目錄的關系數(shù)據(jù)庫,報告歷史訂單數(shù)據(jù)的文檔數(shù)據(jù)庫,以及連接到其支付處理器網(wǎng)關的API數(shù)據(jù)庫。文件數(shù)據(jù)庫可以重建來自其他數(shù)據(jù)庫的數(shù)據(jù),因此其RTO和RPO是在24小時內。該業(yè)務每周只向關系數(shù)據(jù)庫添加一次產(chǎn)品,因此RPO并不重要。 其RTO是如果數(shù)據(jù)庫關閉,則客戶交易停止。
為了保持高可用性,這家商店采用了故障轉移服務,因此數(shù)據(jù)庫立即在虛擬服務器上運行。該公司將其在一周內進行的少量更改復制到其提供商的災難恢復平臺。API數(shù)據(jù)庫包含訂購信息,并且需要幾秒鐘才能完成RPO和RTO。 IT部門不斷地將數(shù)據(jù)復制到故障轉移站點,如果API數(shù)據(jù)庫停機,該站點將立即接管處理。
成本考慮
調查表明,年收入1億美元的公司在24小時宕機期間將損失約275,000美元。而將在4小時快照復制計劃中損失約45,000美元,使用接近于零的連續(xù)復制的損失約為7600美元。
實際上,這個數(shù)量可能會更小或更大,具體取決于企業(yè)一天中的時間和應用程序活動。繁忙的任務或業(yè)務關鍵應用程序會比不太頻繁的應用程序丟失更多的數(shù)據(jù)和更高優(yōu)先級的數(shù)據(jù)。
企業(yè)需要相應地規(guī)劃RPO和RTO,并在需要之前購買所需的資源。就像購買保險一樣,企業(yè)可能永遠不必使用它們,但可能會挽救其業(yè)務。