疫情對于云計(jì)算災(zāi)難恢復(fù)的啟示

責(zé)任編輯:cres

2020-07-01 13:44:15

摘自:機(jī)房360

歐洲各國由于疫情持續(xù)蔓延而頒布出行禁令,企業(yè)必須對要求全體員工在家工作迅速做出反應(yīng)。在發(fā)布出行禁令幾天之后,IT部門必須應(yīng)對對VDI和協(xié)作工具的空前高峰,并且他們大量地轉(zhuǎn)向云計(jì)算,畢竟,這就是采用云計(jì)算技術(shù)的目的。

云計(jì)算為很多企業(yè)提供了機(jī)會,以按需供應(yīng)的基礎(chǔ)設(shè)施和“無限”的規(guī)模來應(yīng)對意外情況。但是在真正的災(zāi)難情況下,“無限規(guī)模”的物理實(shí)用性開始顯現(xiàn)。
 
一位平臺架構(gòu)師表示,他在2020年3月批準(zhǔn)了一個(gè)HDInsight群集(微軟公司提供的托管Hadoop產(chǎn)品)到我生產(chǎn)環(huán)境的部署。正在為期待已久的基于Azure的數(shù)據(jù)平臺的下一階段上線,當(dāng)他突然從DevOps主管那里接到電話時(shí),主管說,“我在新的生產(chǎn)群集上出現(xiàn)配置錯(cuò)誤,無法部署。而群集無法擴(kuò)展,無法獲得足夠的節(jié)點(diǎn)。雖然有足夠的配額,但是沒有足夠的節(jié)點(diǎn)來擴(kuò)展集群。”
 
事實(shí)證明,這種情況是微軟Azure北歐地區(qū)數(shù)據(jù)中心容量已滿。微軟公司像所有云計(jì)算提供商一樣,超額配置了其物理基礎(chǔ)設(shè)施,也就是他們可以向客戶提供虛擬機(jī)和CPU核心配額,因?yàn)樗麄冎揽蛻舨粫繃L試一次消耗掉所有容量,但卻遇到了意外情況。
 
歐洲各國由于疫情持續(xù)蔓延而頒布出行禁令,企業(yè)必須對要求全體員工在家工作迅速做出反應(yīng)。在發(fā)布出行禁令幾天之后,IT部門必須應(yīng)對對VDI和協(xié)作工具的空前高峰,并且他們大量地轉(zhuǎn)向云計(jì)算,畢竟,這就是采用云計(jì)算技術(shù)的目的。
 
MicrosoftWindows虛擬桌面(基于云計(jì)算的Windows10遠(yuǎn)程工作解決方案)最近非常及時(shí)地進(jìn)入了通用可用性,IT部門急于部署遠(yuǎn)程桌面解決方案。Microsoft Teams提供了可擴(kuò)展且無縫的協(xié)作和電話會議解決方案,但是所有會議突然都變成了在線會議,這一峰值需要滿足于某個(gè)地方的物理基礎(chǔ)設(shè)施。
 
其結(jié)果是Azure數(shù)據(jù)中心對計(jì)算的需求激增,并且無法滿足所有客戶的需求。除了無法部署新資源之外,一些客戶還難以啟動(dòng)現(xiàn)有資源,例如,一臺虛擬機(jī)會在一夜之間關(guān)閉并按計(jì)劃啟動(dòng),而他們無法在早上再次啟動(dòng)。
 
該分析師為此與負(fù)責(zé)此特定客戶的Microsoft客戶團(tuán)隊(duì)進(jìn)行了交談,他們表示,其容量管理團(tuán)隊(duì)已了解情況,并正在為醫(yī)療保健和緊急服務(wù)的客戶確定容量的優(yōu)先級。當(dāng)分析師得知有更多硬件在訂購中時(shí),情況看起來很暗淡,但供應(yīng)鏈正在影響交貨時(shí)間。
 
幸運(yùn)的是,客戶經(jīng)理能夠在每日容量管理會議上代表客戶并提供必要容量的理由。還被告知微軟公司將20,000個(gè)vCPU工作或內(nèi)部工作負(fù)載移出了Azure北歐數(shù)據(jù)中心,并在一周后成功部署了HDInsight群集。
 
分析師目前正在為另一個(gè)客戶端制定災(zāi)難恢復(fù)(DR)策略,該策略基于在一個(gè)Azure區(qū)域中發(fā)生的服務(wù)(如果不太可能發(fā)生區(qū)域性故障)的故障轉(zhuǎn)移。這是一種基于微軟公司自己的架構(gòu)建議的標(biāo)準(zhǔn)模式。但是,如果整個(gè)Azure區(qū)域確實(shí)崩潰了,那么其余Azure區(qū)域中對資源的需求還會突然增加。在災(zāi)難恢復(fù)測試中可以實(shí)現(xiàn)的恢復(fù)時(shí)間目標(biāo)(RTO),實(shí)際上可能由于容量限制而在實(shí)際事件中無法實(shí)現(xiàn)。
 
在設(shè)計(jì)Azure災(zāi)難恢復(fù)策略時(shí),分析師為此提出的建議是:
 
•盡管不能依靠配額來確保資源的可用性,但是需要確保在次要區(qū)域中增加配額
 
•準(zhǔn)備在發(fā)生故障轉(zhuǎn)移時(shí)與Microsoft容量管理團(tuán)隊(duì)交談以討論容量問題
 
•利用微軟的客戶團(tuán)隊(duì),他們可以在發(fā)生故障轉(zhuǎn)移時(shí)幫助保護(hù)容量,并根據(jù)對客戶的影響和對微軟公司的聲譽(yù)影響來構(gòu)建其案例。
 
•了解在故障轉(zhuǎn)移到云計(jì)算提供商時(shí),客戶的恢復(fù)時(shí)間目標(biāo)(RTO)將處于最佳狀態(tài)-最終您不擁有基礎(chǔ)架構(gòu),云提供商可能無法滿足需求。
 
•考慮采用多云方法,使客戶可以故障轉(zhuǎn)移到AWS、谷歌云平臺或其他云計(jì)算環(huán)境,甚至內(nèi)部部署環(huán)境。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號