所有企業(yè)都面臨著越來越多的IT系統(tǒng)挑戰(zhàn)。例如,持續(xù)增加的遠(yuǎn)程系統(tǒng)調(diào)用、日益復(fù)雜和分布式的系統(tǒng),以及系統(tǒng)功能的頻繁更新等都會增加系統(tǒng)中斷的風(fēng)險。
企業(yè)遷移到云端可以大大降低這種風(fēng)險。云服務(wù)提供商規(guī)?;倪\營方式,讓其在基礎(chǔ)設(shè)施韌性方面持續(xù)深耕。在亞馬遜云科技,我們從一開始就在基礎(chǔ)設(shè)施、服務(wù)設(shè)計與部署、運營模式和機制中將韌性考慮其中。例如,亞馬遜云科技擁有99個可用區(qū)(截至2023年3月),由部署在世界各地的數(shù)據(jù)中心組成,可以承受幾乎任何類型或規(guī)模的中斷沖擊。
亞馬遜云科技為客戶提供了可靠的基礎(chǔ)設(shè)施,讓客戶構(gòu)建和運行他們的應(yīng)用。但同時客戶也需要確保運行在基礎(chǔ)設(shè)施之上的應(yīng)用同樣具有韌性。下面三種方法可以幫助企業(yè)提高韌性。
1.盡可能擴大自動化范圍
根據(jù)Uptime Institute 的數(shù)據(jù),大約70%的數(shù)據(jù)中心和服務(wù)中斷是由人為錯誤造成的。(我預(yù)測這個比例會更高,這也是亞馬遜云科技如此專注于自動化的原因。)因為手動操作會帶來風(fēng)險,為此從備份到測試需要盡可能地自動化,自動化是創(chuàng)建韌性架構(gòu)的關(guān)鍵。位于馬里蘭州農(nóng)村地區(qū)的一家獨立醫(yī)院CalvertHealth, 在將其應(yīng)用恢復(fù)系統(tǒng)遷移到亞馬遜云科技后也意識到這一點。
以前,電子健康記錄的數(shù)據(jù)備份是在企業(yè)數(shù)據(jù)中心服務(wù)器上手動管理的,這些記錄對于患者的護(hù)理至關(guān)重要?;謴?fù)時間目標(biāo)(RTO)用于衡量中斷和恢復(fù)服務(wù)之間的最大允許時間,這一數(shù)值曾為48至72小時。CalvertHealth將其應(yīng)用恢復(fù)系統(tǒng)遷移到亞馬遜云科技后,RTO降至兩小時以下,縮短了97%。
在部署之前識別和解決代碼中的問題,也是構(gòu)建高可用性、高韌性應(yīng)用的重要組成部分。手動審查依賴于審查人員的專業(yè)知識和識別潛在問題的能力。但是,借助機器學(xué)習(xí)(ML)加持的代碼審查工具,企業(yè)可以實現(xiàn)這一過程的自動化,甚至還能優(yōu)化應(yīng)用性能。
Cognizant是世界領(lǐng)先的專業(yè)服務(wù)提供商之一,它使用亞馬遜云科技的自動化代碼審查功能來幫助開發(fā)和運營團(tuán)隊主動識別和解決問題,并確保其部署的性能、安全性和合規(guī)性超出了來自不同行業(yè)和地區(qū)的客戶的要求。
2.持續(xù)測試來應(yīng)對未知
持續(xù)測試是工程師理解系統(tǒng)如何應(yīng)對未知情況的方法。實現(xiàn)這個目標(biāo)的做法之一是故意搞“破壞”。這被稱為“混沌工程”,由Netflix開創(chuàng)。
通過這種方法,企業(yè)能夠執(zhí)行故障注入實驗,幫助團(tuán)隊營造真實世界所需的條件,來發(fā)現(xiàn)分布式系統(tǒng)中難以甄別的隱藏錯誤、盲點和性能瓶頸。
自21世紀(jì)初以來,亞馬遜一直在不會對客戶產(chǎn)生影響的精準(zhǔn)控制的情況下,有意注入故障。這提高了我們的應(yīng)變能力,確保我們?yōu)樽顗牡那闆r做好了準(zhǔn)備。如果我們能觸發(fā)罕見事件,并更頻繁地調(diào)整應(yīng)對措施,那我們就做好了準(zhǔn)備。
另一種流行的測試方法是韌性“游戲日”(game days),它通過模擬一個失敗或其他事件來測試系統(tǒng)、流程和團(tuán)隊的響應(yīng)。這種方法的目的是盡可能逼真地演習(xí)如果異常事件真的發(fā)生,團(tuán)隊會采取的行動。企業(yè)可以在亞馬遜云科技中使用其生產(chǎn)環(huán)境的完整副本進(jìn)行游戲日演練。
3.統(tǒng)一可觀測性指標(biāo)
了解系統(tǒng)的運行情況對實現(xiàn)卓越的運營和韌性至關(guān)重要。企業(yè)不斷收集和分析應(yīng)用數(shù)據(jù),才能更快地檢測和解決應(yīng)用可用性和性能方面存在的問題,從而改善最終用戶的體驗。但隨著應(yīng)用復(fù)雜性的日益增加,問題出現(xiàn)時很難快速定位并加以解決。
例如,Docebo是一家全球電子學(xué)習(xí)技術(shù)供應(yīng)商,他們的開發(fā)人員在遇到問題時往往會花上幾天時間進(jìn)行故障排除。Docebo使用亞馬遜云科技的多種分析服務(wù),將其所有日志記錄和跟蹤數(shù)據(jù)進(jìn)行結(jié)合,創(chuàng)建了單一事實來源。為此,公司將故障排除時間縮短了90%,修復(fù)錯誤的時間從70%-80%減少到15%以下。過去需要幾天才可以完成的工作現(xiàn)在只需要幾分鐘。
行而不輟,未來可期
IT韌性是一段無盡之旅。新技術(shù)、新威脅和新的處事之道層出不窮。這就是亞馬遜云科技不懈努力改進(jìn)基礎(chǔ)設(shè)施、服務(wù)設(shè)計、運營模式和機制,持續(xù)加強與發(fā)展云設(shè)施韌性的原因。亞馬遜云科技將持續(xù)為客戶提供廣泛、深入的架構(gòu)及運營最佳實踐服務(wù)、工具和指導(dǎo),為他們的韌性之旅提供支持。