雖然云服務商正在變得越來越可靠,但是部分服務商仍然出現(xiàn)了宕機故障。亞馬遜AWS和谷歌云平臺(Google Cloud Platform)對其IaaS[注](基礎設施即服務[注])公有云[注]在2014年可靠性的統(tǒng)計數(shù)據(jù)讓人印象深刻,因為這兩家服務商正在接近被部分人認為是可用性的終極目標——五個9(即99.999%)。
把時光倒退到2012年,專家們當時曾經感嘆,云服務正飽受運行中斷的困擾。當時有的宕機故障導致了Reddit等多家知名網(wǎng)站無法訪問,而出現(xiàn)在平安夜的宕機故障則導致Netflix遭受到嚴重影響。不過,在剛剛過去的2014年,情況則發(fā)生了改觀。
網(wǎng)站追蹤公司CloudHarmony一直監(jiān)測著48家云服務商的宕機故障頻率。該公司首先在這些服務商中的每一家都運行一個網(wǎng)絡服務器,然后追蹤服務何時無法使用,最后記錄下宕機故障的發(fā)生次數(shù)和時長。這種辦法雖然并不完美,但是卻可以很好地觀察到這些服務商的服務運行情況??傮w上,這些服務商的表現(xiàn)都不錯,并且正做得越來越好。其中,亞馬遜和谷歌的表現(xiàn)尤為出色。
亞馬遜的彈性計算云(EC2)在2014年共發(fā)生了20次宕機故障,累計宕機時長為2.41小時,這意味著亞馬遜云服務的可靠性已得到大幅提升,正常運行時間百分率達到了99.9974%。研究機構Gartner在2014年預測稱,亞馬遜分布式系統(tǒng)的規(guī)模將是其競爭對手的五倍。就亞馬遜AWS的規(guī)模而言,這樣的可靠性數(shù)據(jù)已經非常了不起了。
或許谷歌云平臺存儲服務的正常運行時間更為引人注目。據(jù)CloudHarmony稱,谷歌云平臺存儲服務在2014年宕機時長僅為14分鐘。這意味著其正常運行時間百分率達到了99.9996%。
CloudHarmony的CEO Jason Read說:“越來越多的知名云服務商開始對他們的系統(tǒng)進行微調,以便讓服務變得更加穩(wěn)定。”亞馬遜AWS提供云服務的時間比市場上任何一家服務商都要長;而谷歌在其云服務中使用的是現(xiàn)有基礎設施,因此在管理高可靠性分布式系統(tǒng)方面,谷歌也擁有較長的追蹤記錄。
云服務商在2014年也各自遇到了一些問題。在虛擬化平臺Xen的漏洞于2014年秋季被發(fā)現(xiàn)后,大約10%的AWS EC2實例必須被重啟。Rackspace也在2014年秋季經歷了一次大規(guī)模重啟。微軟的存儲服務在2014年11月出現(xiàn)服務中斷。Verizon在 2015年剛開始就開局不利。該公司告訴客戶稱,由于計劃性維護,2015年1月其云服務宕機時間最長可能將達到48小時。
微軟的宕機事故導致其Azure云服務在可靠性方面成績不佳。在計算方面,Microsoft Azure一共出現(xiàn)92次宕機故障,總計宕機時長39.77小時。其存儲平臺共出現(xiàn)了141次宕機故障,總計宕機時長10.97小時。與此形成鮮明對比的是,亞馬遜AWS存儲平臺共出現(xiàn)了23次宕機故障,總計宕機時長2.69小時。對此,微軟一直也沒有進行過解釋。
大多數(shù)服務商似乎正在努力提升自己的平臺,但是他們最終能否在可用性方面達到運營商級別的99.999%的水平呢?咨詢公司Redmonk的高級分析師Donnie Berkholz稱,對CloudHarmony數(shù)據(jù)的深度觀察顯示(+本站微信networkworldweixin),部分云服務商在服務可用性方面已經實現(xiàn)了五個9。例如,谷歌的存儲平臺。AWS的部分服務區(qū)域(CloudHarmony在AWS云服務中監(jiān)測著多個區(qū)域)在2014年僅有幾分鐘的宕機時長,有的甚至沒有出現(xiàn)過宕機故障,這已經超過了五個9的水平。隨著時間的流逝與規(guī)模的增長,云服務商似乎正變得越來越擅長提供服務。Berkholz 指出,另一個有意思的發(fā)展趨勢是,用戶對于宕機故障的應對也變得越來越靈活。
盡管在2014年沒有取得令人注目的正常運行時間百分率(Microsoft Azure的宕機時長為39小時,CenturyLink的宕機時長為26小時,Digital Ocean的宕機時長為16小時),但是部分云服務商(例如Microsoft Azure,以及相對較新的Digital Ocean)正變得越來越受歡迎。Berkholz在電子郵件中說:“在特定領域內,宕機頻率并不會阻礙用戶選擇在其他方面有著出色成績的云服務商。問題的關鍵并不是哪家云服務提供商最好,而是客戶能夠忍受哪些限制因素。”
如今用戶已經有許多辦法可以應對云服務的中斷故障。比方說,不在單一地方托管工作負載,使用工具將流量從故障的服務器中遷移出去,經常性地測試系統(tǒng)的容錯能力等。用戶可能正在關注這些最佳實踐,或許他們根本不會把敏感數(shù)據(jù)和應用放在會受到宕機影響的云上。不管怎樣,云服務商和用戶似乎都變得越來越擅長提供和使用這些服務。