2013年,由于火災(zāi)、洪水、電力以及軟件更新等熱門事件的發(fā)生,引起了眾多數(shù)據(jù)中心出現(xiàn)停機(jī)故障。故障主要覆蓋范圍包括云計算、企業(yè)、網(wǎng)絡(luò)支付、政府、州以及相關(guān)地方。每起事件都給客戶和終端用戶帶來了不少麻煩。但這也促使我們吸取經(jīng)驗(yàn)教訓(xùn):完善數(shù)據(jù)中心和應(yīng)用程序,使其變得更加可靠。以下分別列出了 2013年的十項(xiàng)重大停機(jī)事件:
1. Healthcare.gov:聯(lián)邦政府的在線保險網(wǎng)站已經(jīng)成為IT領(lǐng)域出錯的一個典型事件。這次事件已經(jīng)不單單是一次簡單的停機(jī)事件。該故障導(dǎo)致了一系列的硬中斷和軟中斷,最終使該網(wǎng)站的功能幾乎全部喪失。聯(lián)邦政府曾嘗試增加更多硬件設(shè)施來做彌補(bǔ),但該網(wǎng)站在十二月初直到奧巴馬管理的“IT團(tuán)隊”正確定位軟件和解決數(shù)據(jù)瓶頸時才恢復(fù)其功能。之后,又通過正式成立醫(yī)療改革法案以及政治審查,該網(wǎng)站的性能才趨于完備。恢復(fù)之后的網(wǎng)站在一些會導(dǎo)致系統(tǒng)崩潰的關(guān)鍵點(diǎn)上加強(qiáng)了防備。Healthcare.gov轉(zhuǎn)換Web站點(diǎn)性能這一這一事件應(yīng)該是本年度的新聞頭條。
2. BlueHost、HostGator和HostMonster的重大停機(jī)事故:2013年8月2日,由位于美國猶他州的數(shù)據(jù)中心所支持的幾大全球知名品牌遭受停機(jī)事故,這也是2013年度波及范圍最廣的一次重大停機(jī)事故。該事故是由Endurance 國際集團(tuán)在猶他州普羅沃的一個設(shè)施故障所引起,直接對其客戶BlueHost、HostGator和HostMonster造成了重大影響。此次事件歸因于Endurance服務(wù)器常規(guī)維護(hù)的硬件故障,但卻直接迅速波及整個網(wǎng)絡(luò)系統(tǒng)。
3. Visa停機(jī)事件橫跨整個加拿大:2013年1月28日當(dāng)天,Visa卡暫停服務(wù),促使加拿大人民無法進(jìn)行網(wǎng)絡(luò)交易,給當(dāng)?shù)亟鹑跇I(yè)帶來了巨大的損失。該事故歸因于TSS(Total System Services Inc.)的一個數(shù)據(jù)中心的崩潰,直接影響到加拿大商業(yè)銀行、加拿大皇家銀行以及道明加拿大信托銀行。
4. Xbox One產(chǎn)品艱難發(fā)行:2013年11月,Xbox One產(chǎn)品成功發(fā)行,這對于協(xié)助于權(quán)威Xbox Live的Windows Azure云計算服務(wù)來說是非常不易的。早前,該平臺一直被各種問題所困擾,其中包括存儲和網(wǎng)絡(luò)問題。但這并不是微軟云操作平臺的唯一一次瓶頸。2013年3月,某款軟件的更新失敗直接影響到其數(shù)據(jù)中心,最終使得微軟的基于Web的電子郵件服務(wù)系統(tǒng)中斷,Hotmail與Outlook.com同時離線長達(dá)16小時。
5. 停機(jī)故障導(dǎo)致DreamHost客戶離線:2013年3月20日,虛擬主機(jī)提供商DreamHost歷經(jīng)了一次長時間停機(jī)故障。該事故歸因于美國加利福利亞州爾灣的數(shù)據(jù)中心的電力系統(tǒng)故障。此次停機(jī)事故持續(xù)兩天,直接給DreamHost的35萬多客戶造成影響。
6. 亞馬遜云計算服務(wù)未免其難:微軟并不是唯一一家遭受停機(jī)故障的云服務(wù)商。2013年,亞馬遜出現(xiàn)了幾次非常重大的停機(jī)故障,其中最嚴(yán)重的一次發(fā)生在8月份,這次事故對Amazon.com主頁和AWS雙方都造成了嚴(yán)重影響。9月份,連續(xù)的網(wǎng)絡(luò)問題已經(jīng)引起了AWS的第十三次停機(jī)故障,繼而直接影響到由 AWS提供服務(wù)的Heroku、Github以及其他網(wǎng)站。早在2012年圣誕前夕,亞馬遜由于一起重大停機(jī)故障導(dǎo)致其平臺關(guān)閉,這起事件甚至影響到 Netflix。而亞馬遜在2013年度的表現(xiàn)相對于2012年來說已經(jīng)具有顯著提高。
7. 數(shù)據(jù)中心所引發(fā)的火災(zāi)導(dǎo)致美國密歇根離線:2013年4月17日,一場火災(zāi)直接摧毀了位于美國密歇根州馬科姆縣的數(shù)據(jù)中心,導(dǎo)致當(dāng)?shù)豂T服務(wù)中斷。馬科姆縣位于底特律西部,擁有85萬居民人口。此前,馬克姆縣并沒有備份數(shù)據(jù)中心,當(dāng)?shù)毓賳T只能采用筆、紙、復(fù)印本以及筆記本電腦試圖為網(wǎng)絡(luò)做臨時維護(hù)。目前該網(wǎng)絡(luò)仍然處于中斷狀態(tài),但新的網(wǎng)絡(luò)運(yùn)營中心有望在近期上線。該州政府和馬克姆社區(qū)學(xué)院也伸出了救援,幫助其恢復(fù)運(yùn)營。
8. 多倫多洪澇災(zāi)害擊垮科斯數(shù)據(jù)中心:一場巨大的暴雨導(dǎo)致多倫多遭受洪澇和停電災(zāi)害,這也給處于全市最大的數(shù)據(jù)樞紐中心的居民們帶來了不小的挑戰(zhàn)。而多倫多供電公司暫停供電時,位于151街道的一家酒店則采用發(fā)電機(jī)供電。然而,此次洪澇災(zāi)害仍然導(dǎo)致了一系列問題,一些數(shù)據(jù)中心并不能幸免于難。
9. 美國新澤西州數(shù)據(jù)中心停機(jī)故障:2013年9月,美國新澤西州的數(shù)據(jù)中心暫停為一些國家機(jī)構(gòu)服務(wù),包括美國機(jī)動車委員會和一些州的官方網(wǎng)站。新西澤為州和當(dāng)?shù)卣峁┑姆?wù)記錄中已經(jīng)存在一條最差記錄,而在2013年1月和8月又連續(xù)出現(xiàn)兩次長時間的中斷故障。
10. 雅虎艱難度過12月:上周,雅虎郵箱連續(xù)四天出現(xiàn)一些功能性問題,而雅虎首席執(zhí)行官 Marissa Mayer對此已做出道歉。Marissa Mayer說,“本次停機(jī)事故比我們想象中的要嚴(yán)重很多,我們花了好幾天的時間來恢復(fù)系統(tǒng)功能”。雅虎本次事件歸咎于存儲系統(tǒng)一個罕見的硬件故障。