上周微軟Azure近11小時(shí)的故障是由于微軟升級(jí)Azure存儲(chǔ)服務(wù)的性能導(dǎo)致的,微軟Azure企業(yè)副總裁Jason Zander解釋了這次故障的原因,并對(duì)所有受影響的Azure用戶道歉。
美國太平洋時(shí)間11月18日晚,美國、歐洲和亞洲部分Azure用戶存儲(chǔ)和網(wǎng)站服務(wù)無法訪問,部分Xbox LIVE用戶無法聯(lián)機(jī),微軟MSN.com網(wǎng)站、Visual Studio Online和搜索也得到了影響。更糟糕的是,Azure服務(wù)健康狀態(tài)(Service Health Dashboard)和Azure管理門戶(Management Portal)都依賴于Azure存儲(chǔ)服務(wù),這兩款服務(wù)都沒有正確地顯示Azure的狀態(tài),在Azure故障的時(shí)候,頁面顯示服務(wù)狀態(tài)為正常。
盡管微軟已經(jīng)測(cè)試了幾周這次的Azure存儲(chǔ)服務(wù)的性能更新,但直到微軟部署到Azure上才意識(shí)到“有一個(gè)問題導(dǎo)致存儲(chǔ)二進(jìn)制大對(duì)象前端進(jìn)入無限循環(huán)”的問題。Jason Zander表示,“結(jié)果是前端無法承接進(jìn)一步的流量,反過來又導(dǎo)致建立在它之上的其他的服務(wù)出現(xiàn)問題。”
微軟在發(fā)現(xiàn)問題后,立刻回滾了更新,但仍需要重啟存儲(chǔ)前端來徹底恢復(fù)。根據(jù)官方故障報(bào)告,“這次故障已經(jīng)被大范圍擴(kuò)散,由于操作失誤更新在短時(shí)間內(nèi)快速部署到了大部分?jǐn)?shù)據(jù)中心,通常這一生產(chǎn)環(huán)境的部署是漸進(jìn)部署的”。
Zander表示,結(jié)果是一些客戶仍然會(huì)遇到“間歇性的問題”。他表示,微軟的工程師們正在和這些客戶一起解決這些難纏的問題。
Jason Zander也承諾盡可能避免再出現(xiàn)此類故障:
確保部署工具強(qiáng)化應(yīng)用產(chǎn)品變更的標(biāo)準(zhǔn)協(xié)議,在產(chǎn)品更新的過程中使用漸進(jìn)式部署。改進(jìn)恢復(fù)方法,盡量減少恢復(fù)時(shí)間。修復(fù)存儲(chǔ)前端無限循環(huán)Bug,然后再部署到生產(chǎn)環(huán)境。改進(jìn)服務(wù)健康狀態(tài)架構(gòu)(Service Health Dashboard Infrastructure)和協(xié)議。