數(shù)字化災(zāi)難!2016年九大服務(wù)停機(jī)事故總結(jié)

責(zé)任編輯:editor007

作者:核子可樂譯

2017-01-03 20:24:35

摘自:51cto

為了避免發(fā)生計(jì)劃外停機(jī),我們將在這里回顧過去一年中出現(xiàn)的那些最為嚴(yán)重的服務(wù)停機(jī)事故,希望能夠以此為鑒指導(dǎo)新一年中的業(yè)務(wù)連續(xù)性保障工作。根據(jù)統(tǒng)計(jì),此次時(shí)長達(dá)5小時(shí)的停機(jī)共造成2000次航班取消,總體損失估計(jì)達(dá)1 5億美元。

服務(wù)器宕機(jī)一直是業(yè)界關(guān)注的焦點(diǎn),我們?cè)撊绾未_保自己的品牌不會(huì)受到停機(jī)事故的負(fù)面影響呢?這確實(shí)是個(gè)值得思考的問題。

  停機(jī)事故

2016年發(fā)生的一系列停機(jī)事故已經(jīng)導(dǎo)致眾多知名品牌遭受嚴(yán)重?fù)p失,其商業(yè)信譽(yù)與消費(fèi)者信心亦因此受到重大打擊。發(fā)生停機(jī)事故的主要原因之一在于計(jì)劃外的系統(tǒng)配置變更,這通常是因?yàn)榧磿r(shí)bug或者潛在系統(tǒng)安全漏洞修復(fù)意外引發(fā)了更為嚴(yán)重的問題。

為了避免發(fā)生計(jì)劃外停機(jī),我們將在這里回顧過去一年中出現(xiàn)的那些最為嚴(yán)重的服務(wù)停機(jī)事故,希望能夠以此為鑒指導(dǎo)新一年中的業(yè)務(wù)連續(xù)性保障工作。

  美國西南航空

去年10月,836條西南航空航線遭遇延誤,而根源在于該公司航線技術(shù)系統(tǒng)中的問題。根據(jù)該公司介紹,技術(shù)人員不得不全力修復(fù)主要系統(tǒng)并利用備份規(guī)程以幫助客戶及其托運(yùn)行李正確到達(dá)目的地。

  達(dá)美航空

達(dá)美航空公司證實(shí),亞特蘭大當(dāng)?shù)氐囊淮坞娏χ袛嘤绊懙狡淞璩繒r(shí)開始進(jìn)行的系統(tǒng)更新,并最終導(dǎo)致計(jì)算機(jī)系統(tǒng)癱瘓以及大量航班延誤。該公司同時(shí)警告稱,當(dāng)周一其被迫因此取消大量航班,且機(jī)場(chǎng)屏幕及其它飛行狀態(tài)系統(tǒng)將無法正常顯示航班相關(guān)信息。

根據(jù)統(tǒng)計(jì),此次時(shí)長達(dá)5小時(shí)的停機(jī)共造成2000次航班取消,總體損失估計(jì)達(dá)1.5億美元。

  Salesforce

這家云應(yīng)用廠商在其官方網(wǎng)站上指出,其NA14實(shí)例上的一套數(shù)據(jù)庫出現(xiàn)文件完整性問題,并導(dǎo)致超過12個(gè)小時(shí)的服務(wù)停機(jī)事故。

根據(jù)統(tǒng)計(jì),由此次停機(jī)造成的經(jīng)濟(jì)損失約為2000萬美元。

  蘋果

去年6月,蘋果公司放下的iCloud、App Store、iTunes以及Apple TV等一系列互聯(lián)網(wǎng)服務(wù)發(fā)生長達(dá)9小時(shí)的停機(jī)事故。另外,去年12月初用戶們亦發(fā)現(xiàn)其暫時(shí)無法登錄自己的iCloud賬戶。

  Slack

去年6月,高達(dá)300萬用戶在2小時(shí)內(nèi)由于Web服務(wù)器過載而無法正常訪問Slack。

該公司目前正在就如何避免再次發(fā)生類似問題而進(jìn)行討論。

  身份是解決問題的關(guān)鍵

為了避免發(fā)生停機(jī)事故,IT運(yùn)營團(tuán)隊(duì)?wèi)?yīng)當(dāng)對(duì)現(xiàn)有服務(wù)進(jìn)行分層,同時(shí)將系統(tǒng)身份識(shí)別作為業(yè)務(wù)中的關(guān)鍵性因素。其中頂級(jí)應(yīng)用應(yīng)是那些與業(yè)務(wù)成敗直接關(guān)聯(lián)的重要應(yīng)用,例如銷售點(diǎn)、票務(wù)或者計(jì)費(fèi)等功能相關(guān)的應(yīng)用。

  為頂級(jí)系統(tǒng)制定故障切換計(jì)劃

高可用性水平不可能自然實(shí)現(xiàn),我們必須為其做好規(guī)劃及實(shí)施。具體而言,高可用性立足于系統(tǒng)架構(gòu)中的各個(gè)方面。頂級(jí)系統(tǒng)需要切實(shí)配合故障切換計(jì)劃,同時(shí)利用額外負(fù)載容量處理意外出現(xiàn)的負(fù)載峰值。

  投資建立高水平監(jiān)控堆棧

如果無法把握服務(wù)的當(dāng)前運(yùn)行狀態(tài),那么保證其運(yùn)行狀態(tài)也將成為癡人說夢(mèng)。事實(shí)上,準(zhǔn)確了解IT系統(tǒng)運(yùn)行狀態(tài)的惟一途徑就是在堆棧中的各個(gè)層面上引入一流監(jiān)控工具(例如系統(tǒng)監(jiān)控、應(yīng)用監(jiān)控、Web與用戶監(jiān)控、日志記錄以及錯(cuò)誤追蹤等方案)。目前IT行業(yè)正積極利用這種分層式功能獨(dú)立方案取代原有的整體式服務(wù)監(jiān)控機(jī)制,從而適應(yīng)持續(xù)提升的IT系統(tǒng)復(fù)雜性與動(dòng)態(tài)水平。

  在警報(bào)機(jī)制內(nèi)區(qū)分有效信號(hào)與干擾信號(hào)

工具數(shù)量的增加同時(shí)意味著我們需要面對(duì)更多干擾信號(hào)。為了有效識(shí)別、分類并解決潛在問題,IT團(tuán)隊(duì)必須找到可行方式以正確進(jìn)行有效信號(hào)與干擾信號(hào)分離。通過采用警報(bào)關(guān)聯(lián)解決方案,IT團(tuán)隊(duì)將能夠了解各監(jiān)控工具的警報(bào)信息間存在哪些聯(lián)系,從而快速過濾掉非關(guān)鍵性問題,最終集中精力處理最重要的風(fēng)險(xiǎn)因素。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)