2014年11月5日,新加坡證券交易所(SGX)業(yè)務(wù)系統(tǒng)中止了將近三個小時,因其數(shù)據(jù)中心無法應(yīng)付由雷擊引起的電壓波動而停電宕機(jī)。據(jù)當(dāng)時的報道,5日下午2點18分,斷電事故致使新加坡證券交易所業(yè)務(wù)中斷,直到下午5:15才恢復(fù)正常,并且導(dǎo)致其切換到輔助數(shù)據(jù)中心的數(shù)據(jù)不完整。
由于停電,致使2小時42分的證券交易中斷和4小時27分鐘的衍生業(yè)務(wù)計劃外停機(jī),這是一個嚴(yán)重影響新加坡作為金融中心聲譽(yù)的事件。新加坡政府對于發(fā)生在吉寶訊通新加坡證券交易所主數(shù)據(jù)中心的事件高度重視,為此成立一個高級別調(diào)查(BCOI)董事委員會進(jìn)行獨立監(jiān)督調(diào)查。
一系列不幸事件
在今年年初,BCOI完成調(diào)查報告,并于2015年3月31日將其報告交付給新交所,6月底新交所進(jìn)行了公開發(fā)布。新交所宣布了高達(dá)1500萬美元的投資,以改善其基礎(chǔ)設(shè)施,對其在2014年11月業(yè)務(wù)停運和12月3日的獨立軟件相關(guān)停運進(jìn)行恢復(fù)。
BCOI邀請了一些數(shù)據(jù)中心專家,來調(diào)查到底發(fā)生了什么,并希望了解哪些行業(yè)能夠從這一事件得到經(jīng)驗和教訓(xùn)。不久之后,新交所指定了讓i3解決方案公司調(diào)查停電原因。
而BCOI出具的調(diào)查報告解釋事件發(fā)生的根本原因,以下援引其結(jié)論:
“停電的突發(fā)事件是新加坡電力為新交所主要數(shù)據(jù)中心(PDC)提供電力時,其同步電壓跌落,同時啟動了兩個應(yīng)急電源系統(tǒng)(柴油發(fā)電機(jī)+不間斷電源(DRUPS))。
而兩個應(yīng)急電源系統(tǒng)其中一個發(fā)生故障,這導(dǎo)致其輸出頻率與另一個DRUPS的輸出頻率不同。其下游的靜態(tài)轉(zhuǎn)換開關(guān)(STS)無法補(bǔ)償頻率差,并引起相位功率轉(zhuǎn)移,從而反過來引起一個浪涌電流,導(dǎo)致新交所主要數(shù)據(jù)中心大量斷路器的跳閘,致使整個數(shù)據(jù)中心停電,關(guān)閉了新交所全部的IT系統(tǒng)和設(shè)備。
新交所主要數(shù)據(jù)中心停電事故的關(guān)鍵原因是,電力傳輸通過STS時,兩個應(yīng)用電源系統(tǒng)的輸出頻率不同步。
STS是一個可以連接兩條電源線路,在一條電源線路出現(xiàn)故障的情況下,可以快速安全地切換到另一條電源線路,以保證連續(xù)供電的電氣開關(guān)。這種情況下,這可能存在著一個設(shè)計錯誤,而不能通過隨后的測試。這意味著,STS無法處理相位功率轉(zhuǎn)移,因此不能補(bǔ)償由所述故障DRUPS頻率差。這引發(fā)了輸出電流浪涌,并最終導(dǎo)致數(shù)據(jù)中心全部停電。”
歸結(jié)為人為錯誤
“我希望可對STS在頻率同步方面進(jìn)行檢查,以確保它是否進(jìn)行安全的切換,以防止故障轉(zhuǎn)移到其它輸入。因此,在這種情況下有可能是配置錯誤,“一名不愿透露姓名的高級工程師看到報告后表示。
需要明確的是,BCOI報告指出新交所主要數(shù)據(jù)中心(PDC)的整體設(shè)計是合格的,而且它符合“工業(yè)韌性標(biāo)準(zhǔn)和最佳實踐”。為什么在設(shè)計時不將STS與動態(tài)電壓能力這個安全性的問題放在首位?為什么不查一查是哪個專家批準(zhǔn)的設(shè)計?
談到一般任務(wù)關(guān)鍵設(shè)施,綠色全球解決方案組織的馬丁·休帕說:“人為錯誤往往是導(dǎo)致相關(guān)的停機(jī)時間的罪魁禍?zhǔn)住H藶殄e誤故障模式并不總是完全映射的,需要團(tuán)隊更加細(xì)致的維護(hù)才能將隱患降到最低。”
另外一位不愿透露姓名的數(shù)據(jù)中心運營商的高管表示,對于數(shù)據(jù)中心的設(shè)計和實現(xiàn)方面需要考慮更加長遠(yuǎn)。從工程的角度看,一切都是根據(jù)客戶的要求所設(shè)計和建造的,因此有某些方面還不到位。
而數(shù)據(jù)中心的每一個業(yè)務(wù)中斷事故,對于服務(wù)供應(yīng)商和最終用戶來說,都是一個學(xué)習(xí)經(jīng)驗和教訓(xùn)的機(jī)會。
i3解決方案公司的董事長及聯(lián)合創(chuàng)始人埃德·安捷表示,“憑心而論,大多數(shù)工程師并不會犯設(shè)計缺陷這個顯而易見的錯誤,我們公司將幫助新交所識別和排除故障,我們在新交所之前遇到過這種故障類型,所以我知道該怎么做。這不是一個新問題,這是知識淵博的數(shù)據(jù)中心專業(yè)人士所必備的專業(yè)技能。”
而至于為什么沒有切換到輔助數(shù)據(jù)中心(SDC),BCOI報告指出,現(xiàn)有信息已經(jīng)提交給新交所的危機(jī)管理小組,這意味著他們不得不考慮主要數(shù)據(jù)中心與輔助數(shù)據(jù)中心之間的臨時通信丟失的可能性。因為在主要數(shù)據(jù)中心(PDC)匹配引擎設(shè)計繼續(xù)在通信丟失的情況下運行,訂單可能會成為不匹配,在故障轉(zhuǎn)移時使得它并不安全。
基于這些信息,Organisation彈性管理公司總經(jīng)理WongTewKiat對于其業(yè)務(wù)連續(xù)性和數(shù)據(jù)中心管理提出建議,認(rèn)為PDC和SDC在IT配置上可能有所不同。“不同配置主數(shù)據(jù)中心(PDC)和輔助數(shù)據(jù)中心(SDC)可能是由于多年技術(shù)有所改變,而SDC及時改變了技術(shù)。”他表示。
如何在業(yè)務(wù)持續(xù)性管理或企業(yè)風(fēng)險管理進(jìn)行BCM的風(fēng)險評估,Wong說:“我們將不再只注重業(yè)務(wù)連續(xù)性,同時還需要對IT硬件,應(yīng)用風(fēng)險管理軟件,網(wǎng)絡(luò)通信和數(shù)據(jù)中心進(jìn)行整合(一個更全面的方式)。”
該BCOI報告中對數(shù)據(jù)中心各方面提出了改進(jìn)建議,包括其內(nèi)部程序,監(jiān)控功能,恢復(fù)時間和溝通,利益相關(guān)者等,而新交所宣布對這些方面進(jìn)行投資。如果發(fā)生什么事情,雖然可以顯而易見地看到其結(jié)果,但是停電不是新交所唯一可能發(fā)生的故障,由于這一事故,他們不得不依靠外部專家進(jìn)行協(xié)助。
根據(jù)報道:“在新交所的PDC[主數(shù)據(jù)中心]的設(shè)施,包括電源的結(jié)構(gòu)和系統(tǒng),由DCP提供。新交所在建造和運營數(shù)據(jù)中心設(shè)施方面,不具備內(nèi)部設(shè)計的專業(yè)知識,因此,新交所必須依靠DCP的專長。”
而對于數(shù)據(jù)中心運營商來說也提出了一些問題,如為哪些行業(yè)提供服務(wù),并能提高自己的水平?雖然這個問題沒有簡單的答案,但專家建議,數(shù)據(jù)中心故障的知識共享可以使整個行業(yè)受益。
安捷表示,“而這個根本的問題是一個全球性的問題,總體來說,沒有披露其失敗的原因,但是為什么要披露呢?這會讓新交所感到尷尬,并會損害名譽(yù)。因此,如果沒有違反法規(guī),那么當(dāng)事者很自然地避免向外解釋發(fā)生了什么事情。”
“數(shù)據(jù)中心的每一個中斷事故都是運營商和最終用戶一個學(xué)習(xí)經(jīng)驗的機(jī)會。”Equinix公司新加坡運營總監(jiān)蒂亞姆·玻斯說,“在發(fā)生故障后,通過對事故發(fā)生的細(xì)節(jié)進(jìn)行整理,很容易讓顧客清楚發(fā)生了什么,并表示‘如果我知道,我永遠(yuǎn)不會做這種事。’”
“這些事故發(fā)生后,雖然造成了一定的損失,但它對未來的影響顯著。如果我們不斷分析結(jié)果,不斷創(chuàng)新,進(jìn)行相應(yīng)的規(guī)劃,以實施其最佳做法。”他說。
目前,新交所接受了其在中斷事件中負(fù)全部責(zé)任的事實,并且接受了BCOI的建議,來改善和加強(qiáng)其技術(shù)基礎(chǔ)設(shè)施。同時,新加坡金融管理局(MAS)也宣布,將通過獨立的專家團(tuán)隊來監(jiān)督和驗證補(bǔ)救措施是否落實到位。