數(shù)據(jù)中心中斷的事件調(diào)查和預(yù)防

責(zé)任編輯:editor005

2017-11-18 18:13:26

摘自:中國IDC圈

來自波洛蒙研究所的數(shù)據(jù)表明,數(shù)據(jù)中心的每次中斷平均成本從2010年的50萬美元增加到2016年的70多萬美元,增長了38%?!薄?/p>

來自波洛蒙研究所的數(shù)據(jù)表明,數(shù)據(jù)中心的每次中斷平均成本從2010年的50萬美元增加到2016年的70多萬美元,增長了38%。

設(shè)計(jì)和構(gòu)建一個(gè)具有高度彈性的數(shù)據(jù)中心費(fèi)用高昂,而數(shù)據(jù)中的宕機(jī)損失也是如此。來自波洛蒙研究所的數(shù)據(jù)表明,數(shù)據(jù)中心的每次中斷平均成本從2010年的50萬美元增加到2016年的70多萬美元,增長了38%。

然而,波洛蒙研究所的“數(shù)據(jù)中心停機(jī)成本”報(bào)告顯示,停機(jī)的最高成本可能高達(dá)240萬美元。而最近發(fā)生的一些數(shù)據(jù)中心停運(yùn)事件的損失更為慘重,例如航空行業(yè)的數(shù)據(jù)中心設(shè)施,損失的費(fèi)用可能會(huì)更高,估計(jì)有數(shù)千萬美元之巨。

對(duì)中斷事件進(jìn)行調(diào)查

鑒于直接的財(cái)務(wù)損失和聲譽(yù)受到損害這些后果,發(fā)生數(shù)據(jù)中心中斷的公司通常要進(jìn)行徹底的調(diào)查。雖然有些企業(yè)可能將事情的真相隱藏起來,但有些企業(yè)通過聘請(qǐng)第三方機(jī)構(gòu)的專家來處理這個(gè)過程。引入第三方服務(wù)的好處是,企業(yè)的數(shù)據(jù)中心設(shè)施或IT團(tuán)隊(duì)可能沒有資源或技能水平進(jìn)行深入調(diào)查,同時(shí)還要在業(yè)務(wù)中斷之后恢復(fù)服務(wù)。

在一些情況下,企業(yè)的內(nèi)部人員也可能試圖轉(zhuǎn)移責(zé)任或混淆事故的原因,特別是人為錯(cuò)誤這一因素。如果沒有嚴(yán)格的調(diào)查和報(bào)告程序,那么中斷事件還會(huì)有再次發(fā)生的可能性。

調(diào)查表明,數(shù)據(jù)中心中斷主要是設(shè)施問題而不是IT的相關(guān)因素,企業(yè)的一種選擇是求助特定的機(jī)械和電氣(M&E)工程服務(wù)團(tuán)隊(duì)解決。例如,如果中斷事件涉及廠家的設(shè)備,將需要數(shù)據(jù)中心技術(shù)供應(yīng)商到達(dá)現(xiàn)場進(jìn)行處理。

行業(yè)專家Steve Carlini表示:“如果用戶的數(shù)據(jù)中心發(fā)生災(zāi)難性的中斷事件,我們將有一個(gè)專門處理這個(gè)問題的流程。這有點(diǎn)像汽車制造商在事故發(fā)生后立即著手處理,我們將在中斷事件發(fā)生后將技術(shù)團(tuán)隊(duì)派往現(xiàn)場,并開始進(jìn)行深入調(diào)查研究。”

英國數(shù)據(jù)中心工程服務(wù)專家Future技術(shù)公司也提供了類似的服務(wù),但其調(diào)查范圍更為廣泛。該公司首席執(zhí)行官JamesWilman表示:“我們進(jìn)入業(yè)務(wù)中斷的數(shù)據(jù)中心以確定故障根源,并且在許多情況下,可以通過解決方案解決數(shù)據(jù)中心或受到影響的基礎(chǔ)設(shè)施遇到的問題,以避免發(fā)生類似的事件。”

企業(yè)對(duì)于數(shù)據(jù)中心中斷調(diào)查的需求不斷增加。Wilman說,“在過去一年里,我們已經(jīng)完成了五到六個(gè)這樣的調(diào)查,這些數(shù)據(jù)中心的容量為1到5MW。”

行業(yè)專家Carlini表示,隨著數(shù)據(jù)中心的規(guī)模越來越大,對(duì)中斷事件調(diào)查的需求也越來越大。特別是電弧閃光(危險(xiǎn)放電)事件的數(shù)量有所增加,調(diào)查工作需要專門培訓(xùn)的人員和設(shè)備來進(jìn)行。

Carlini表示,“數(shù)據(jù)中心的規(guī)模要比過往大得多,而對(duì)于設(shè)備器件的要求也就更高。例如,中小規(guī)模的數(shù)據(jù)中心可以采用普通規(guī)格的斷路器,數(shù)據(jù)中心設(shè)施管理人員可以簡單地重置跳閘的斷路器。而對(duì)于規(guī)模非常大的數(shù)據(jù)中心,這種操作必須是經(jīng)過專業(yè)培訓(xùn)的專業(yè)人士才能實(shí)施,因?yàn)槠鋽嗦菲鞯囊?guī)格更高,會(huì)產(chǎn)生更大的電弧。”

雖然數(shù)據(jù)中心中斷停機(jī)的最終根源可能與機(jī)電設(shè)備相關(guān),但確定其根本原因的過程往往始于IT設(shè)備。

Wilman說:“調(diào)查團(tuán)隊(duì)可能從服務(wù)器或IT設(shè)備中的實(shí)際組件開始著手,他們將確定這些組件是什么,這些組件受到影響的原因是什么,然后回到電源鏈,直到發(fā)現(xiàn)可能導(dǎo)致事件發(fā)生的原因。”

可能導(dǎo)致數(shù)據(jù)中心停機(jī)的因素有多種。根據(jù)Ponemon研究所的調(diào)查報(bào)告,2016年數(shù)據(jù)中心中斷的主要原因是供電系統(tǒng)的問題,尤其是UPS故障。人為錯(cuò)誤是第二個(gè)主要原因,其次是冷卻系統(tǒng)或水冷系統(tǒng),還有與天氣有關(guān)的事故,以及發(fā)電機(jī)故障等。根據(jù)研究表明,IT設(shè)備故障僅占中斷事故的4%。

美國的Tier Ⅲ級(jí)數(shù)據(jù)中心中斷分布圖

數(shù)據(jù)中心中斷的多重原因

然而在實(shí)踐中,得出一個(gè)具體原因可能是一個(gè)挑戰(zhàn)。事實(shí)上,數(shù)據(jù)中心的中斷可能是各種問題的連鎖反應(yīng)。

“例如,一臺(tái)老化的設(shè)備發(fā)生故障,但是由于系統(tǒng)冗余,這個(gè)故障本身并不會(huì)導(dǎo)致停機(jī)中斷。”Wilman說。“在中斷發(fā)生后,數(shù)據(jù)中心的工作人員試圖隔離有問題的設(shè)備,但由于過時(shí)的信息或缺乏培訓(xùn)/知識(shí),錯(cuò)誤地執(zhí)行旁路操作,使問題得到進(jìn)一步惡化,最終導(dǎo)致關(guān)鍵負(fù)載宕機(jī)中斷。”

中斷也可能涉及多個(gè)設(shè)備,并且其問題的根源可能需要所有相關(guān)技術(shù)供應(yīng)商的意見。

Carlini說:“有時(shí)候問題不明確時(shí),客戶會(huì)要求涉及設(shè)備所有公司的代表坐在一起查明原因。在這種情況下,采用一些監(jiān)控工具(DCIM軟件)可能會(huì)有所幫助??梢韵胂?,考慮到涉及的人數(shù),這種方法可能會(huì)很笨拙。這就是建立監(jiān)控系統(tǒng)以確保數(shù)據(jù)通道的重要性的原因。”

在確定了中斷的原因之后,下一步就是將結(jié)果記錄在一份詳細(xì)的報(bào)告中,并提出將來如何避免中斷事件的建議。這個(gè)過程可能需要幾天,甚至幾周時(shí)間,具體取決于設(shè)施中斷的復(fù)雜程度,也取決于業(yè)主或運(yùn)營商設(shè)定的時(shí)間表。由此產(chǎn)生的報(bào)告往往是一個(gè)高度敏感的文件,特別是如果人為錯(cuò)誤的責(zé)任。Wilman說:“有時(shí)數(shù)據(jù)中心工作人員認(rèn)為調(diào)查團(tuán)隊(duì)是針對(duì)他們的或者可能要找到替罪羊,他們可能會(huì)有些敵意。但事實(shí)并非如此,因?yàn)槲ㄒ坏哪康木褪谴_定中斷的根本原因,并防止再次發(fā)生這樣的事件。”

但是,在大多數(shù)事件中,劃分責(zé)任可能不是優(yōu)先事項(xiàng),但在外面攻擊或人為故意破壞的情況下,這一點(diǎn)變得至關(guān)重要。根據(jù)Ponemon研究所的報(bào)告,故意攻擊的安全漏洞(包括分布式拒絕服務(wù)攻擊)從2010年的2%上升到2016年的22%。在這種情況下,查明中斷事件的原因可能有助于防范未來的襲擊,但也有助于執(zhí)法機(jī)構(gòu)查明肇事者。

只要數(shù)據(jù)中心發(fā)生中斷,對(duì)于中斷調(diào)查服務(wù)的需求將繼續(xù)增長。然而,技術(shù)格局不斷轉(zhuǎn)變。數(shù)據(jù)中心的監(jiān)控和管理方式也在不斷發(fā)展。DCIM工具的使用(盡管并不像一些供應(yīng)商所希望的那樣普遍)正在增加,這從長遠(yuǎn)來看應(yīng)該會(huì)使數(shù)據(jù)中心運(yùn)營商對(duì)中斷更容易進(jìn)行自我診斷。設(shè)備制造商還將更多的智能和軟件嵌入到電力和冷卻設(shè)備中,以實(shí)現(xiàn)主動(dòng)和預(yù)防性維護(hù),這也有助于減少設(shè)備故障發(fā)生的可能性。

防止數(shù)據(jù)中心中斷的方法也正在發(fā)生變化,以大型云計(jì)算運(yùn)營商為首的更多運(yùn)營商在“分布式彈性”進(jìn)行投入,軟件和網(wǎng)絡(luò)在確保可用性方面發(fā)揮更大的作用,而不是冗余的機(jī)械和電氣設(shè)備。在這種情況下,單個(gè)UPS、發(fā)電機(jī)或甚至整個(gè)數(shù)據(jù)中心的性能在這種情況下變得不太重要。

然而,與這種趨勢相對(duì)應(yīng)的是,如果在這樣一個(gè)高度分散的系統(tǒng)中發(fā)生服務(wù)中斷,那么追蹤最終原因?qū)⑿枰J(rèn)真嚴(yán)肅的調(diào)查工作。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)