數(shù)據(jù)中心的中斷問(wèn)題持續(xù)困擾著IT人員。執(zhí)行數(shù)據(jù)中心調(diào)試或?qū)徲?jì),擁有堅(jiān)實(shí)的電源設(shè)計(jì),以保護(hù)您的組織免受宕機(jī)影響。
在其他眾多知名公司之上的美聯(lián)航、達(dá)美航空和西南航空公司—最近遭受了主數(shù)據(jù)中心的中斷。而他們的過(guò)于公開(kāi)的關(guān)機(jī)處理又給IT管理人員的問(wèn)題清單上增加了另一項(xiàng)煩惱。
據(jù)報(bào)道,許多這些數(shù)據(jù)中心的事故是由于電力故障引起的,這并沒(méi)有很出乎意料。根據(jù)Uptime Institute的研究,發(fā)動(dòng)機(jī)發(fā)電機(jī)系統(tǒng)是數(shù)據(jù)中心主要的電力來(lái)源,應(yīng)采用公用事業(yè)電力作為經(jīng)濟(jì)的選擇。然而,公用事業(yè)電力中斷“并不被認(rèn)為是一種故障,而是一種預(yù)期的運(yùn)行狀況,相關(guān)站點(diǎn)必須做好準(zhǔn)備。”
換句話說(shuō),大多數(shù)企業(yè)數(shù)據(jù)中心都可能會(huì)發(fā)生這樣的電源中斷。對(duì)于在其職業(yè)生涯之中擔(dān)心這種事情的CIO來(lái)說(shuō),這可能是資助部分所需改進(jìn)的機(jī)會(huì)。但是,請(qǐng)注意:簡(jiǎn)單地增加冗余設(shè)備并非解決之道。
關(guān)鍵任務(wù)數(shù)據(jù)中心電源設(shè)計(jì)的挑戰(zhàn)企業(yè)數(shù)據(jù)中心最大的漏洞是隱藏的缺陷和安裝錯(cuò)誤。簡(jiǎn)單地復(fù)制設(shè)備和真正的關(guān)鍵任務(wù)的設(shè)計(jì)之間的差異是巨大的。然而,為潛在的故障點(diǎn)檢查數(shù)據(jù)中心電源設(shè)計(jì)是一個(gè)艱巨的過(guò)程??紤]聘請(qǐng)高素質(zhì)的獨(dú)立專家為您的組織執(zhí)行此任務(wù)。
您可以通過(guò)設(shè)計(jì)和安裝來(lái)不斷審視全新或更新的設(shè)施,但另一個(gè)問(wèn)題是在現(xiàn)有設(shè)施在使用過(guò)程中進(jìn)行漏洞補(bǔ)救。當(dāng)您糾正漏洞時(shí),您對(duì)操作的公開(kāi)可能導(dǎo)致事故。但是,即使您不進(jìn)行風(fēng)險(xiǎn)更正,需了解潛在的故障可能在哪里,以盡量減少數(shù)據(jù)中心中斷的風(fēng)險(xiǎn)。
并不安全的備用電源
記錄最詳盡的電力故障中斷之一發(fā)生在舊金山的365 Main。該公司擁有冗余不間斷電源(UPS)系統(tǒng)和發(fā)電機(jī),以滿足客戶對(duì)不間斷供電的期望。但是在2007年7月24日,墨菲法案(Murphy's Law)不請(qǐng)自來(lái)。
首先是電源故障。數(shù)據(jù)中心的UPS保持供電,直到發(fā)電機(jī)啟動(dòng)。但是不久之后,這些發(fā)電機(jī)一個(gè)接一個(gè)地關(guān)閉,造成數(shù)據(jù)中心中斷,這幾個(gè)小時(shí)影響了公司的高階客戶。
盡管數(shù)據(jù)中心擁有堅(jiān)實(shí)的電力系統(tǒng)設(shè)計(jì),但數(shù)據(jù)中心運(yùn)營(yíng)商并沒(méi)有通過(guò)調(diào)試測(cè)試來(lái)揭示發(fā)電機(jī)控制中的問(wèn)題—固件。相比于反復(fù)測(cè)試故障和在負(fù)載下重啟發(fā)動(dòng)機(jī),管理員選擇依賴于備份電源和冗余的虛構(gòu)的安全性。
許多現(xiàn)代UPS系統(tǒng)可以指示服務(wù)器在電池壽命降到預(yù)設(shè)閾值以下時(shí)開(kāi)始受控停機(jī)。雖然(此方法)不是很理想,但實(shí)現(xiàn)此功能遠(yuǎn)比在重新啟動(dòng)時(shí)遇到嚴(yán)重問(wèn)題要更好。
如果您可以修復(fù)漏洞,請(qǐng)制訂詳細(xì)的計(jì)劃,了解如何解決此漏洞,以及如何處理補(bǔ)救過(guò)程可能導(dǎo)致的潛在故障。例如,如果管理員發(fā)出火災(zāi)報(bào)警器,應(yīng)該有人與他一起處理這種情況,并避免傾倒氣體防火系統(tǒng)和自動(dòng)停機(jī)。并且,如果計(jì)劃在工作期間關(guān)閉火災(zāi)報(bào)警器,通知設(shè)施,安全和消防部門(mén),并確保有人用便攜式滅火器待命。如果存在冷卻故障的潛在可能,則計(jì)劃啟動(dòng)選擇性停機(jī)以減少熱負(fù)荷并放置便攜式空調(diào)作為預(yù)防措施。
通過(guò)調(diào)試盡可能減少數(shù)據(jù)中心的中斷風(fēng)險(xiǎn)
即使數(shù)據(jù)中心電源設(shè)計(jì)是完美的,仍然可能會(huì)出現(xiàn)錯(cuò)誤,管理員只能通過(guò)調(diào)試來(lái)識(shí)別。 調(diào)試代理不僅查看安裝的正確性,并驗(yàn)證正確的設(shè)置和調(diào)整,但也可能會(huì)嘗試破壞系統(tǒng)。要完成測(cè)試,代理使用一組腳本,在模擬條件下運(yùn)行基礎(chǔ)設(shè)施系統(tǒng),并關(guān)閉各種元素,就好像它們發(fā)生故障一樣。
調(diào)試過(guò)程還包括負(fù)載下的總電源關(guān)閉,并且可能會(huì)在單個(gè)設(shè)備中引入額外的故障,具體取決于用于設(shè)計(jì)意圖的可用性級(jí)別。該過(guò)程還應(yīng)識(shí)別不清楚的標(biāo)記和無(wú)保護(hù)或難以達(dá)成的關(guān)鍵控制,例如關(guān)閉電源緊急按鈕沒(méi)有保護(hù)蓋和警報(bào)不響。
對(duì)于新設(shè)施來(lái)說(shuō),在設(shè)計(jì)開(kāi)發(fā)階段開(kāi)始投產(chǎn)。如果您使用獨(dú)立的調(diào)試代理,在完成項(xiàng)目設(shè)計(jì)之前,請(qǐng)確保代理識(shí)別并補(bǔ)救出大部分的潛在缺陷。這不僅減少了數(shù)據(jù)中心中斷的可能性,而且避免了大規(guī)模更改訂單成本的潛在可能。
在現(xiàn)有的數(shù)據(jù)中心,多次關(guān)機(jī)來(lái)查找問(wèn)題是過(guò)于危險(xiǎn)的,這是說(shuō)完全意義上的調(diào)試是無(wú)法實(shí)現(xiàn)的。在這種情況下,請(qǐng)考慮使用數(shù)據(jù)中心審計(jì),其中涉及到關(guān)鍵系統(tǒng)的設(shè)計(jì)審查和現(xiàn)場(chǎng)測(cè)量、測(cè)試和檢查等的組合過(guò)程。雖然它不會(huì)暴露每種潛在的情況,但它可以暴露絕大多數(shù)的漏洞,并為實(shí)踐中提供補(bǔ)救的辦法和路徑。