如何應對數(shù)據(jù)中心突發(fā)事件

責任編輯:editor004

作者:CC編譯

2017-03-31 10:40:45

摘自:機房360

摘要:數(shù)據(jù)中心運維團隊需能夠在沒有任何預警的情況下,能夠迅速、有效地應對突發(fā)狀況。例如:UPS冗余出現(xiàn)故障,發(fā)電機燃料用盡,UPS電池組故障等)  災難或緊急: - 導致系統(tǒng)嚴重損壞、停機,業(yè)務中斷或人身傷害的事件或情況。

數(shù)據(jù)中心運維團隊需能夠在沒有任何預警的情況下,能夠迅速、有效地應對突發(fā)狀況。對于不可預見的問題,故障、危險可導致人身傷害或宕機的情況,都需有應對措施。只有做好充分準備,才可以迅速響應,最大限度降低突發(fā)狀況對數(shù)據(jù)中心影響,并有效防止事故再次發(fā)生。文章描述對關鍵設備有效應急準備以及響應戰(zhàn)略體系。內(nèi)容由7部分組成,分為3類:緊急響應程序,緊急演習和事件管理。

即使經(jīng)過專業(yè)設計與Tier IV認證的數(shù)據(jù)中心,也不能保證其100%的可靠性。由于IT系統(tǒng)意外停機,業(yè)務中斷始終是一種潛在風險。做足準備是一種最好的抵御方式,并有助于確保及時應對。

準備工作從為確定高風險故障(例如冷卻設備受損,發(fā)電機啟動失敗等)到開啟緊急操作程序(EOP),還需要制定和演練升級程序,以確保通知指揮系統(tǒng),并隨著形勢的發(fā)展調(diào)派資源。

應定期對運維團隊成員進行情境演練,評估團隊面對突發(fā)狀況的反應與應激能力、個人對應急事件響應的狀態(tài)與效果。一旦遇到突發(fā)狀況,為降低其帶來的影響,應在事后進行充分分析,找到發(fā)生事件根本原因,分析響應應急措施在處理這狀況時的效果以及待改善的地方。對重大設備事件故障分析是全部完善過程的基本組成部分,最終目的在于降低故障率,并提高應對未來發(fā)生不可預見事件的處理速度。

表1:簡要概述數(shù)據(jù)中心有效應急準備和響應計劃的主要方面。有七部分,被分組在三個分類中。

首先我們來看EOP,需要對突發(fā)狀況現(xiàn)場進行快速、安全地隔離,同時盡快恢復服務、提供急救是緊急響應流程中的最重要與關鍵的方面。

接下來,危機管理計劃(CMP)被描述為處理數(shù)據(jù)中心緊急情況、危機的總體計劃,如果不定期檢查,將導致災難。(關于術(shù)語“危機”和“災難”的解釋,見下)。最后,應急演練和事件管理的作用被解釋為一個方案的重要方面,以便為問題不斷做好準備,并更好地發(fā)現(xiàn)問題在他們成為一個危機或更糟的,一場災難。

一、應急操作流程

*名詞釋義:

危機 :遇到緊急的,重要事件,如不能及時響應,將最終導致系統(tǒng)中斷、業(yè)務虧損或人員受傷。

危機管理計劃(CMP)涉及準備,發(fā)現(xiàn)和緩解危機。

緊急操作程序(EOP)用于應對危機,因為它正在發(fā)展以防止災難的希望。例如:UPS冗余出現(xiàn)故障,發(fā)電機燃料用盡,UPS電池組故障等)

災難或緊急: - 導致系統(tǒng)嚴重損壞、停機,業(yè)務中斷或人身傷害的事件或情況。

一、應急操作流程(EOP):用于應對災難或緊急

示例:在UPS電池能源耗盡,火災,開關設備時出現(xiàn)電弧爆炸等任何可能導致立即停機或受傷的情況。

(說明:構(gòu)成“危機”和“災難”的事件因數(shù)據(jù)中心自身不同而不同,取決于各自認為關鍵或緊急的事件。)

緊急操作流程(EOP):

被就用于處理危機和災難。 EOP流程應作為文檔被留存,詳細記錄針對應對危機或災難被批準的流程。響應流程包括:如何安全隔離故障;如何恢復服務或冗余。 EOP旨在使運維人員對遇到的突發(fā)事件做出正確的反應,從而達到安全的目的,并最大限度地減少緊急情況的持續(xù)時間與影響。

EOP具有多重功能:

首先,它幫助運維人員盡快將受影響的系統(tǒng)置于受控或穩(wěn)定的狀態(tài)。

第二,它提供逐步指導,以確保所有活動都以安全和有效的方式進行。這樣做是為防止進一步(或范圍更廣的)的服務中斷,設備損壞或人身傷害。這些負面或可能甚至毀滅性的影響是由于以不受控制的方式執(zhí)行工作,通過省略必要的步驟,或者通過不正確地執(zhí)行,或半心半意地執(zhí)行。

第三是作為新操作員的培訓工具。它們應被用作在員工培訓計劃中進行場景演練和測試的基礎。在客戶或管理層審計或評估時,它們也很重要,以證明有效的應急準備和響應。

將EOP等同于標準操作程序(SOP)是一個常見的錯誤。 SOP為執(zhí)行日常正常操作類型任務(例如將UPS置于旁路或其它維護任務)提供通用指導或指示。

SOP涉及如何操作或維護系統(tǒng)。它沒有描述如何處理和從故障或緊急情況中恢復系統(tǒng)。

如果運維人員僅僅依靠SOP來了解設備如何運行與維護,其結(jié)果就導致應對緊急情況經(jīng)驗不足。導致故障發(fā)生原因與產(chǎn)生的后續(xù)影響通常與多個系統(tǒng)有關。另一方面,SOP通俗點兒說,就是固定的流程,靈活性不強。因此,SOP對于運維人員了解各個系統(tǒng)之間相互聯(lián)系而言,并不實用。不過,具備這些知識卻對于快速診斷和解決問題至關重要。此外,沒有針對高風險故障情況的特定EOP流程,無法提前進行模擬演練,無法為此狀況做更多準備。

應將EOP文檔副本流程張貼在執(zhí)行區(qū)域周圍。正本文件放在辦公室保存。持續(xù)跟進EOP使用情況、實時根據(jù)需要修訂EOP,確保使用執(zhí)行時流程清晰簡明。

EOP是在故障發(fā)生后,保障系統(tǒng)運行穩(wěn)定、和恢復系統(tǒng)的最重要的工具。EOP執(zhí)行過程中需要運維人員具備豐富經(jīng)驗、參加過EOP模擬演練的,從而在EOP執(zhí)行過程中明確他們擔負的責任與任務,可以做到迅速響應。在開發(fā)EOP之前,先將所有可能的、或高風險的故障情況列出一份清單。最常見的故障見表2。應為每一個故障寫一個EOP。當然,運維人員和他們的經(jīng)理不能預見所有的問題,但他們可以預估最壞的情況,做好最壞的準備。

所有這些文件都應被妥善保存。EOP執(zhí)行只能由在現(xiàn)場的運維人員進行操作,外部承包商在某些情況下可以在運維人員指導下執(zhí)行EOP中一些步驟。經(jīng)驗表明,經(jīng)過一定培訓的運維人員,可以有效地抵消遇到緊急情況下心理的恐慌感。對運維人員而言,做足充分準備意味著在千鈞一發(fā)的那一刻,運維人員根據(jù)現(xiàn)場突發(fā)狀況迅速做出判斷,可以在緊要關頭為數(shù)據(jù)中心挽回一部分損失。

有效的訓練方法是情境演練,通過預先設定好的情境,模擬故障發(fā)生時的情境。必要時,可以使用道具(如彩色便利貼)來模擬面板指示器或開關位置,以此鍛煉運維人員的操作能力并評估他們對現(xiàn)場問題的反應能力。

表2:

  2.危機管理計劃(CMP)

危機管理要素:

規(guī)劃

程序

實施

測試和培訓

危機類型

災難類型

第一反應

通知

咨詢

授權(quán)

緩解

迭代

事件后分析

報告

危機管理計劃(CMP)是一系列規(guī)定與流程,是幫助運營商在遇到真正緊急狀況或災難時,提前做好準備、了解如何應對,根據(jù)EOP流程進行應對 。在危機管理的過程中,CMP應對所有參與者尤其是利益相關者進行密切審查。這包括運維人員,運營商,以及在數(shù)據(jù)中心內(nèi)工作的IT經(jīng)理以及和他們團隊的工作人員。該計劃旨在指導工作人員發(fā)現(xiàn)、預防以及應對各種危機狀況,最終目標為數(shù)據(jù)中心提供一個安全,響應迅速、可靠的執(zhí)行方案,盡最大限度的為防止意外狀況演變成一場災難做出努力。

準備和預防

最好的危機管理工具是什么? 是預防。眾所周知,大部分數(shù)據(jù)中心業(yè)務中斷是人為錯誤導致的直接或間接的結(jié)果。這些錯誤大部分發(fā)生在工作人員在對設備進行安裝與維護期間,由于操作不當導致的意外狀況發(fā)生。

為盡可能最大限度減少此類錯誤,運維人員應接受在專業(yè)領域方面的密集培訓,以確保在對設備進行維護與巡檢時,表現(xiàn)出操作的專業(yè)水準,減少人為故障。應將為數(shù)據(jù)中心所有工作內(nèi)容建立標準操作流程作為首要目標(標準操作程序或“SOP”),工作人員可通準操作流程對設備進行維護、保養(yǎng),降低人員操作風險。建議將建立的標準流程全部由業(yè)界專業(yè)人士進行測評,并由業(yè)界專家對其技術(shù)與流程方面的精準性進行額外審查。尤其要對各種風險情況進行合理分類,做好安全準備,工作任務排序以及退出流程。

另一項重要的活動是識別極有可能發(fā)生的故障或間接導致系統(tǒng)發(fā)生故障的模式,這是是否使用緊急操作程序(EOP)的先決條件。這項練習不僅確定在此之前有無必要執(zhí)行EOP,而且也將有助于防止此類事件發(fā)生,這是做好識別與準備過程的必然結(jié)果。流程一旦建立,需定期做EOP演習,提前協(xié)調(diào)工作人員按時參加。

檢測和事件分類

當危機發(fā)生時,如何識別危機?不是所有的事件一眼就能看出機關。通常,一個完全可控的情況會隨著時間的變化演變成一場危機,這會讓運維人員措手不及。 對于運維人員而言,識別事件的早期預警標志以及了解各類設備臨界值時很必要的。

緊急情況和危機時有區(qū)別的。通過使用已經(jīng)通過審核的流程來管理的緊急情況通常不會被視為危機。例如UPS冗余出現(xiàn)問題或空調(diào)機組冷量不夠可能被認為危機,按照既定流程執(zhí)行EOP,則可以以有序、受控的方式解決這次事件,而不會等到發(fā)生宕機或傷害的災難級別。

危機特征就是失控;如果突發(fā)情況已超越可控管理范圍,現(xiàn)場局面已構(gòu)成威脅,這種情況確立為危機。危機的另一個特征是意外狀況造成損害嚴重,有可能危及到整個系統(tǒng)。例如,關鍵負載突然中斷,雖然由與之對應的響應計劃,但遇到這種狀況需確立為危機。

數(shù)據(jù)中心基礎設施管理(DCIM)軟件工具可以有效幫助數(shù)據(jù)中心對環(huán)境設備進行集中監(jiān)控,了解數(shù)據(jù)中心設備系統(tǒng)狀態(tài)變化和報警的有效方法,從而在遇到危機或災難的問題和狀況時,能及時通知運維人員。DCIM軟件同時還提供變更管理、工作訂單以及模擬添加、移動和其他更改等功能,確保操作不會導致任何問題。

在危機或災害的情況下,快速識別分類事件的能力是危機管理中至關重要的第一步,這對及時響應以及策略性的溝通是有必要的。

反應和緩解

一旦危機或災難被宣布,通常,運營商會馬上采取行動解決這個問題。然而,在充分了解情況并制定周全的響應計劃之前,立即行動有可能導致進一步危害或停機的風險。除非在事件非常明顯的情況下才需要立即采取行動(例如火災),合理的行動是圍繞發(fā)生的事件制定計劃,并與相關專家以及利益攸關方共同制定。從長遠來看,將時間放在制定計劃上,比起倉促行動更能為數(shù)據(jù)中心提供更安全、可靠以及更持久的解決方案。

當然,如果對人身安全、配電設備造成直接威脅,應立即采取行動,降低設備損失。如果某人正在或即將受到傷害,就需要立即采取行動,無需通過審議,只要這種草率行為不會傷及任何人。同樣,如果有手段控制火情或者用安全手段熄滅它,立即采取行動是可行的。這只是兩個可能的例子,做出第一反應是合理、謹慎的。話雖如此,當遇到需要立即做出第一反應的情況,都需特別小心。只有當風險高,并且能預見后果,才可考慮立即做出反應行動。

做出第一反應行動后,首要任務是立即對事故進行評估,需將關于情況涉及的范圍、嚴重性等所有信息進行評估,同時將設備的狀態(tài)、穩(wěn)定性也進行評估。必須快速收集這些數(shù)據(jù),以及隨著事故變化不斷更新數(shù)據(jù),以便對事故做出適當補救措施,同時保證溝通的有效性。能夠做到這一點的運維人員,都經(jīng)過專業(yè)知識的培訓,以及大量的情境演練,具備良好的心理素質(zhì),才能應對這樣的場面。

恢復與分析

一旦事故解決,應將事故分析報告第一時間發(fā)給相關部門人員,最好是在事件解決方案制定后的一星期內(nèi)發(fā)出。故障分析報告應包括:

主要原因分析:

· 經(jīng)驗教訓報告 :參與者反思事件如何發(fā)生,以及從中學到的教訓

· 執(zhí)行過程: 包含具體建議和一系列行動,以改善團隊對特定事件的響應。

· 對現(xiàn)有運營商以及新員工持續(xù)培訓,確保他們了解行動的意義與價值。

· 所有這一切旨在防止同樣的危機或緊急情況再次發(fā)生。

升級程序:

隨著情況從正常到緊急再到潛在危機,甚至到災難級別,隨之帶來的問題就是對設備升級。這是為保證設備在恰當?shù)臅r間內(nèi)獲得恰當?shù)闹R與資源。升級管理可能是一項緊迫的任務,但正確的流程將有助于其盡可能輕松有效地管理升級。

對業(yè)務進行適當升級以及 “幸免于難”是應急準備與響應策略的一個重要因素。運維人員,團隊管理層,客戶和供應商之間的有效溝通是確保情況已受到控制,所有相關資源都集中在事件的處理上。雖然沒有單一的逐步升級程序保證解決每個問題,但有一些基本要素可以確保內(nèi)部流程成功。為升級程序提供框架,下面的表3示意升級過程與時間示例。它可以被修改,從而適應任何組織具體要求與期望。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號