數(shù)據(jù)中心需要全年不休地運轉(zhuǎn),無時無刻都在對外提供各種應(yīng)用服務(wù)。數(shù)據(jù)中心里有大量的電子設(shè)備,也和人一樣是需要休息的,不然遲早都會出現(xiàn)這樣那樣的問題,其中應(yīng)急關(guān)機就是數(shù)據(jù)中心自我保護的一種方式。顯然在關(guān)機的前面增加了一個修飾詞“應(yīng)急”和關(guān)機的意義就完全不同了,應(yīng)急關(guān)機必然不是關(guān)機那樣關(guān)閉一下按鈕或者拔掉電源那么簡單。前面也說了數(shù)據(jù)中心是全年不休地工作,對數(shù)據(jù)中心內(nèi)的設(shè)備進行關(guān)機,需要考慮這樣的操作對整個數(shù)據(jù)中心的業(yè)務(wù)影響,是否在關(guān)機之前做足了準備工作、是否制定了詳細的關(guān)機預(yù)案、是否有回退機制等等,這絕非是開關(guān)一下電源那么簡單。下面就來詳細說一說數(shù)據(jù)中心里的應(yīng)急關(guān)機。
應(yīng)急關(guān)機是提前有周密計劃來關(guān)閉部分運行設(shè)備的方案。應(yīng)急關(guān)機作為應(yīng)急響應(yīng)過程的處置之一,是每個數(shù)據(jù)中心都必須考慮的問題,在很多特定的場合下,數(shù)據(jù)中心就需要應(yīng)急關(guān)機。比如:由于數(shù)據(jù)中心自身存在的缺陷被暴露,或者數(shù)據(jù)中心所在地區(qū)出現(xiàn)了地震、火災(zāi)等災(zāi)害,使得數(shù)據(jù)中心可能受到外界的嚴重威脅,使得數(shù)據(jù)中心數(shù)據(jù)受損或者被破壞,在不得已的情況下就需要啟動應(yīng)急關(guān)機,臨時關(guān)閉部分甚至全部的對外業(yè)務(wù),保護數(shù)據(jù)中心不受到損壞;數(shù)據(jù)中心里的電子設(shè)備特別多,這些設(shè)備或多或少都存在一些問題,這世界上沒有一點BUG都沒有的軟件,認為自己使用的設(shè)備沒有問題,只不過是還沒有碰到BUG 而已,所以一旦數(shù)據(jù)中心遇到這些設(shè)備BUG,很多時候就要對設(shè)備進行軟件升級,補丁搞不定就需要升級軟件版本,可很多設(shè)備還無法做到不重啟升級軟件,這就需要應(yīng)急關(guān)機,對設(shè)備進行關(guān)機重啟;還有數(shù)據(jù)中心里的服務(wù)器、存儲等設(shè)備運行久了,長時間運行不重啟會累積大量的內(nèi)存垃圾,周期性地對這些設(shè)備進行主動重啟,可以提升設(shè)備的運行效率,而且主動重啟設(shè)備還可以規(guī)避一些BUG暴露出來,避免BUG導(dǎo)致設(shè)備運行異常而對數(shù)據(jù)中心業(yè)務(wù)造成影響。如此看來,應(yīng)急關(guān)機是數(shù)據(jù)中心運行過程中不可缺少的重要一環(huán),每個數(shù)據(jù)中心都要經(jīng)歷的一個方案,是對數(shù)據(jù)中心運行的一種主動保護。
應(yīng)急關(guān)機需要做好三方面的準備工作,才能通過關(guān)機達到預(yù)期效果。在一些緊急情況下,有應(yīng)急關(guān)機方案,往往可以使數(shù)據(jù)中心免遭一劫。首先,關(guān)機前要做好關(guān)機的流程。在數(shù)據(jù)中心里,應(yīng)用與應(yīng)用、應(yīng)用與設(shè)備、設(shè)備與設(shè)備之間普遍存在著依賴關(guān)系,一定要按照固定的關(guān)機順序來執(zhí)行,避免應(yīng)急關(guān)機給數(shù)據(jù)中心帶來傷害。比如:在計劃關(guān)閉網(wǎng)絡(luò)設(shè)備之前,應(yīng)該先將各種數(shù)據(jù)庫服務(wù)、存儲服務(wù)、支付系統(tǒng)等重要應(yīng)用切走或者關(guān)閉,然后關(guān)閉外部訪問入口、關(guān)閉計算節(jié)點、管理節(jié)點等,避免直接關(guān)機網(wǎng)絡(luò)設(shè)備對正在提供服務(wù)的系統(tǒng)紊亂或者數(shù)據(jù)丟失,做好這些步驟后再去關(guān)閉網(wǎng)絡(luò)設(shè)備,一般步驟應(yīng)該是先關(guān)閉應(yīng)用層服務(wù)、然后底層數(shù)據(jù)傳輸設(shè)備,最后是物理鏈路,越上層的服務(wù)越應(yīng)該先關(guān)機,在應(yīng)急關(guān)機前要將操作的步驟固化下來,然后按照步驟依次執(zhí)行。與此同時,對于每個操作步驟的耗時要進行預(yù)估,確定各個環(huán)節(jié)花費的時間,控制好應(yīng)急關(guān)機的各環(huán)節(jié),一旦與預(yù)期不符,還要啟動相應(yīng)的回退或者規(guī)避方案。既然叫應(yīng)急關(guān)機,更多的時候關(guān)機是突發(fā)、臨時執(zhí)行的,難免會出現(xiàn)執(zhí)行異常的現(xiàn)象,與原有的預(yù)計結(jié)果不符,這時就需要根據(jù)實際情況靈活應(yīng)對。在應(yīng)急關(guān)機之前應(yīng)該準備好備件,對關(guān)鍵設(shè)備進行備份,將部分配置提前做好,一旦出現(xiàn)異常情況時直接用備件進行替換。在無法避免損失的情況下,一切以關(guān)鍵數(shù)據(jù)的劃分結(jié)果為依據(jù)進行取舍,這種情況下考驗著數(shù)據(jù)中心人員的智慧。還有關(guān)機的時長也是一項必須要考慮的重要因素。很多時候在關(guān)機步驟執(zhí)行完畢之后,往往需要密切關(guān)注數(shù)據(jù)中心外部情況,確定再次開機的時機,也有的時候應(yīng)急關(guān)機是很快又進行開機了,這個關(guān)機的時間長短要根據(jù)出現(xiàn)緊急情況的具體情況,經(jīng)過評估來確認關(guān)機時長。其次,在關(guān)機執(zhí)行過程中,每一個步驟執(zhí)行完畢后,都需要對執(zhí)行結(jié)果進行確認,同時與原有預(yù)期進行對比,看是否達到預(yù)期結(jié)果。當發(fā)現(xiàn)與設(shè)定的情況不符,或者已經(jīng)出現(xiàn)了失控局面,需要即刻啟用回退方案,恢復(fù)原有運行狀態(tài)。最后,應(yīng)急關(guān)機后,根據(jù)設(shè)定的關(guān)機時長,還需要進行開機。開機后,需要對數(shù)據(jù)中心運行情況進行密切關(guān)注,不是設(shè)備都啟動起來就完事兒了,很多時候評估數(shù)據(jù)中心是否運行正常、穩(wěn)定,往往需要觀察數(shù)天,一旦發(fā)現(xiàn)依然存在問題或者風(fēng)險,還可能需要二次應(yīng)急關(guān)機。
從應(yīng)急關(guān)機的三大部分,在關(guān)機前要做的工作最多,也最為重要,這也正是應(yīng)急關(guān)機的重要體現(xiàn)。當應(yīng)急關(guān)機策略制定完成后,應(yīng)該定期組織應(yīng)急演練,發(fā)現(xiàn)缺陷馬上進行修復(fù),確保最終應(yīng)急關(guān)機方案沒有漏洞,應(yīng)急關(guān)機的方案也不是一成不變的,隨著時間的推移和人員的變更,還需要不斷進行修改。這樣周期性地組織應(yīng)急關(guān)機的演練非常重要,只有這樣才能發(fā)現(xiàn)方案中的不足。
任何一個數(shù)據(jù)中心都不愿意出現(xiàn)需要應(yīng)急關(guān)機的情況,但是一旦必須要做出關(guān)機決定時,就一定要提前做好充足準備,有詳細的應(yīng)急關(guān)機預(yù)案,以免在應(yīng)急關(guān)機時,人員都手忙腳亂,毫無組織,亂作一團,這樣的應(yīng)急關(guān)機往往會給數(shù)據(jù)中心帶來嚴重損失,起不到保護數(shù)據(jù)中心的目的。