數(shù)據(jù)中心關(guān)閉清單有助于IT團(tuán)隊(duì)在插拔硬件,并在丟失有價(jià)值的信息之前專注數(shù)據(jù)備份,測(cè)試和系統(tǒng)驗(yàn)證。
盡管政策和流程對(duì)于現(xiàn)代IT至關(guān)重要,但數(shù)據(jù)中心管理員通常因?yàn)橹袛嗍录胧植患埃瑳](méi)有關(guān)閉需要關(guān)閉的設(shè)備。這種需求可能像暴風(fēng)雨即將來(lái)臨一樣劇烈,或者僅僅是一次普通的市政電網(wǎng)升級(jí)。但是,企業(yè)準(zhǔn)備和響應(yīng)設(shè)施關(guān)閉的方式可以避免災(zāi)難帶來(lái)的損失。
經(jīng)過(guò)精心設(shè)計(jì)和測(cè)試的數(shù)據(jù)中心關(guān)閉程序在業(yè)務(wù)連續(xù)性規(guī)劃中起著至關(guān)重要的作用。它定義了遷移或關(guān)閉應(yīng)用程序,保護(hù)有價(jià)值的數(shù)據(jù),關(guān)閉物理系統(tǒng)的最佳過(guò)程,然后在事件或故障之后重新啟動(dòng)它們。以下考慮在一個(gè)基本的關(guān)閉文檔中找到的主要元素。
驗(yàn)證和更新系統(tǒng)文檔
每個(gè)數(shù)據(jù)中心關(guān)機(jī)過(guò)程都是最終重新啟動(dòng)的前提,所以適當(dāng)?shù)臏?zhǔn)備是確保一旦中斷時(shí)間結(jié)束后重新啟動(dòng)成功的關(guān)鍵。創(chuàng)建一個(gè)全面的(或至少是現(xiàn)有的)文檔集,可以捕獲每個(gè)系統(tǒng)的卷,操作系統(tǒng)和應(yīng)用程序配置,特別注意重新啟動(dòng)期間可能或意外更改的任何內(nèi)容。創(chuàng)建此文檔有無(wú)數(shù)工具,大多數(shù)現(xiàn)代配置管理和執(zhí)行工具可以捕獲和報(bào)告系統(tǒng)狀態(tài)。不要忘記捕獲或記錄任何網(wǎng)絡(luò)設(shè)備或存儲(chǔ)陣列的配置。
管理依賴關(guān)系
組織和數(shù)據(jù)中心設(shè)施之間的實(shí)際依賴性差異很大,因此IT規(guī)劃人員需要確定包括網(wǎng)絡(luò)設(shè)備,存儲(chǔ)陣列,DNS服務(wù)器,備份服務(wù)器和調(diào)度程序在內(nèi)的啟動(dòng)順序。一旦所有必需的服務(wù)器,存儲(chǔ),網(wǎng)絡(luò)和關(guān)鍵服務(wù)(如DNS)重新聯(lián)機(jī),啟動(dòng)順序就可以重新啟動(dòng)應(yīng)用程序(如數(shù)據(jù)庫(kù)),然后是依賴的應(yīng)用程序(如企業(yè)銷(xiāo)售系統(tǒng))。然后,啟動(dòng)依賴于這些應(yīng)用程序的任何流程,例如企業(yè)的店面網(wǎng)站。
在準(zhǔn)備過(guò)程中,還可以識(shí)別和了解數(shù)據(jù)中心內(nèi)各種各樣的依賴關(guān)系。記錄依賴關(guān)系允許IT人員以適當(dāng)?shù)捻樞蛑匦聠?dòng)系統(tǒng),服務(wù)和應(yīng)用程序,以避免中斷和啟動(dòng)時(shí)間的損失。例如,工作人員不想在啟動(dòng)依賴的存儲(chǔ)陣列之前啟動(dòng)服務(wù)器。
執(zhí)行并驗(yàn)證備份
備份是任何數(shù)據(jù)中心內(nèi)的一個(gè)重要過(guò)程,但在計(jì)劃的設(shè)備中斷之前,固態(tài)備份工作至關(guān)重要。在關(guān)機(jī)開(kāi)始之前完成,并驗(yàn)證任何定期安排的備份,并手動(dòng)備份在關(guān)閉之前未定期備份或具有長(zhǎng)時(shí)間恢復(fù)點(diǎn)目標(biāo)的任何系統(tǒng)。
傳統(tǒng)的備份方法可能尋求捕獲每個(gè)服務(wù)器的操作系統(tǒng)狀態(tài)以及單獨(dú)的數(shù)據(jù)備份,例如SAN上的數(shù)據(jù)。虛擬化數(shù)據(jù)中心可以選擇更新的最新虛擬機(jī)感知備份,例如快照和遠(yuǎn)程復(fù)制。沒(méi)有一個(gè)適當(dāng)備份的方法或措施,這個(gè)流程和底層工具必須適合企業(yè)自己的數(shù)據(jù)中心和業(yè)務(wù)需求,但關(guān)鍵是要確保所有的備份都被備份,并測(cè)試這些備份驗(yàn)證它們是否完整和可恢復(fù)。
如果準(zhǔn)備時(shí)間有限,請(qǐng)專注于關(guān)鍵任務(wù)備份。但是,任何未備份的系統(tǒng)或數(shù)據(jù)都將為應(yīng)用程序和業(yè)務(wù)帶來(lái)風(fēng)險(xiǎn)。
檢查和驗(yàn)證系統(tǒng)硬件
準(zhǔn)備數(shù)據(jù)中心關(guān)閉清單的第三步是檢查硬件狀態(tài),并識(shí)別任何硬件故障?,F(xiàn)代系統(tǒng)管理工具可以生成電子郵件或郵件系統(tǒng)的錯(cuò)誤報(bào)告,將事件記錄到日志文件中,甚至可以在全面實(shí)時(shí)儀表板上跟蹤事件。但并非所有事件都能立即處理。例如,RAID6組的RAID5中的磁盤(pán)可能會(huì)失敗,并重寫(xiě)到另一個(gè)備用磁盤(pán),但技術(shù)人員可能需要一段時(shí)間才能更換和重建故障磁盤(pán)。在可能將虛擬機(jī)工作負(fù)載遷移或重新啟動(dòng)到其他可用系統(tǒng)的服務(wù)器上也會(huì)出現(xiàn)類(lèi)似的問(wèn)題,但是由于尚未處理,故障系統(tǒng)可能仍然存在問(wèn)題。
對(duì)錯(cuò)誤日志和儀表板的審查也不會(huì)解決這些問(wèn)題,但它會(huì)在關(guān)閉之前發(fā)現(xiàn)任何問(wèn)題,提醒IT人員這些問(wèn)題不是由停機(jī)時(shí)間或重新啟動(dòng)引起的。IT人員可以作出明智的決定,以便在停機(jī)之前解決懸而未決的事件,或至少確保沒(méi)有解決的問(wèn)題不會(huì)影響重新啟動(dòng)。
以正確的順序關(guān)閉系統(tǒng)
一般來(lái)說(shuō),成功的數(shù)據(jù)中心關(guān)閉程序從IT環(huán)境的外圍開(kāi)始,再向內(nèi)運(yùn)行。組織可以首先注銷(xiāo)和關(guān)閉終端用戶,應(yīng)用程序,如Web服務(wù)器,Exchange等服務(wù),然后關(guān)閉數(shù)據(jù)庫(kù)和中間件。在此之后,在虛擬化環(huán)境中可以關(guān)閉虛擬實(shí)例(如虛擬機(jī)或虛擬機(jī)),其次是VMwarev Center或Microsoft System Center等管理工具。只有IT團(tuán)隊(duì)才能關(guān)閉物理服務(wù)器。一旦服務(wù)器關(guān)閉,IT團(tuán)隊(duì)就可以關(guān)閉存儲(chǔ)和網(wǎng)絡(luò)設(shè)備。IT團(tuán)隊(duì)再關(guān)閉不間斷的電源系統(tǒng),顯示器,配電單元和其他輔助設(shè)備,最后結(jié)束關(guān)機(jī)。
恢復(fù)和驗(yàn)證系統(tǒng)
當(dāng)計(jì)劃的中斷結(jié)束后,IT團(tuán)隊(duì)可以實(shí)施重新啟動(dòng)過(guò)程。在理想情況下,重新啟動(dòng)將與關(guān)機(jī)順序完全相反,但并不總是如此。重新啟動(dòng)通常需要小心謹(jǐn)慎,以便將電力重新分配到設(shè)施中,并防止可能斷路器跳閘,以及和損壞設(shè)備的巨大浪涌。每個(gè)主要步驟還需要進(jìn)行一些驗(yàn)證或測(cè)試,以確保設(shè)備或軟件在執(zhí)行下一個(gè)啟動(dòng)步驟之前正常運(yùn)行。
例如,在嘗試啟動(dòng)任何存儲(chǔ)陣列之前,打開(kāi)網(wǎng)絡(luò)設(shè)備并確認(rèn)其已正確引導(dǎo)。一旦存儲(chǔ)陣列打開(kāi),請(qǐng)檢查是否有任何故障磁盤(pán),有問(wèn)題的磁盤(pán)組和其他可能的問(wèn)題。