盡管工作準(zhǔn)則與操作流程對IT運(yùn)維十分重要,可當(dāng)數(shù)據(jù)中心IT人員需要對設(shè)備進(jìn)行關(guān)機(jī)時,他們通常是不做任何準(zhǔn)備就開始關(guān)機(jī)。這種情況通常來的很快,還沒等真正反應(yīng)過來,IT運(yùn)維人員就已經(jīng)開始操作起來,在他們看來,似乎是設(shè)備系統(tǒng)升級那樣輕松平常。
事實(shí)上,很多數(shù)據(jù)中心對關(guān)閉設(shè)備都一套自己的標(biāo)準(zhǔn)程序以及響應(yīng)方式,以此避免給數(shù)據(jù)中心帶來重大損失和事故。
經(jīng)過精心設(shè)計(jì)與經(jīng)過可靠驗(yàn)證的數(shù)據(jù)中心關(guān)機(jī)流程對于保障數(shù)據(jù)中心業(yè)務(wù)的連續(xù)性以及關(guān)機(jī)中不可預(yù)見的意外狀況都能起到至關(guān)重要的保護(hù)作用。
關(guān)機(jī)操作流程定義了遷移或關(guān)閉應(yīng)用程序;保存重要數(shù)據(jù);關(guān)閉物理系統(tǒng);稍后,再成功開機(jī)(重啟系統(tǒng))。讓我們來看看在關(guān)機(jī)操作流程中都有哪些重要文檔需要我們?nèi)ビ涗洝?/p>
1.驗(yàn)證和更新系統(tǒng)文檔
所有數(shù)據(jù)中心關(guān)機(jī)流程都是為了最終能夠成功重新啟動系統(tǒng),為此,在關(guān)閉設(shè)備之前做足充分準(zhǔn)備是確保關(guān)機(jī)后能夠成功重新啟動設(shè)備系統(tǒng)的關(guān)鍵。
創(chuàng)建一個全面的(或者至少是當(dāng)前可行的)關(guān)機(jī)、開機(jī)各種文檔的集合是很有必要的。這個文檔可以用來記錄每個分區(qū)的system’s volume(系統(tǒng)卷標(biāo)),操作系統(tǒng)、應(yīng)用程序配置,特別記錄在重新啟動后期間可能或意外被更改的內(nèi)容。有很多工具都可以用來創(chuàng)建這個文檔,通過工具對這些文檔進(jìn)行統(tǒng)一管理、用工具獲取、記錄系統(tǒng)狀態(tài)。不要忘記獲取或記錄任何一個網(wǎng)絡(luò)設(shè)備或存儲陣列的配置狀態(tài)。
2.明確依賴關(guān)系
事實(shí)上,企業(yè)、組織等機(jī)構(gòu)對設(shè)備系統(tǒng)的依賴性是不同的,因此,IT人員在制定設(shè)備關(guān)機(jī)啟動流程時,需要考慮以下各種設(shè)備的特性:網(wǎng)絡(luò)設(shè)備、存儲陣列、DNS服務(wù)器、備份服務(wù)器數(shù)據(jù)和調(diào)度程序等。當(dāng)所有重要的設(shè)備服務(wù)器、存儲、網(wǎng)絡(luò)以及重要的服務(wù)(如DNS)等重新啟動后,啟動順序(startup sequence)就會轉(zhuǎn)移到重啟應(yīng)用上,緊接著啟動獨(dú)立應(yīng)用,如:企業(yè)銷售系統(tǒng)。
接著,再啟動與這個應(yīng)用相關(guān)的所有進(jìn)程,如:公司店面網(wǎng)站。在制定流程的過程中,要識別和了解數(shù)據(jù)中心內(nèi)部各種不同的依賴關(guān)系。IT人員會記錄下依賴關(guān)系從而制定合理的流程關(guān)閉、重新啟動系統(tǒng)、服務(wù)和應(yīng)用程序,以避免系統(tǒng)中斷或出現(xiàn)故障,浪費(fèi)啟動時間。如:不在啟動服務(wù)器之前啟動依賴它的存儲陣列。
3.執(zhí)行并驗(yàn)證備份
備份對任何數(shù)據(jù)中心而言都是重中之重,在設(shè)備停運(yùn)之前,必須對重要數(shù)據(jù)進(jìn)行備份。在設(shè)備關(guān)機(jī)之前,驗(yàn)證并完成計(jì)劃中要備份的系統(tǒng),并手動備份任何系統(tǒng)中未預(yù)期備份的數(shù)據(jù)或在關(guān)機(jī)之前備份恢復(fù)點(diǎn)目標(biāo)(RPO,recovery point objective)。
通常,傳統(tǒng)的備份方法會試圖獲取每個服務(wù)器上的數(shù)據(jù)進(jìn)行單獨(dú)備份,例如:備份SAN數(shù)據(jù);可虛擬化數(shù)據(jù)中心卻可以選擇最近的VM-aware (虛擬機(jī)感知)進(jìn)行備份,如快照和遠(yuǎn)程復(fù)制。
備份數(shù)據(jù)如果只是通過一種方式或工具是根本無法完成的,無論選擇哪種工具備份都必須符合自身數(shù)據(jù)中心業(yè)務(wù)發(fā)展與設(shè)備自身需要——最關(guān)鍵的是確保一切數(shù)據(jù)都已備份,同時測試、驗(yàn)證這些備份是否完整并可恢復(fù)。如果時間有限,請集中將時間用于備份重要業(yè)務(wù)數(shù)據(jù)。最后提醒大家,未經(jīng)備份的系統(tǒng)或數(shù)據(jù)都存在風(fēng)險。
(備注:恢復(fù)點(diǎn)目標(biāo)(RPO,recovery point objective)是指在因硬件、程序或通信發(fā)生故障,而導(dǎo)致的計(jì)算機(jī)、系統(tǒng)或網(wǎng)絡(luò)出現(xiàn)故障時,必須從備份存儲中恢復(fù)以保證系統(tǒng)正常運(yùn)行的文件的年齡?;謴?fù)點(diǎn)目標(biāo)在時間上是從故障發(fā)生時開始向后表示的(即到過去),它可以以秒、分鐘、小時或天來表示。它是災(zāi)難恢復(fù)計(jì)劃(DRP)中重要的考慮因素。
VM-aware :VM感知存儲或虛擬化感知存儲是在利用虛擬機(jī)(VM)的虛擬化環(huán)境中對存儲基礎(chǔ)設(shè)施的智能管理和監(jiān)視;在VM感知存儲環(huán)境中的關(guān)鍵因素是存儲組件與VM一起管理,而不是作為單獨(dú)管理的卷或LUN(邏輯單元號)管理。)
4.檢查并驗(yàn)證系統(tǒng)硬件
檢查硬件狀態(tài)并識別是哪部分硬件發(fā)生故障。管理工具可以將錯誤報(bào)告以郵件或信息的方式告知IT人員,將事件發(fā)生記錄到log files(日志文件)里或通過設(shè)備面板實(shí)時跟蹤記錄事件全過程。但并非被記錄的所有事件都能夠立即解決。
例如,RAID 6組中的RAID 5磁盤可能會出現(xiàn)問題,并被重寫到另一個備用磁盤上,IT人員可能需要一些時間完成更換和重建故障的磁盤。比如:在將VM工作負(fù)載遷移或重新啟動到其他可用系統(tǒng)的服務(wù)器;也有可能在出現(xiàn)類似問題時,即使查看錯誤日志或看到面板顯示信息后,依舊無法立即修復(fù)這些問題,這些問題會在系統(tǒng)關(guān)機(jī)之前被IT人員發(fā)現(xiàn),提醒IT人員再次確認(rèn)這樣的問題會不會影響關(guān)機(jī)或重啟。
IT人員將在關(guān)機(jī)之前做出明智的決定來處理需要解決的問題,確保待決的問題不會影響重新啟動。
5.嚴(yán)格按流程關(guān)閉系統(tǒng)
一般來說,成功的數(shù)據(jù)中心關(guān)機(jī)流程的制定原則:始于關(guān)注IT設(shè)備的外部環(huán)境,并逐漸轉(zhuǎn)向制定設(shè)備內(nèi)部流程。關(guān)機(jī)之前有可能會先注銷并關(guān)閉終端用戶,再關(guān)閉應(yīng)用程序。例如:先關(guān)閉Web服務(wù)器、Exchange等服務(wù),接著再關(guān)閉數(shù)據(jù)庫和中間設(shè)備。虛擬化環(huán)境會接著默認(rèn)關(guān)閉virtual instances,例如像VMs這樣的虛擬設(shè)備,其次是諸如VMware vCenter或Microsoft System Center這樣的管理工具。只有這樣, IT團(tuán)隊(duì)才能關(guān)閉物理服務(wù)器。一旦服務(wù)器關(guān)閉,IT團(tuán)隊(duì)才可以接下來繼續(xù)關(guān)閉存儲和網(wǎng)絡(luò)設(shè)備。IT團(tuán)隊(duì)有可能會通過確保不間斷電源系統(tǒng)、監(jiān)視器、配電單元和其它輔助設(shè)備的正常運(yùn)行來關(guān)閉系統(tǒng)。
6.恢復(fù)并驗(yàn)證系統(tǒng)
當(dāng)停機(jī)結(jié)束時,IT團(tuán)隊(duì)便可以執(zhí)行重新啟動流程。理想情況下,重新啟動將是與關(guān)機(jī)是完全相反的過程,但并非總是如此。重啟系統(tǒng)時需要考慮到電源分配,需要對重啟設(shè)備順序進(jìn)行調(diào)整安排,逐一開啟設(shè)備,而不是一次性全部開啟,以防止導(dǎo)致斷路器跳閘或?qū)υO(shè)備的防浪涌沖擊的保護(hù)。每個主要步驟還涉及一些設(shè)備數(shù)量的驗(yàn)證或測試,以確保在執(zhí)行下一個啟動步驟之前,設(shè)備或軟件保持正常運(yùn)行。
例如,在嘗試啟動任何存儲陣列之前,打開網(wǎng)絡(luò)設(shè)備并驗(yàn)證其是否已正常啟動。打開存儲陣列后,請檢查是否有任何故障磁盤,有問題的磁盤組和其他可能的問題。
以上文檔是在制定關(guān)機(jī)流程中必須要考慮到的部分,需要考慮到業(yè)務(wù)、設(shè)備的不同,因地制宜對自身數(shù)據(jù)中心制定合理的、可靠的關(guān)機(jī)流程,這對于自設(shè)設(shè)備安全性以及業(yè)務(wù)連續(xù)性都能起到重要作用。