越來越多數(shù)據(jù)中心行業(yè)從業(yè)人員意識到一個殘酷的現(xiàn)實:人為操作失誤是造成數(shù)據(jù)中心宕機的頭號因素,而非糟糕的設(shè)計或施工。越來越多的人開始關(guān)注數(shù)據(jù)中心的運營與維護。設(shè)計、建造一個完善的數(shù)據(jù)中心只是數(shù)據(jù)中心可持續(xù)運行的第一步,公司企業(yè)、政府部門等數(shù)據(jù)中心的業(yè)主必須能夠根據(jù)其數(shù)據(jù)中心風(fēng)險特性來準(zhǔn)確描繪運維需求并設(shè)計相應(yīng)的運維規(guī)劃。要做到這一點并不容易,尤其相關(guān)的經(jīng)驗和技能對于那些核心業(yè)務(wù)并非數(shù)據(jù)中心的公司來說是比較匱乏的。本文將討論數(shù)據(jù)中心運維當(dāng)中應(yīng)當(dāng)從哪些方面入手,以幫助大家建立合理的運維體系,確保數(shù)據(jù)中心的可持續(xù)與可靠運行。
運維人員必須參與數(shù)據(jù)中心設(shè)計
如果數(shù)據(jù)中心設(shè)計的人不是最終使用的人,或者在設(shè)計階段使用者的意見沒有被充分咨詢或征求,很容易造成后期使用過程中額外的修改和改動。實際上,數(shù)據(jù)中心運維人員在實際運維中經(jīng)常遭遇這樣的情景:使用中發(fā)現(xiàn)配電柜沒有預(yù)留足夠的空開位置,造成必要的維護工序無法完成;電池柜的設(shè)計安裝未預(yù)留服務(wù)空間;建筑結(jié)構(gòu)設(shè)計使得通風(fēng)裝置無法提供所需要的通風(fēng)量,等等。如果在設(shè)計階段就包括運營評估的環(huán)節(jié),那這些問題就可以盡可能地避免。
最有效、最省錢、最高效的數(shù)據(jù)中心應(yīng)當(dāng)采用生命周期總擁有成本(TCO)的方式來規(guī)劃管理,以平衡投資和運營成本,進(jìn)而滿足業(yè)務(wù)需求。其中很重要的一步就是根據(jù)公司具體業(yè)務(wù)需求制定設(shè)計指標(biāo)和運營目標(biāo)。這樣,建造的數(shù)據(jù)中心目的性更強。
不能僅僅依賴數(shù)據(jù)中心的設(shè)計
許多公司認(rèn)為高級別的冗余設(shè)計可以彌補運維預(yù)算的不足,但多方的研究證明,關(guān)鍵任務(wù)環(huán)境下,人為錯誤是宕機的首要因素。為什么人們還是會忽略運維呢?主要是因為硬件的設(shè)計建設(shè)是看得見摸得著的,而運營的經(jīng)驗相對來說需要更多的時間積累。所以我們時常看到公司花費大量投資進(jìn)行硬件建設(shè),而忽略運營規(guī)劃所需的預(yù)算。很多缺乏經(jīng)驗的用戶不知從何下手時,往往會把數(shù)據(jù)中心的運維交給不具備專業(yè)知識的第三方管理。比如說,很多數(shù)據(jù)中心的運維交由辦公室建筑維護類公司,而這類公司往往并不具備操作和管理關(guān)鍵設(shè)施的技能。最大的區(qū)別在于,辦公室環(huán)境的維護修復(fù)是可以離線進(jìn)行的,而關(guān)鍵設(shè)施環(huán)境下的維護是以盡可能減少宕機時間為最高信條。
所以無論是基礎(chǔ)設(shè)施管理還是數(shù)據(jù)中心運營團隊的架構(gòu)必須圍繞著一個目標(biāo):最大化正常運行時間。具體而言,與維護傳統(tǒng)設(shè)施環(huán)境相比,維護關(guān)鍵設(shè)施環(huán)境有特殊的需求。例如,要求連續(xù)運營,不許宕機,要求實現(xiàn)冗余系統(tǒng),發(fā)生故障時能主動切換,等等。無疑,滿足這些特殊需求的關(guān)鍵在于用正確的方法建立運營體系。
重視人才,重視培訓(xùn)
數(shù)據(jù)中心環(huán)境下,低估人員構(gòu)成是有風(fēng)險的,有可能造成緊急情況下無法恢復(fù)正常運行。合理安排人員配置,以優(yōu)化緊急狀況響應(yīng)、設(shè)備維護和供應(yīng)商管理。同樣,招聘并保留合適的人員至關(guān)重要。招聘具備專業(yè)技能的合格員工不是那么容易的,招聘時要通過嚴(yán)格的篩選過程,來驗證應(yīng)聘人員的技術(shù)、管理和溝通能力,因為這些技能對數(shù)據(jù)中心關(guān)鍵設(shè)施的運營必不可少。當(dāng)然,找到合適的人選只是第一步。
招募了優(yōu)秀人才還要能留住他們。過高的人員流失比例對數(shù)據(jù)中心里的大多數(shù)運營項目造成風(fēng)險。提供完善的培訓(xùn)和支持,營造良好的職業(yè)發(fā)展空間可以有效地保留員工。經(jīng)過系統(tǒng)培訓(xùn)的員工將了解如何安全地操作和維護系統(tǒng),并知道在出現(xiàn)問題時如何處理。
很多情況下,設(shè)備安裝調(diào)試完成后,設(shè)備供應(yīng)商或總包商會提供相關(guān)設(shè)備的培訓(xùn),但這樣的培訓(xùn)往往針對具體的設(shè)備而很少全面考慮數(shù)據(jù)中心的整體運營。而接受培訓(xùn)的員工又“言傳身教”,“口口相傳”地培訓(xùn)其他人,這樣的培訓(xùn)方式很容易使一些不正確的方法和流程成為標(biāo)準(zhǔn)化的東西。
因此,我們需要的是一套完整的培訓(xùn)和考核體系,根據(jù)掌握的技能將人員按不同資質(zhì)資格劃分,同時提高不同層次人員的業(yè)務(wù)水準(zhǔn)。通常情況下,業(yè)務(wù)人員水準(zhǔn)可分為以下幾個層次:
· 在指導(dǎo)監(jiān)督下的基本操作;
· 進(jìn)行日常操作及維護;
· 進(jìn)行高級操作及維護;
· 專業(yè)領(lǐng)域?qū)<?/p>
糟糕的培訓(xùn)往往是由于沒有花足夠的時間和經(jīng)費來開發(fā)培訓(xùn)規(guī)劃。所謂“磨刀不誤砍柴工”,很多IT經(jīng)理們忽略了這樣一個簡單的道理。良好的培訓(xùn)可以帶來正常工作時間的增加、維護成本的節(jié)約,以及人員流失的降低,所有這些收益都會遠(yuǎn)遠(yuǎn)抵消開發(fā)培訓(xùn)規(guī)劃的成本和努力。
持續(xù)不斷地演練
任何緊急狀況下,數(shù)據(jù)中心的操作人員都應(yīng)該象訓(xùn)練有素的救火隊員一樣從容應(yīng)對。要做到這一點,關(guān)鍵是持續(xù)不斷地安排專門時間演練。而且這樣的演練需要數(shù)據(jù)中心所有相關(guān)人士的參與,從而令每個人都明確在緊急狀況發(fā)生時應(yīng)該做什么。
好的演練需要完備的教材。有效的培訓(xùn)教材應(yīng)該包含以下內(nèi)容:
· 緊急措施的演練內(nèi)容
· 主要設(shè)備、系統(tǒng)的操作原理
· 操作與維護流程
· 不同級別培訓(xùn)的考核
給演練和測試考核打分可以促進(jìn)持續(xù)不斷的進(jìn)步。
把運維上升為流程
發(fā)生在數(shù)據(jù)中心關(guān)鍵設(shè)施內(nèi)的一切行為都應(yīng)記錄在案,有據(jù)可查,以便于量化比較結(jié)果,為改進(jìn)提供依據(jù),促進(jìn)優(yōu)化。
供應(yīng)商提供的文件是運營的一個重要部分,但關(guān)鍵環(huán)境下運營團隊操作的詳細(xì)流程同等重要。這包括數(shù)據(jù)中心內(nèi)通路安排、日常操作、預(yù)防性維護、修正性維護和應(yīng)急響應(yīng)。另外,最終交付施工圖紙對安全可靠運行也十分重要,例如設(shè)備列表、維護工作內(nèi)容、維護時間安排等看似簡單的信息經(jīng)常會遺失,不準(zhǔn)確或不充分。管理歸檔好這些文件對數(shù)據(jù)中心生命周期的維護至關(guān)重要。
合理實施工序與流程
在數(shù)據(jù)中心這樣的關(guān)鍵環(huán)境里,所有的工作都要應(yīng)該有成文的流程。最常見的流程如下所示:
標(biāo)準(zhǔn)操作流程(Standard Operating Procedure/SOP)??梢允枪δ苄曰蛘吖芾硇缘?,詳細(xì)描述規(guī)定操作流程,可在任何情況下引用。
流程方法(Method of Procedure/MOP)。直接工作于或圍繞對關(guān)鍵負(fù)載有直接或間接影響的設(shè)備時,一步一步,詳細(xì)描述的流程。
緊急情況操作流程(Emergency Operating Procedure/EOP)。故障狀態(tài)下的應(yīng)急反應(yīng)流程,包括如何確保安全、恢復(fù)冗余,及隔離故障。
供應(yīng)商管理(Vendor Management/VM)。當(dāng)供應(yīng)商參與時,如果沒有完善的供應(yīng)商管理體系,會引入不必要的風(fēng)險。設(shè)備供應(yīng)商人員在數(shù)據(jù)中心內(nèi)的所有行動都需要在SOP、MOP和EOP中有詳細(xì)的監(jiān)督和規(guī)定。沒有合理的文檔記錄和監(jiān)督體系,造成人為故障的風(fēng)險大大增加。因此,坊間時常流傳這樣的故事:即設(shè)備供應(yīng)商去某重要客戶數(shù)據(jù)中心進(jìn)行維護卻造成宕機事件。
應(yīng)急響應(yīng)(Emergency Response/ER)。無論準(zhǔn)備如何充分,不測事件總會發(fā)生。精心設(shè)計的應(yīng)急響應(yīng)機制和總結(jié)流程,包括詳細(xì)的事件報告、故障分析,以及經(jīng)驗教訓(xùn)總結(jié),可以防止類似事件的再次發(fā)生并減少損失。