優(yōu)良數(shù)據(jù)中心運(yùn)維體系建設(shè)經(jīng)驗(yàn)談

責(zé)任編輯:hli

2012-06-28 07:48:26

摘自:IT專家網(wǎng)

越來越多數(shù)據(jù)中心行業(yè)從業(yè)人員意識(shí)到一個(gè)殘酷的現(xiàn)實(shí):人為操作失誤是造成數(shù)據(jù)中心宕機(jī)的頭號(hào)因素,而非糟糕的設(shè)計(jì)或施工

越來越多數(shù)據(jù)中心行業(yè)從業(yè)人員意識(shí)到一個(gè)殘酷的現(xiàn)實(shí):人為操作失誤是造成數(shù)據(jù)中心宕機(jī)的頭號(hào)因素,而非糟糕的設(shè)計(jì)或施工。越來越多的人開始關(guān)注數(shù)據(jù)中心的運(yùn)營(yíng)與維護(hù)。設(shè)計(jì)、建造一個(gè)完善的數(shù)據(jù)中心只是數(shù)據(jù)中心可持續(xù)運(yùn)行的第一步,公司企業(yè)、政府部門等數(shù)據(jù)中心的業(yè)主必須能夠根據(jù)其數(shù)據(jù)中心風(fēng)險(xiǎn)特性來準(zhǔn)確描繪運(yùn)維需求并設(shè)計(jì)相應(yīng)的運(yùn)維規(guī)劃。要做到這一點(diǎn)并不容易,尤其相關(guān)的經(jīng)驗(yàn)和技能對(duì)于那些核心業(yè)務(wù)并非數(shù)據(jù)中心的公司來說是比較匱乏的。本文將討論數(shù)據(jù)中心運(yùn)維當(dāng)中應(yīng)當(dāng)從哪些方面入手,以幫助大家建立合理的運(yùn)維體系,確保數(shù)據(jù)中心的可持續(xù)與可靠運(yùn)行。

運(yùn)維人員必須參與數(shù)據(jù)中心設(shè)計(jì)

如果數(shù)據(jù)中心設(shè)計(jì)的人不是最終使用的人,或者在設(shè)計(jì)階段使用者的意見沒有被充分咨詢或征求,很容易造成后期使用過程中額外的修改和改動(dòng)。實(shí)際上,數(shù)據(jù)中心運(yùn)維人員在實(shí)際運(yùn)維中經(jīng)常遭遇這樣的情景:使用中發(fā)現(xiàn)配電柜沒有預(yù)留足夠的空開位置,造成必要的維護(hù)工序無法完成;電池柜的設(shè)計(jì)安裝未預(yù)留服務(wù)空間;建筑結(jié)構(gòu)設(shè)計(jì)使得通風(fēng)裝置無法提供所需要的通風(fēng)量,等等。如果在設(shè)計(jì)階段就包括運(yùn)營(yíng)評(píng)估的環(huán)節(jié),那這些問題就可以盡可能地避免。

最有效、最省錢、最高效的數(shù)據(jù)中心應(yīng)當(dāng)采用生命周期總擁有成本(TCO)的方式來規(guī)劃管理,以平衡投資和運(yùn)營(yíng)成本,進(jìn)而滿足業(yè)務(wù)需求。其中很重要的一步就是根據(jù)公司具體業(yè)務(wù)需求制定設(shè)計(jì)指標(biāo)和運(yùn)營(yíng)目標(biāo)。這樣,建造的數(shù)據(jù)中心目的性更強(qiáng)。

不能僅僅依賴數(shù)據(jù)中心的設(shè)計(jì)

許多公司認(rèn)為高級(jí)別的冗余設(shè)計(jì)可以彌補(bǔ)運(yùn)維預(yù)算的不足,但多方的研究證明,關(guān)鍵任務(wù)環(huán)境下,人為錯(cuò)誤是宕機(jī)的首要因素。為什么人們還是會(huì)忽略運(yùn)維呢?主要是因?yàn)橛布脑O(shè)計(jì)建設(shè)是看得見摸得著的,而運(yùn)營(yíng)的經(jīng)驗(yàn)相對(duì)來說需要更多的時(shí)間積累。所以我們時(shí)??吹焦净ㄙM(fèi)大量投資進(jìn)行硬件建設(shè),而忽略運(yùn)營(yíng)規(guī)劃所需的預(yù)算。很多缺乏經(jīng)驗(yàn)的用戶不知從何下手時(shí),往往會(huì)把數(shù)據(jù)中心的運(yùn)維交給不具備專業(yè)知識(shí)的第三方管理。比如說,很多數(shù)據(jù)中心的運(yùn)維交由辦公室建筑維護(hù)類公司,而這類公司往往并不具備操作和管理關(guān)鍵設(shè)施的技能。最大的區(qū)別在于,辦公室環(huán)境的維護(hù)修復(fù)是可以離線進(jìn)行的,而關(guān)鍵設(shè)施環(huán)境下的維護(hù)是以盡可能減少宕機(jī)時(shí)間為最高信條。

所以無論是基礎(chǔ)設(shè)施管理還是數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)的架構(gòu)必須圍繞著一個(gè)目標(biāo):最大化正常運(yùn)行時(shí)間。具體而言,與維護(hù)傳統(tǒng)設(shè)施環(huán)境相比,維護(hù)關(guān)鍵設(shè)施環(huán)境有特殊的需求。例如,要求連續(xù)運(yùn)營(yíng),不許宕機(jī),要求實(shí)現(xiàn)冗余系統(tǒng),發(fā)生故障時(shí)能主動(dòng)切換,等等。無疑,滿足這些特殊需求的關(guān)鍵在于用正確的方法建立運(yùn)營(yíng)體系。

重視人才,重視培訓(xùn)

數(shù)據(jù)中心環(huán)境下,低估人員構(gòu)成是有風(fēng)險(xiǎn)的,有可能造成緊急情況下無法恢復(fù)正常運(yùn)行。合理安排人員配置,以優(yōu)化緊急狀況響應(yīng)、設(shè)備維護(hù)和供應(yīng)商管理。同樣,招聘并保留合適的人員至關(guān)重要。招聘具備專業(yè)技能的合格員工不是那么容易的,招聘時(shí)要通過嚴(yán)格的篩選過程,來驗(yàn)證應(yīng)聘人員的技術(shù)、管理和溝通能力,因?yàn)檫@些技能對(duì)數(shù)據(jù)中心關(guān)鍵設(shè)施的運(yùn)營(yíng)必不可少。當(dāng)然,找到合適的人選只是第一步。

招募了優(yōu)秀人才還要能留住他們。過高的人員流失比例對(duì)數(shù)據(jù)中心里的大多數(shù)運(yùn)營(yíng)項(xiàng)目造成風(fēng)險(xiǎn)。提供完善的培訓(xùn)和支持,營(yíng)造良好的職業(yè)發(fā)展空間可以有效地保留員工。經(jīng)過系統(tǒng)培訓(xùn)的員工將了解如何安全地操作和維護(hù)系統(tǒng),并知道在出現(xiàn)問題時(shí)如何處理。

很多情況下,設(shè)備安裝調(diào)試完成后,設(shè)備供應(yīng)商或總包商會(huì)提供相關(guān)設(shè)備的培訓(xùn),但這樣的培訓(xùn)往往針對(duì)具體的設(shè)備而很少全面考慮數(shù)據(jù)中心的整體運(yùn)營(yíng)。而接受培訓(xùn)的員工又“言傳身教”,“口口相傳”地培訓(xùn)其他人,這樣的培訓(xùn)方式很容易使一些不正確的方法和流程成為標(biāo)準(zhǔn)化的東西。

因此,我們需要的是一套完整的培訓(xùn)和考核體系,根據(jù)掌握的技能將人員按不同資質(zhì)資格劃分,同時(shí)提高不同層次人員的業(yè)務(wù)水準(zhǔn)。通常情況下,業(yè)務(wù)人員水準(zhǔn)可分為以下幾個(gè)層次:

· 在指導(dǎo)監(jiān)督下的基本操作;

· 進(jìn)行日常操作及維護(hù);

· 進(jìn)行高級(jí)操作及維護(hù);

· 專業(yè)領(lǐng)域?qū)<?/p>

糟糕的培訓(xùn)往往是由于沒有花足夠的時(shí)間和經(jīng)費(fèi)來開發(fā)培訓(xùn)規(guī)劃。所謂“磨刀不誤砍柴工”,很多IT經(jīng)理們忽略了這樣一個(gè)簡(jiǎn)單的道理。良好的培訓(xùn)可以帶來正常工作時(shí)間的增加、維護(hù)成本的節(jié)約,以及人員流失的降低,所有這些收益都會(huì)遠(yuǎn)遠(yuǎn)抵消開發(fā)培訓(xùn)規(guī)劃的成本和努力。

持續(xù)不斷地演練

任何緊急狀況下,數(shù)據(jù)中心的操作人員都應(yīng)該象訓(xùn)練有素的救火隊(duì)員一樣從容應(yīng)對(duì)。要做到這一點(diǎn),關(guān)鍵是持續(xù)不斷地安排專門時(shí)間演練。而且這樣的演練需要數(shù)據(jù)中心所有相關(guān)人士的參與,從而令每個(gè)人都明確在緊急狀況發(fā)生時(shí)應(yīng)該做什么。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)