對(duì)于數(shù)據(jù)中心,運(yùn)維工作的重要性不言而喻,在數(shù)據(jù)中心生命周期中運(yùn)維管理是歷時(shí)時(shí)間最長的一個(gè)階段。數(shù)據(jù)中心運(yùn)維的工作主要是對(duì)數(shù)據(jù)中心各項(xiàng)管理對(duì)象進(jìn)行系統(tǒng)的計(jì)劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務(wù)有關(guān)各項(xiàng)管理工作的總稱,具體包括對(duì)機(jī)房環(huán)境基礎(chǔ)設(shè)施部分的維護(hù),系統(tǒng)與數(shù)據(jù)維護(hù),管理工具的使用,人員的管理等方面。投資巨大的數(shù)據(jù)中心,為了能夠盡快得到收益,就需要在運(yùn)維的工作上多下工夫,切勿進(jìn)入“一流設(shè)備、二流設(shè)計(jì)、三流運(yùn)維”的不良運(yùn)營之中,高品質(zhì)數(shù)據(jù)中心運(yùn)維的工作至關(guān)重要。那么如何才能提升數(shù)據(jù)中心的運(yùn)維水平,本文提出了數(shù)據(jù)中心運(yùn)維工作制勝的四大法寶,做好這四個(gè)方面的工作將使數(shù)據(jù)中心一直運(yùn)行于最佳狀態(tài),為數(shù)據(jù)中心創(chuàng)造最大的受益。
工程文檔
文檔對(duì)數(shù)據(jù)中心運(yùn)維的工作非常重要。包括數(shù)據(jù)中心的安裝、配置、優(yōu)化、組網(wǎng)、設(shè)備互連等方方面面,通過這些文檔可以對(duì)數(shù)據(jù)中心的運(yùn)營了如指掌,在出現(xiàn)故障時(shí)迅速排查,找到故障點(diǎn)。文檔還有一個(gè)重要的作用就是工作的傳承,當(dāng)有人員離開時(shí),他只要留下工作的文檔,其它人交接工作就很容易。還有就是工作經(jīng)驗(yàn)的積累文檔。雖然各種數(shù)據(jù)中心大同小異,基本是靠服務(wù)器、網(wǎng)絡(luò)和存儲(chǔ)三大件打天下,但每個(gè)數(shù)據(jù)中心又都有自己的風(fēng)格,自己的優(yōu)勢(shì)與劣勢(shì)。通過對(duì)數(shù)據(jù)中心運(yùn)維而輸出的各種技術(shù)文檔,將為后來人提供方便,并且可以提升數(shù)據(jù)中心整體的運(yùn)維能力。數(shù)據(jù)中心的文檔五華八門,你不知道什么時(shí)候其中的哪些文檔就會(huì)派上用場(chǎng)。根據(jù)以往經(jīng)驗(yàn),數(shù)據(jù)中心的文檔主要集中于三類:一是數(shù)據(jù)中心內(nèi)部架構(gòu)文檔,比如:組網(wǎng)介紹、設(shè)備互連關(guān)系、IP分配情況、空調(diào)系統(tǒng)、機(jī)電系統(tǒng)、布線系統(tǒng)等的基本狀況;二是數(shù)據(jù)中心管理文檔,比如:機(jī)房管理制度、機(jī)房值班和交接制度、機(jī)房巡檢制度、設(shè)備操作規(guī)范制度,安全防護(hù)制度等等。三是數(shù)據(jù)中心改造,優(yōu)化工程文檔。比如:升級(jí)指導(dǎo)書、網(wǎng)絡(luò)變更計(jì)劃書、應(yīng)急措施指導(dǎo)、軟件回退方案等等。四是數(shù)據(jù)中心運(yùn)維的經(jīng)驗(yàn)文檔。比如:網(wǎng)絡(luò)中斷問題分析、現(xiàn)有機(jī)房環(huán)境評(píng)估、如果進(jìn)行業(yè)務(wù)不丟包切換等等。利用這些文檔,即使一個(gè)新人來做數(shù)據(jù)中心維護(hù),也可以迅速上手。其實(shí)不僅對(duì)于數(shù)據(jù)中心這個(gè)行業(yè),其它任何行業(yè),任何工作都是如此,養(yǎng)成輸出文檔的好習(xí)慣,為自己也為別人提供方便,可以大大提升工作效率。
業(yè)務(wù)備份
數(shù)據(jù)中心的業(yè)務(wù)要求全年24小時(shí)連續(xù)運(yùn)行,然而數(shù)據(jù)中心一個(gè)故障都不出是不可能的,甚至一些數(shù)據(jù)中心幾乎天天都在上演各種故障。擁有數(shù)十萬臺(tái)設(shè)備的數(shù)據(jù)中心,每天壞一臺(tái)服務(wù)器或一個(gè)端口都是在正常不過的事情了,這就要求我們對(duì)數(shù)據(jù)業(yè)務(wù)有備份。小到服務(wù)器、網(wǎng)絡(luò)到存儲(chǔ),大到數(shù)據(jù)中心,都需要有備份,包含軟件的備份和硬件的備份。通過備份,可以在數(shù)據(jù)中心運(yùn)行出問題時(shí),及時(shí)做業(yè)務(wù)調(diào)整,確保業(yè)務(wù)無中斷或者短時(shí)中斷。如今的數(shù)據(jù)中心可以做到多數(shù)據(jù)中心互為備份,就算其中一個(gè)數(shù)據(jù)中心癱掉,業(yè)務(wù)也可以順利由其它數(shù)據(jù)中心接管,繼續(xù)正常運(yùn)行,所以只要不是世界末日到來,在不同地方建設(shè)多個(gè)數(shù)據(jù)中心,就能保證數(shù)據(jù)中心業(yè)務(wù)的長期穩(wěn)態(tài)運(yùn)行。業(yè)務(wù)備份是龐大的系統(tǒng)工程,涉及到方方面面,任何一個(gè)環(huán)節(jié)都有一些備份技術(shù),在數(shù)據(jù)中心里不可能任何地方都部署備份技術(shù),那將使得數(shù)據(jù)中心成本過高,設(shè)計(jì)過于復(fù)雜,但是沒有備份肯定是不行的,這就需要在兩者之間找到一個(gè)平衡點(diǎn)。不管怎樣,業(yè)務(wù)備份在數(shù)據(jù)中心里不可缺少。
在線監(jiān)測(cè)
數(shù)據(jù)中心運(yùn)行是動(dòng)態(tài)的,每時(shí)每刻都在變化。我們無法預(yù)知未來會(huì)發(fā)生哪些突發(fā)故障,就算是每個(gè)環(huán)節(jié)都有備份,也需要有監(jiān)測(cè)的手段,來保證業(yè)務(wù)切換到運(yùn)行正常的設(shè)備上來。對(duì)于數(shù)據(jù)中心在線監(jiān)測(cè)必不可少。在線監(jiān)測(cè)包括網(wǎng)管的監(jiān)測(cè),服務(wù)器運(yùn)行狀態(tài)的監(jiān)測(cè),空調(diào)系統(tǒng)的監(jiān)測(cè),機(jī)房環(huán)境的監(jiān)測(cè)等等,當(dāng)發(fā)現(xiàn)異常時(shí),即使將告警通知運(yùn)維人員,或者軟件自動(dòng)啟用備用系統(tǒng),確保數(shù)據(jù)中心繼續(xù)穩(wěn)定運(yùn)行。在線監(jiān)測(cè)是確保數(shù)據(jù)中心無故障運(yùn)行的保證,有效的在線監(jiān)測(cè)可以減少數(shù)據(jù)中心故障發(fā)生時(shí),對(duì)業(yè)務(wù)造成影響。
周期巡檢
俗話說“防患于未然”,對(duì)于數(shù)據(jù)中心日常的周期巡檢是不可缺少的。通過周期巡檢,及時(shí)發(fā)現(xiàn)一些運(yùn)行隱患,然后排除,可以大大降低數(shù)據(jù)中心發(fā)生嚴(yán)重故障的可能性。周期巡檢可以包括對(duì)各種設(shè)備的檢查,環(huán)境的檢查,電源、空調(diào)設(shè)備的檢查,填寫日常巡檢記錄表,檢修記錄,作業(yè)操作表等等。通過以往記錄的數(shù)據(jù)進(jìn)行綜合分析,一旦某些數(shù)據(jù)有波動(dòng)或者異常,應(yīng)該及時(shí)采取有效措施,避免隱患引發(fā)故障。通過周期巡檢也可以對(duì)整個(gè)數(shù)據(jù)中心有個(gè)全面的了解,一旦要進(jìn)行系統(tǒng)改造或者擴(kuò)容等工作,有了前期這些巡檢數(shù)據(jù)參考,制定的改造或擴(kuò)容方案才更有針對(duì)性。千萬不要以為周期巡檢只是記錄一些設(shè)備運(yùn)行的基本參數(shù),通過這些參數(shù)可以看到整個(gè)數(shù)據(jù)中心的運(yùn)行狀態(tài)。對(duì)于一個(gè)剛從事運(yùn)維的新手來說,通過周期巡檢可以迅速了解到數(shù)據(jù)中心的各個(gè)環(huán)節(jié),獨(dú)立展開維護(hù)工作。
工程文檔、業(yè)務(wù)備份、在線監(jiān)測(cè)、周期巡檢是數(shù)據(jù)中心運(yùn)維工作的四個(gè)重要方面,只有做好這四個(gè)方面的工作,才能讓數(shù)據(jù)中心保持長期穩(wěn)定運(yùn)行,并能產(chǎn)生良好的效益,是數(shù)據(jù)中心運(yùn)維水平高低的主要體現(xiàn),擁有這四大法寶,將使數(shù)據(jù)中心終身受益。