具備哪些素質(zhì)的人才能成為運維人員?

責任編輯:editor04

2015-08-05 21:27:53

摘自:機房360  

運維管理是需要人去做的,如何才能管理好一個數(shù)據(jù)中心,才能充分發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計算提供強大的支持能力。又如,某化工單位在定期為240kVAUPS電池放電時,由于負載太小,只好將電池組取下來用假負載放電。

運維管理是需要人去做的,如何才能管理好一個數(shù)據(jù)中心,才能充分發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計算提供強大的支持能力。運維人員應具備什么樣的素質(zhì)才能做到這一點呢?一般說需具備以下三個方面的條件。

(1)深厚的理論基礎

運維管理知識來源于學習和不斷地研究,比如看書和培訓。有了這樣的理論基礎也就減少了對問題分析的盲目性。否則碰到問題就不知所措,無從下手。

如圖1是某數(shù)據(jù)中心供配電結(jié)構原理圖。圖中,兩臺120kVAUPS并聯(lián)后送到兩個配電柜,每個配電柜各有35個16A的微型斷路器。一天夜里1#配電柜突然有八個輸出斷路器跳閘。后來檢查結(jié)果是一個IT電源輸入短路,兩個IT電源輸入保險絲燒斷。這就提出了如下的問題:

①為什么三個電源故障導致八個斷路器跳閘?

②為什么一個電源短路導致八個斷路器跳閘?

③為什么跳閘都發(fā)生在1#配電柜,而2#配電柜沒有任何反應?

以上的幾個問題如何解釋?這里面包含了理論、經(jīng)驗和對電路與器件的了解。

又如,某化工單位在定期為240kVAUPS電池放電時,由于負載太小,只好將電池組取下來用假負載放電。放電后又將電池組接回原處,合閘后機器突然爆炸起火。專家檢查后,發(fā)現(xiàn)電池的極性連接正確,但所有逆變器功率器件和整流器后面的所有電解電容器統(tǒng)統(tǒng)燒毀!于是專家作出了是“機器質(zhì)量問題”的結(jié)論。結(jié)果代理商賠了一臺新機器。是機器本身的質(zhì)量問題嗎?為什么電池放電前機器一直運行正常,而放電后就起火爆炸呢?就算是質(zhì)量問題也不會在同一時間所有這些器件都達到報廢的程度!這又如何解釋?如此等等,如果不站在理論的高度上去分析,單憑經(jīng)驗和直觀視覺就一頭霧水,就不能做出公允的判斷。“機器質(zhì)量問題”的結(jié)論肯定是錯的,錯在哪里?錯在不懂UPS的結(jié)構原理。

又如,某機關數(shù)據(jù)中心購置了4臺200kVAUPS做 2 (1+1)連接,如圖2所示。機器安裝后在考機期間,為了檢測在市電轉(zhuǎn)換時的輸出不間斷功能,就在轉(zhuǎn)換開關ZB1由市電1向市電2切換瞬間,分路斷路器ZB2和ZB3跳閘,兩路并聯(lián)UPS1和UPS2各壞了1臺,檢查發(fā)現(xiàn)都是可控硅整流器燒毀和控制電路板受損。按道理說由市電1切到市電2是一

個很普通的操作,即是UPS最普通的功能之一,為什么會出現(xiàn)如此情況?而且修好后不到一年又一次市電停電時,UPS轉(zhuǎn)為電池供電模式,待市電恢復后UPS的輸入電壓就不能投入了,一直是逆變器供電。為什么?為了工作再不受影響,用戶只好將其淘汰!為什么會這樣?調(diào)查得知,該機器是打著進口品牌的國產(chǎn)品,而且該生產(chǎn)者是一個國內(nèi)不知名的小廠。在用戶購置該UPS的時候,國內(nèi)知名的幾家UPS制造商也剛剛達到生產(chǎn)該容量的水平,且大都是仿制。不用說這一家也是仿制。問題是為什么的仿制就會出現(xiàn)如此多的問題呢?技術分析留待后面,這里只分析產(chǎn)品和知名廠家的不同,其不同就是仿制技術水平的差別(這可從UPS故障后兩個月才修復看出技術水平不佳)、生產(chǎn)平臺的差別(機內(nèi)布線和控制電路板外觀粗燥)、元器件等級的差別(更換故障部件不是一次成功)、檢測手段的差別(出廠產(chǎn)品做市電切換是常規(guī)手段,這次故障說明產(chǎn)品出廠時連最常規(guī)的實驗都沒做)等。由于用戶缺乏這方面的知識,沒有向廠家提出采取相應的應對措施,才會很快又出現(xiàn)第二次故障。

(2)豐富的實踐經(jīng)驗

理論來自學習,但必須和實踐經(jīng)驗相結(jié)合。一般說經(jīng)驗多數(shù)來自教訓,所謂失敗是成功之母就是這個道理。這里所說的經(jīng)驗是經(jīng)過反復實踐證明的,是經(jīng)得住考驗的。往往好多所謂經(jīng)驗并不是真正的經(jīng)驗而是經(jīng)歷。比如不少人認為零地電壓干擾負載,并能舉出一些實際例子加以證明。比如舉例者說:一次,機器系統(tǒng)工作異常,經(jīng)查找發(fā)現(xiàn)零地電壓大于1V,于是就將電源的零線和地線短接,結(jié)果異常消除了。當問及是否又將零地短接線斷開時,其回答是:“既然工作正常了還斷開做什么?”首先這個經(jīng)驗是不完全,只做了一半。一個完整的經(jīng)驗應該是:零線和地線短接后異常消除,接著再將零地短接線斷開,如果此時系統(tǒng)工作又出現(xiàn)異常,就說明是零地電壓干擾系統(tǒng);如果將零地短接線斷開后系統(tǒng)仍正常工作,就不能說明零地電壓干擾系統(tǒng)。這里的誤區(qū)是當事者聽信了傳說‘零地電壓干擾負載’的影響,在他的心目中已有這個印象,這次的經(jīng)歷正好迎合了這種心理,所以就錯誤地認為這就是經(jīng)驗。

大都有這樣的經(jīng)歷:顯像管老式電視機,看的時間長了就會出現(xiàn)影像突然消失,一般的做法是拍打幾下電視機外殼,大都是影像出現(xiàn)了。有了這一次的經(jīng)驗,以后只要影像沒有了就去拍打外殼。可說是有了多次‘經(jīng)驗’。難道就可以說這個電視機所以經(jīng)常出現(xiàn)黑屏就是因為‘欠打’嗎?很明顯這是誤解??傆幸惶鞂㈦娨暀C拍打的徹底黑屏為止,或燒掉。

(3)很強的責任心

這一點尤為重要,技術好并不代表責任心強。比如某金融數(shù)據(jù)中心一位技術很好的運維工程師,開始的確是嚴格按照機房守則每兩小時抄一次UPS顯示屏上的數(shù)據(jù),幾個月下來顯示屏上的數(shù)據(jù)總也不變,他都背熟了。從此機房就再也不去了,按照記憶每兩小時填一次表。突然一天半夜機房內(nèi)市電故障停電,UPS轉(zhuǎn)為電池模式繼續(xù)為機房IT系統(tǒng)供電,這位工程師早晨上班后仍按習慣沒有去機房巡視,就直接將記憶中的數(shù)據(jù)填入表中,幾小時后由于電池的儲能枯竭致使UPS輸出停電,機房設備全部停止運行。可惜的是后備發(fā)電機控制屏的開機旋鈕指在“手動”位置上,本來可以避免的故障就這樣出現(xiàn)了,給單位造成了嚴重損失。

再者,責任心強如果制度定得不合適也會導致故障。如在前面“深厚的理論基礎”中提到的例子,這位工程師責任心是很強,做到了定時為電池放電保養(yǎng),但由于制度定的不細,使得只有一個人的情況下單獨操作,結(jié)果由于誤操作而導致故障。在對待高壓(不論是直流還是交流)情況下應該是兩人在場,一個人操作一個人‘監(jiān)督’。

結(jié)束語

數(shù)據(jù)中心作為信息與信息系統(tǒng)的物理載體,目前主要用于與IT相關的主機、網(wǎng)絡、存儲等設備和資源的存放、管理。只有運維管理好一個數(shù)據(jù)中心,才能發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計算提供強大的支持能力。通過有效實施云計算數(shù)據(jù)中心運維管理,降低人員工作量的同時提高運維人員工作效率,保障業(yè)務人員的工作效率,提高業(yè)務系統(tǒng)運行狀況,進而提高企業(yè)整體管理效益,同時提高客戶滿意度,實現(xiàn)云計算數(shù)據(jù)中心的價值最大化。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號