現(xiàn)代信息中心已成為人們?nèi)粘I钪胁豢扇鄙俚牟糠?,因此信息中心機(jī)房設(shè)備的運(yùn)行正常與否就非常關(guān)鍵。在數(shù)據(jù)中心 生命周期中,數(shù)據(jù)中心運(yùn)維管理是數(shù)據(jù)中心生命周期中最后一個(gè)、也是歷時(shí)最長(zhǎng)的一個(gè)階段。加強(qiáng)對(duì)云計(jì)算運(yùn)維管理的要點(diǎn)以及相應(yīng)改進(jìn)方面措施的研究與探討,以此不斷提高IT運(yùn)維質(zhì)量,實(shí)現(xiàn)高效的運(yùn)維管理。這就給運(yùn)維是否到位提出了嚴(yán)格要求。
1 運(yùn)維在機(jī)房中的地位
在數(shù)據(jù)中心生命周期中,數(shù)據(jù)中心運(yùn)維管理是數(shù)據(jù)中心生命周期中最后一個(gè)、也是歷時(shí)最長(zhǎng)的一個(gè)階段。數(shù)據(jù)中心運(yùn)維管理是,為提供符合要求的信息系統(tǒng)服務(wù),而對(duì)與該信息系統(tǒng)服務(wù)有關(guān)的數(shù)據(jù)中心各項(xiàng)管理對(duì)象進(jìn)行系統(tǒng)地計(jì)劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務(wù)有關(guān)各項(xiàng)管理工作的總稱。數(shù)據(jù)中心 運(yùn)維管理主要肩負(fù)合規(guī)性、可用性、經(jīng)濟(jì)性、服務(wù)性等四大目標(biāo)。
在信息中心機(jī)房配備有運(yùn)維人員,但大都是“全才”的,即什么都管,尤其是對(duì)供電系統(tǒng)大都是由主機(jī)運(yùn)維的人員代管。當(dāng)電源系統(tǒng)出故障時(shí),此代管人員一問(wèn)三不知,甚至連配電柜門都沒(méi)開(kāi)過(guò)。這實(shí)際上就是把機(jī)房的運(yùn)維放在了一個(gè)次要的地位。
當(dāng)然也有的地方有所分工,看似重視,實(shí)際上也沒(méi)得到真正地重視。比如說(shuō)機(jī)房設(shè)備長(zhǎng)時(shí)間一直運(yùn)行正常,這時(shí)如果運(yùn)維人員提出要增添運(yùn)維方面的測(cè)量設(shè)備,有的領(lǐng)導(dǎo)就認(rèn)為多余,很難得到批準(zhǔn)。但他不知道機(jī)房設(shè)備所以長(zhǎng)時(shí)間一直運(yùn)行正常,正是由于這些運(yùn)維人員的細(xì)心維護(hù)和努力保養(yǎng)所獲得的。并不是這些人員每天閑著無(wú)事可干,他們的這些工作一般是領(lǐng)導(dǎo)看不見(jiàn)的。比如同樣多款的UPS在同樣的環(huán)境條件下,在某衛(wèi)星地面站就極少出故障,而在同系統(tǒng)別的地方機(jī)房同一家同規(guī)格的機(jī)器就故障連連。原來(lái)是前者的運(yùn)維人員每天都在細(xì)心觀察和分析機(jī)器面板LCD上顯示的數(shù)據(jù),一旦發(fā)現(xiàn)異常苗頭及時(shí)采取措施;而后者只限于每天抄寫這些數(shù)據(jù)就算完成任務(wù),使異常苗頭不斷積累,以致于導(dǎo)致故障。比如斷路器在額定閉合狀態(tài)發(fā)現(xiàn)觸點(diǎn)處溫度高了,就要檢查是不是電流過(guò)大到超過(guò)額定值,如果不是就要檢查觸點(diǎn)接觸是否牢靠,是否需要再緊固一下。這樣一來(lái),故障隱患就排除了。如果一直不管不問(wèn)久而久之就會(huì)導(dǎo)致跳閘而使系統(tǒng)崩潰。這都是一些小的動(dòng)作,都是在巡查中順便做的事情。所以同是運(yùn)維人員在巡查,但前者在做事而后者只是走馬觀花。這就是數(shù)據(jù)中心可靠與不可靠的區(qū)別。
運(yùn)維人員就像幼兒園的保育員和老師。孩子交到幼兒園后,起主要作用的就是保育員和老師,這時(shí)保育員和老師就是主體。機(jī)器就好比是幼兒園的孩子,孩子是否健康成長(zhǎng),機(jī)器是否正常運(yùn)行,除去本身的健康(可靠性質(zhì)量)狀況外,那就是運(yùn)維人員的責(zé)任了。由于云計(jì)算的要求彈性、靈活快速擴(kuò)展、降低運(yùn)維成本、自動(dòng)化資源監(jiān)控、多租戶環(huán)境等特性,除基于ITIL(IT基礎(chǔ)設(shè)施庫(kù))的常規(guī)數(shù)據(jù)中心運(yùn)維管理理念之外,以下運(yùn)維管理方面的內(nèi)容,需要我們加以重點(diǎn)關(guān)注。
2 云計(jì)算數(shù)據(jù)中心運(yùn)維管理的要點(diǎn)
(1)理清云計(jì)算數(shù)據(jù)中心 的運(yùn)維對(duì)象
數(shù)據(jù)中心的運(yùn)維管理指的是與數(shù)據(jù)中心信息服務(wù)相關(guān)的管理工作的總稱。云計(jì)算數(shù)據(jù)中心運(yùn)維對(duì)象一般可分成5大類:
①機(jī)房環(huán)境基礎(chǔ)設(shè)施
這里主要指的是為保障數(shù)據(jù)中心 所管理的設(shè)備正常運(yùn)行所必需的網(wǎng)絡(luò)通信、供配電系統(tǒng)、環(huán)境系統(tǒng)、消防系統(tǒng)和安保系統(tǒng)等。這部分設(shè)備對(duì)于用戶來(lái)說(shuō)幾乎是透明的,比如大多數(shù)用戶都不會(huì)忽略數(shù)據(jù)中心的供電和制冷。因?yàn)檫@類設(shè)備如果發(fā)生意外,對(duì)依托于該基礎(chǔ)設(shè)施的應(yīng)用來(lái)說(shuō)是致命的。
②數(shù)據(jù)中心所應(yīng)用的各種設(shè)備
這些設(shè)備包括存儲(chǔ)、服務(wù)器、網(wǎng)絡(luò)設(shè)備和安全設(shè)備等硬件資源。這類設(shè)備在向用戶提供IT服務(wù)過(guò)程中提供了計(jì)算、存?zhèn)鬏敽屯ㄐ诺裙δ?,是IT服務(wù)最核心的部分。
③系統(tǒng)與數(shù)據(jù)
這部分包括操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間環(huán)節(jié)和應(yīng)用程序等軟件資源,還有業(yè)務(wù)數(shù)據(jù)、配置文件、日志等各類數(shù)據(jù)。這類管理對(duì)象雖然不像前兩類管理對(duì)象那樣“看得見(jiàn),摸得著”,但卻是IT服務(wù)的邏輯載體。
④管理工具
這部分包括基礎(chǔ)設(shè)施監(jiān)控軟件、IT監(jiān)控軟件、工作流管理平臺(tái)、報(bào)表平臺(tái)和短信平臺(tái)等。
這類管理對(duì)象是幫助管理主體更高效地管理數(shù)據(jù)中心內(nèi)各種管理對(duì)象的工作情況,并在管理活動(dòng)中承擔(dān)起部分管理功能的軟硬件設(shè)施。通過(guò)這些工具,可以直觀感受并考證數(shù)據(jù)中心如何管理好與其直接相關(guān)的資源,從而間接地提升了可用性與可靠性。
⑤人員管理
人員管理包括數(shù)據(jù)中心在內(nèi)的技術(shù)人員、運(yùn)維人員、管理人員以及提供服務(wù)的廠商人員的管理。
人員一方面作為管理的主體負(fù)責(zé)管理數(shù)據(jù)中心 的運(yùn)維對(duì)象,另一方面也作為管理的對(duì)象,支持IT的運(yùn)行。這類對(duì)象與其他運(yùn)維對(duì)象不同,具有很強(qiáng)的主觀能動(dòng)性,其管理的好壞將直接影響到整個(gè)運(yùn)維管理體系,而不僅僅是運(yùn)維對(duì)象本身。
(2)定義各運(yùn)維對(duì)象的運(yùn)維內(nèi)容
云計(jì)算數(shù)據(jù)中心資源管理所涵蓋的范圍很廣,包括環(huán)境管理、網(wǎng)絡(luò)管理、設(shè)備管理、軟件管理、存儲(chǔ)介質(zhì)管理、防病毒管理、應(yīng)用管理、日常操作管理、用戶密碼管理和員工管理等。這就需要對(duì)每一個(gè)管理對(duì)象的日常維護(hù)工作內(nèi)容有一個(gè)明確的定義,定義操作內(nèi)容、維護(hù)頻度、對(duì)應(yīng)的責(zé)任人,要做到有章可循,責(zé)任人可追蹤。實(shí)現(xiàn)對(duì)整個(gè)系統(tǒng)全生命周期地追蹤管理。
(3)建立信息化的運(yùn)維管理平臺(tái)系統(tǒng)和IT服務(wù)管理系統(tǒng)
云計(jì)算數(shù)據(jù)中心的運(yùn)維管理應(yīng)從數(shù)據(jù)中心的日常監(jiān)控入手,事件管理、變更管理、應(yīng)急預(yù)案管理和日常維護(hù)管理等方面全方位地進(jìn)行數(shù)據(jù)中心的日常監(jiān)控。實(shí)現(xiàn)提前發(fā)現(xiàn)問(wèn)題、消除隱患,首先要有完整的、全方位實(shí)時(shí)有效的監(jiān)控系統(tǒng),并著重監(jiān)控?cái)?shù)據(jù)的記錄和技術(shù)分析。
數(shù)據(jù)中心的業(yè)務(wù)可以概括為:通過(guò)運(yùn)行系統(tǒng)來(lái)向客戶提供服務(wù)。沒(méi)有信息系統(tǒng)的支撐來(lái)運(yùn)行IT系統(tǒng)就如超市里仍然采用手工結(jié)賬一樣不能讓顧客滿意。信息化的數(shù)據(jù)中心運(yùn)維管理平臺(tái)系統(tǒng)包括如下方面:
①機(jī)房環(huán)境基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng);
②IT系統(tǒng)監(jiān)控管理系統(tǒng);
③IT服務(wù)管理系統(tǒng)。
(4)定制化管理
靈活性、個(gè)性化是云服務(wù)的顯著特征,用戶對(duì)應(yīng)用系統(tǒng)有著千差萬(wàn)別的個(gè)性化需求,云服務(wù)提供商在保證共性需求的基礎(chǔ)上,還要滿足用戶個(gè)性化的定制需求,向用戶提供靈活和個(gè)性化配置的云服務(wù)系統(tǒng)。云服務(wù)提供商要提供按需變化的服務(wù),就要有反應(yīng)敏捷的人員、流程和工具,來(lái)適應(yīng)業(yè)務(wù)變化的需要。云服務(wù)下的運(yùn)維需要更多的靈活性和可伸縮性,可以根據(jù)客戶與合作伙伴的需要,快速調(diào)整資源、服務(wù)和基礎(chǔ)設(shè)施。
(5)自動(dòng)化管理
IT服務(wù)根據(jù)負(fù)載變化的情況可以自動(dòng)調(diào)整所需的資源,以求在及時(shí)響應(yīng)和節(jié)約成本上取得平衡。同時(shí),還考慮到計(jì)算能力和規(guī)模會(huì)越來(lái)越大,人工管理資源也會(huì)越來(lái)越復(fù)雜。這些新特性對(duì)IT管理自動(dòng)化能力提出了更高的要求。企業(yè)往往希望在不失靈活性的前提下,可以得到更高程度的自動(dòng)化。為此,云計(jì)算數(shù)據(jù)中心需要部署自動(dòng)化管理平臺(tái),集中管理虛擬化和云計(jì)算平臺(tái),并提供自定義規(guī)則,以定制功能的自動(dòng)化解決方案,用戶通過(guò)使用事件觸發(fā)、數(shù)據(jù)監(jiān)控觸發(fā)等方式來(lái)自動(dòng)化管理,不但節(jié)約了人力,同時(shí)也提高了響應(yīng)速度。
(6)用戶關(guān)系管理
云計(jì)算數(shù)據(jù)中心是為多租戶提供IT服務(wù)的平臺(tái),為了保留和吸引用戶,在運(yùn)維過(guò)程中對(duì)用戶關(guān)系管理非常重要。
①服務(wù)評(píng)審:與客戶針對(duì)服務(wù)情況進(jìn)行定期或不定期的溝通。每次溝通均應(yīng)形成溝通記錄,以備數(shù)據(jù)中心對(duì)服務(wù)進(jìn)行評(píng)價(jià)和改進(jìn)。
②用戶滿意度調(diào)查:用戶滿意度調(diào)查主要包括用戶滿意度調(diào)查的設(shè)計(jì)、執(zhí)行和用戶滿意度調(diào)查結(jié)果的分析和改進(jìn)等4個(gè)階段。數(shù)據(jù)中心可根據(jù)用戶的特點(diǎn)制定不同的用戶滿意度調(diào)查方案。
③用戶抱怨管理:用戶抱怨管理規(guī)定了數(shù)據(jù)中心接收用戶提出抱怨的途徑以及抱怨的相應(yīng)方式,并留下與事件管理等流程聯(lián)系的接口。應(yīng)針對(duì)用戶抱怨完成分析報(bào)告,總結(jié)用戶抱怨的原因,制定相關(guān)的改進(jìn)措施。為及時(shí)應(yīng)對(duì)用戶的抱怨,需要有用戶抱怨的升級(jí)機(jī)制,對(duì)于嚴(yán)重的用戶抱怨,按升級(jí)的用戶投訴流程進(jìn)行相應(yīng)處理。
(7)安全性管理
由于提供服務(wù)的系統(tǒng)和數(shù)據(jù)有可能被轉(zhuǎn)移到用戶可掌控的范圍之外,云服務(wù)的數(shù)據(jù)安全、隱私保護(hù)就成為了用戶對(duì)云服務(wù)最為擔(dān)憂的方面。云服務(wù)引發(fā)的安全問(wèn)題除了包括傳統(tǒng)網(wǎng)絡(luò)與信息安全問(wèn)題(如系統(tǒng)防護(hù)、數(shù)據(jù)加密、用戶訪問(wèn)控制、DoS攻擊等)問(wèn)題外,還包括由集中服務(wù)模式所引發(fā)的安全問(wèn)題以及云計(jì)算技術(shù)引入的安全問(wèn)題。例如防虛機(jī)隔離、多租戶數(shù)據(jù)隔離、殘余數(shù)據(jù)擦除以及多SaaS(SoftwareasaService)應(yīng)用統(tǒng)一身份認(rèn)證等問(wèn)題。要解決云服務(wù)引發(fā)的安全問(wèn)題,云服務(wù)提供商需要提升用戶安全認(rèn)知、強(qiáng)化服務(wù)運(yùn)營(yíng)管理和加強(qiáng)安全技術(shù)保障等。需要加強(qiáng)用戶對(duì)不同重要性數(shù)據(jù)遷移的認(rèn)知,并在服務(wù)合同中強(qiáng)化用戶自身的服務(wù)帳號(hào)保密意識(shí),這可以提升用戶對(duì)安全的認(rèn)知。在服務(wù)管理方面,要嚴(yán)格設(shè)定關(guān)鍵系統(tǒng)的分級(jí)分權(quán)管理權(quán)限并輔之以相應(yīng)規(guī)章制度,同時(shí)加強(qiáng)對(duì)合作供應(yīng)商的資格審查與保密教育。加強(qiáng)安全技術(shù)保障,以充分利用網(wǎng)絡(luò)安全、數(shù)據(jù)加密、身份認(rèn)證等技術(shù),消除用戶對(duì)云服務(wù)使用的安全擔(dān)憂,增強(qiáng)用戶使用云服務(wù)的信心。
(8)流程管理
流程是數(shù)據(jù)中心運(yùn)維管理質(zhì)量的保證。作為客戶服務(wù)的物理載體,數(shù)據(jù)中心存在的目的就是要保證服務(wù)可以按質(zhì)、按量地提供符合用戶要求的服務(wù)。為確保最終提供給用戶的服務(wù)是符合服務(wù)合同的要求,數(shù)據(jù)中心需要把現(xiàn)在的管理工作抽象成不同的管理流程,并把流程之間的關(guān)系、流程的角色、流程的觸發(fā)點(diǎn)和流程的輸入與輸出等進(jìn)行詳細(xì)定義。通過(guò)這種流程的建立,一方面可以使數(shù)據(jù)中心的人員能夠?qū)ぷ饔幸粋€(gè)統(tǒng)一的認(rèn)識(shí),更重要的是通過(guò)這些服務(wù)工作的流程化,使得整個(gè)服務(wù)提供過(guò)程可被監(jiān)控和管理,以形成真正意義上的“IT”。服務(wù)數(shù)據(jù)中心建立的管理流程,除應(yīng)滿足數(shù)據(jù)中心自身特點(diǎn)外,還應(yīng)能兼顧用戶、管理者和服務(wù)商與審計(jì)機(jī)構(gòu)的需求。由于每個(gè)數(shù)據(jù)中心的實(shí)際運(yùn)維情況與管理目標(biāo)存在差異,數(shù)據(jù)中心需要建立的流程也會(huì)有所不同。
(9)應(yīng)急預(yù)案管理
應(yīng)急預(yù)案是為確保發(fā)生故障事件后,盡快消除緊急事件的不良影響,恢復(fù)業(yè)務(wù)的持續(xù)運(yùn)營(yíng)而制定的應(yīng)急處理措施。應(yīng)急預(yù)案的注意事項(xiàng):
①根據(jù)業(yè)務(wù)影響分析的結(jié)果及故障場(chǎng)景的特點(diǎn)編寫應(yīng)急預(yù)案,以確保當(dāng)緊急事件發(fā)生后可維持業(yè)務(wù)繼續(xù)運(yùn)作,在重要業(yè)務(wù)流程中斷或發(fā)生故障后,在規(guī)定時(shí)間內(nèi),要及時(shí)恢復(fù)業(yè)務(wù)運(yùn)作。
②應(yīng)急預(yù)案除包括特定場(chǎng)景出現(xiàn)后,各部門和第三方的責(zé)任與職責(zé)外,還應(yīng)評(píng)估復(fù)原可接受的總時(shí)間。
③應(yīng)急預(yù)案必須經(jīng)過(guò)演練,使相關(guān)責(zé)任人熟悉應(yīng)急預(yù)案的內(nèi)容。應(yīng)急預(yù)案應(yīng)是一個(gè)閉環(huán)管理系統(tǒng)。從預(yù)案的創(chuàng)建、演練、評(píng)估到修訂應(yīng)是一個(gè)全過(guò)程的管理,絕不能為了應(yīng)付某個(gè)演練工作,制定后就束之高閣了。而是應(yīng)該在實(shí)際演練和問(wèn)題發(fā)生時(shí)不斷地總結(jié)和完善。
所以,就全局而言,運(yùn)維人員的地位不可忽視。只有運(yùn)維管理好一個(gè)數(shù)據(jù)中心,才能充分發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計(jì)算提供強(qiáng)大的支持能力。通過(guò)有效實(shí)施云計(jì)算數(shù)據(jù)中心運(yùn)維管理,減少人員工作量的同時(shí),還要提高運(yùn)維人員的工作素質(zhì)和效率,保障業(yè)務(wù)人員的工作效率,提高業(yè)務(wù)系統(tǒng)運(yùn)行狀況,進(jìn)而提高企業(yè)整體的管理效益,同時(shí)也提高了用戶的滿意度,才能實(shí)現(xiàn)云計(jì)算數(shù)據(jù)中心的價(jià)值最大化。
3 運(yùn)維人員應(yīng)具備的素質(zhì)
運(yùn)維管理是需要人去做的,如何才能管理好一個(gè)數(shù)據(jù)中心 ,才能充分發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計(jì)算提供強(qiáng)大的支持能力。運(yùn)維人員應(yīng)具備什么樣的素質(zhì)才能做到這一點(diǎn)呢?一般說(shuō)需具備以下三個(gè)方面的條件。
(1)深厚的理論基礎(chǔ)
運(yùn)維管理知識(shí)來(lái)源于學(xué)習(xí)和不斷地研究,比如看書和培訓(xùn)。有了這樣的理論基礎(chǔ)也就減少了對(duì)問(wèn)題分析的盲目性。否則碰到問(wèn)題就不知所措,無(wú)從下手。如圖1是某數(shù)據(jù)中心
供配電結(jié)構(gòu)原理圖。圖中,兩臺(tái)120kVAUPS并聯(lián)后送到兩個(gè)配電柜,每個(gè)配電柜各有35個(gè)16A的微型斷路器。一天夜里1#配電柜突然有八個(gè)輸出斷路器跳閘。后來(lái)檢查結(jié)果是一個(gè)IT電源輸入短路,兩個(gè)IT電源輸入保險(xiǎn)絲燒斷。這就提出了如下的問(wèn)題:
①為什么三個(gè)電源故障導(dǎo)致八個(gè)斷路器跳閘?
②為什么一個(gè)電源短路導(dǎo)致八個(gè)斷路器跳閘?
③為什么跳閘都發(fā)生在1#配電柜,而2#配電柜沒(méi)有任何反應(yīng)?
以上的幾個(gè)問(wèn)題如何解釋?這里面包含了理論、經(jīng)驗(yàn)和對(duì)電路與器件的了解。
又如,某化工單位在定期為240kVAUPS電池放電時(shí),由于負(fù)載太小,只好將電池組取下來(lái)用假負(fù)載放電。放電后又將電池組接回原處,合閘后機(jī)器突然爆炸起火。專家檢查后,發(fā)現(xiàn)電池的極性連接正確,但所有逆變器功率器件和整流器后面的所有電解電容器統(tǒng)統(tǒng)燒毀!于是專家作出了是“機(jī)器質(zhì)量問(wèn)題”的結(jié)論。結(jié)果代理商賠了一臺(tái)新機(jī)器。是機(jī)器本身的質(zhì)量問(wèn)題嗎?為什么電池放電前機(jī)器一直運(yùn)行正常,而放電后就起火爆炸呢?就算是質(zhì)量問(wèn)題也不會(huì)在同一時(shí)間所有這些器件都達(dá)到報(bào)廢的程度!這又如何解釋?如此等等,如果不站在理論的高度上去分析,單憑經(jīng)驗(yàn)和直觀視覺(jué)就一頭霧水,就不能做出公允的判斷。“機(jī)器質(zhì)量問(wèn)題”的結(jié)論肯定是錯(cuò)的,錯(cuò)在哪里?錯(cuò)在不懂UPS的結(jié)構(gòu)原理。
又如,某機(jī)關(guān)數(shù)據(jù)中心購(gòu)置了4臺(tái)200kVAUPS做 2 (1+1)連接,如圖2所示。機(jī)器安裝后在考機(jī)期間,為了檢測(cè)在市電轉(zhuǎn)換時(shí)的輸出不間斷功能,就在轉(zhuǎn)換開(kāi)關(guān)ZB1由市電1向市電2切換瞬間,分路斷路器ZB2和ZB3跳閘,兩路并聯(lián)UPS1和UPS2各壞了1臺(tái),檢查發(fā)現(xiàn)都是可控硅整流器燒毀和控制電路板受損。按道理說(shuō)由市電1切到市電2是一個(gè)很普通的操作,即是UPS最普通的功能之一,為什么會(huì)出現(xiàn)如此情況?而且修好后不到一年又一次市電停電時(shí),UPS轉(zhuǎn)為電池供電模式,待市電恢復(fù)后UPS的輸入電壓就不能投入了,一直是逆變器供電。為什么?為了工作再不受影響,用戶只好將其淘汰!為什么會(huì)這樣?調(diào)查得知,該機(jī)器是打著進(jìn)口品牌的國(guó)產(chǎn)品,而且該生產(chǎn)者是一個(gè)國(guó)內(nèi)不知名的小廠。在用戶購(gòu)置該UPS的時(shí)候,國(guó)內(nèi)知名的幾家UPS制造商也剛剛達(dá)到生產(chǎn)該容量的水平,且大都是仿制。不用說(shuō)這一家也是仿制。問(wèn)題是為什么的仿制就會(huì)出現(xiàn)如此多的問(wèn)題呢?技術(shù)分析留待后面,這里只分析產(chǎn)品和知名廠家的不同,其不同就是仿制技術(shù)水平的差別(這可從UPS故障后兩個(gè)月才修復(fù)看出技術(shù)水平不佳)、生產(chǎn)平臺(tái)的差別(機(jī)內(nèi)布線和控制電路板外觀粗燥)、元器件等級(jí)的差別(更換故障部件不是一次成功)、檢測(cè)手段的差別(出廠產(chǎn)品做市電切換是常規(guī)手段,這次故障說(shuō)明產(chǎn)品出廠時(shí)連最常規(guī)的實(shí)驗(yàn)都沒(méi)做)等。由于用戶缺乏這方面的知識(shí),沒(méi)有向廠家提出采取相應(yīng)的應(yīng)對(duì)措施,才會(huì)很快又出現(xiàn)第二次故障。
(2)豐富的實(shí)踐經(jīng)驗(yàn)
理論來(lái)自學(xué)習(xí),但必須和實(shí)踐經(jīng)驗(yàn)相結(jié)合。一般說(shuō)經(jīng)驗(yàn)多數(shù)來(lái)自教訓(xùn),所謂失敗是成功之母就是這個(gè)道理。這里所說(shuō)的經(jīng)驗(yàn)是經(jīng)過(guò)反復(fù)實(shí)踐證明的,是經(jīng)得住考驗(yàn)的。往往好多所謂經(jīng)驗(yàn)并不是真正的經(jīng)驗(yàn)而是經(jīng)歷。比如不少人認(rèn)為零地電壓干擾負(fù)載,并能舉出一些實(shí)際例子加以證明。比如舉例者說(shuō):一次,機(jī)器系統(tǒng)工作異常,經(jīng)查找發(fā)現(xiàn)零地電壓大于1V,于是就將電源的零線和地線短接,結(jié)果異常消除了。當(dāng)問(wèn)及是否又將零地短接線斷開(kāi)時(shí),其回答是:“既然工作正常了還斷開(kāi)做什么?”首先這個(gè)經(jīng)驗(yàn)是不完全,只做了一半。一個(gè)完整的經(jīng)驗(yàn)應(yīng)該是:零線和地線短接后異常消除,接著再將零地短接線斷開(kāi),如果此時(shí)系統(tǒng)工作又出現(xiàn)異常,就說(shuō)明是零地電壓干擾系統(tǒng);如果將零地短接線斷開(kāi)后系統(tǒng)仍正常工作,就不能說(shuō)明零地電壓干擾系統(tǒng)。這里的誤區(qū)是當(dāng)事者聽(tīng)信了傳說(shuō)‘零地電壓干擾負(fù)載’的影響,在他的心目中已有這個(gè)印象,這次的經(jīng)歷正好迎合了這種心理,所以就錯(cuò)誤地認(rèn)為這就是經(jīng)驗(yàn)。
大都有這樣的經(jīng)歷:顯像管老式電視機(jī),看的時(shí)間長(zhǎng)了就會(huì)出現(xiàn)影像突然消失,一般的做法是拍打幾下電視機(jī)外殼,大都是影像出現(xiàn)了。有了這一次的經(jīng)驗(yàn),以后只要影像沒(méi)有了就去拍打外殼??烧f(shuō)是有了多次‘經(jīng)驗(yàn)’。難道就可以說(shuō)這個(gè)電視機(jī)所以經(jīng)常出現(xiàn)黑屏就是因?yàn)?lsquo;欠打’嗎?很明顯這是誤解??傆幸惶鞂㈦娨暀C(jī)拍打的徹底黑屏為止,或燒掉。
(3)很強(qiáng)的責(zé)任心
這一點(diǎn)尤為重要,技術(shù)好并不代表責(zé)任心強(qiáng)。比如某金融數(shù)據(jù)中心 一位技術(shù)很好的運(yùn)維工程師,開(kāi)始的確是嚴(yán)格按照機(jī)房守則每?jī)尚r(shí)抄一次UPS顯示屏上的數(shù)據(jù),幾個(gè)月下來(lái)顯示屏上的數(shù)據(jù)總也不變,他都背熟了。從此機(jī)房就再也不去了,按照記憶每?jī)尚r(shí)填一次表。突然一天半夜機(jī)房?jī)?nèi)市電故障停電,UPS轉(zhuǎn)為電池模式繼續(xù)為機(jī)房IT系統(tǒng)供電,這位工程師早晨上班后仍按習(xí)慣沒(méi)有去機(jī)房巡視,就直接將記憶中的數(shù)據(jù)填入表中,幾小時(shí)后由于電池的儲(chǔ)能枯竭致使UPS輸出停電,機(jī)房設(shè)備全部停止運(yùn)行??上У氖呛髠浒l(fā)電機(jī)控制屏的開(kāi)機(jī)旋鈕指在“手動(dòng)”位置上,本來(lái)可以避免的故障就這樣出現(xiàn)了,給單位造成了嚴(yán)重?fù)p失。
再者,責(zé)任心強(qiáng)如果制度定得不合適也會(huì)導(dǎo)致故障。如在前面“深厚的理論基礎(chǔ)”中提到的例子,這位工程師責(zé)任心是很強(qiáng),做到了定時(shí)為電池放電保養(yǎng),但由于制度定的不細(xì),使得只有一個(gè)人的情況下單獨(dú)操作,結(jié)果由于誤操作而導(dǎo)致故障。在對(duì)待高壓(不論是直流還是交流)情況下應(yīng)該是兩人在場(chǎng),一個(gè)人操作一個(gè)人‘監(jiān)督’。
4 結(jié)束語(yǔ)
數(shù)據(jù)中心作為信息與信息系統(tǒng)的物理載體,目前主要用于與IT相關(guān)的主機(jī)、網(wǎng)絡(luò)、存儲(chǔ)等設(shè)備和資源的存放、管理。只有運(yùn)維管理好一個(gè)數(shù)據(jù)中心,才能發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計(jì)算提供強(qiáng)大的支持能力。通過(guò)有效實(shí)施云計(jì)算數(shù)據(jù)中心 運(yùn)維管理,降低人員工作量的同時(shí)提高運(yùn)維人員工作效率,保障業(yè)務(wù)人員的工作效率,提高業(yè)務(wù)系統(tǒng)運(yùn)行狀況,進(jìn)而提高企業(yè)整體管理效益,同時(shí)提高客戶滿意度,實(shí)現(xiàn)云計(jì)算數(shù)據(jù)中心的價(jià)值最大化。