當我們還沒有理解互聯(lián)網(wǎng)的時候,移動互聯(lián)來了,當我們還沒有理解移動互聯(lián)的時候,大數(shù)據(jù)和云計算又來了。不知不覺,成百上千棟數(shù)據(jù)中心拔地而起,海量的數(shù)據(jù)已悄然產(chǎn)生,并潛移默化地影響著我們生活中的點點滴滴。
當我們出行時,參考高德地圖的交通數(shù)據(jù);當我們餐飲時,打開大眾點評查看評論數(shù)據(jù);當我們購物時,淘寶網(wǎng)的消費數(shù)據(jù)分析會推送符合我們傾向的商品。生活中的小事尚且需要大數(shù)據(jù)的分析,IDC運營這樣一件嚴肅而又嚴謹?shù)墓ぷ?,同樣需要大?shù)據(jù)分析。
IDC運營需要大數(shù)據(jù)分析
所謂IDC,就是為電子信息設(shè)備提供運行環(huán)境的場所,該場所可以安裝數(shù)據(jù)處理、數(shù)據(jù)傳輸和網(wǎng)絡(luò)通訊等多種IT設(shè)備,同時還需要安裝為IT設(shè)備服務(wù)的電力、空調(diào)、傳輸管路等相關(guān)系統(tǒng)及設(shè)備,通過合理的IT架構(gòu),實現(xiàn)信息的處理、傳輸、儲存、交換、管理等功能。完善的管理方式和良好的IT環(huán)境就是要保障IT設(shè)備的正常有效運轉(zhuǎn)、保障業(yè)務(wù)的順暢進行和服務(wù)的及時提供。
一個典型的IDC如下圖1-1:
圖1-1 典型IDC組成圖
一個典型的IDC包含哪些元素呢?從業(yè)務(wù)層面,有軟件應(yīng)用、虛擬化、服務(wù)器、存儲、異地災(zāi)備;從風(fēng)、火、水、電、光層面,有通風(fēng)、消防、供水、制冷、空調(diào)、配電、布線、通信、兩路市電、冗余電源;從運維層面,有搬遷、物流、安防、巡檢、反恐怖活動、防自然災(zāi)害;從成本層面,有設(shè)計成本、建造成本、運行成本、維護成本??梢哉f,IDC是一個復(fù)雜的綜合體系。一個如此龐雜的體系自然需要科學(xué)的管理。可以這樣理解“管理”二字,“管”意味著決策與執(zhí)行,“理”意味著整合與分析數(shù)據(jù)。“理”是手段,“理”的功能為采集數(shù)據(jù):“管”是目的,“管”的功能為根據(jù)“理”的數(shù)據(jù)分析結(jié)果進行決策和執(zhí)行,進行運維操作。
既然IDC的運營是一種管理,管理需要數(shù)據(jù),那么如何獲取IDC運營數(shù)據(jù)呢?如圖1-2,IDC的電力監(jiān)控系統(tǒng)會得到到柴油發(fā)電機、燃油、市電、變壓器、UPS、電池、高壓直流、開關(guān)狀態(tài)、PDU電量等系列數(shù)據(jù);制冷空調(diào)的監(jiān)控系統(tǒng)會得到冷機、冷塔、水泵、板換、精密空調(diào)、冷熱通道溫度、自然冷卻的運行時間、PUE、WUE等系列數(shù)據(jù);消防與安防監(jiān)控會得到人流、物流等系列數(shù)據(jù);ITSM系統(tǒng)得到服務(wù)器上架、流程進度等數(shù)據(jù)。
圖1-2 獲取數(shù)據(jù)的方式與途徑
這些數(shù)據(jù)有的進行了分析,形成了報表,如圖1-2中左一圖片所示的設(shè)備電量波動趨勢,左二圖片的自然冷卻分析,但是大量的數(shù)據(jù)還停留在初級采集階段,并未形成綜合分析與報表。例如,冷凍水泵的變頻器發(fā)生故障,這樣的故障可能會直接影響冷機運行,但報警信息只顯示在電力監(jiān)控界面上,不對制冷運維人員開放,則導(dǎo)致制冷運維人員不能在第一時間得到通知,無法快速響應(yīng)故障。又如,制冷系統(tǒng)中的蓄冷罐溫度異??赡苡衫錂C故障引起,也可能由冷機專用變壓器或開關(guān)故障引起,此時只分析蓄冷罐的溫度數(shù)據(jù)、只分析冷機的狀態(tài)數(shù)據(jù)是不夠的,還需要跨系統(tǒng)分析電氣系統(tǒng)的冷機配電開關(guān)和變壓器狀態(tài)的數(shù)據(jù)庫。
因此,IDC運營迫切需要獲取到大數(shù)據(jù),需要數(shù)據(jù)的跨系統(tǒng)整合、關(guān)聯(lián)、統(tǒng)計與挖掘,需要大數(shù)據(jù)分析。
DCIM是進行大數(shù)據(jù)分析的有效工具
為了順應(yīng)IDC運營跨系統(tǒng)數(shù)據(jù)關(guān)聯(lián)、分析的需要,DCIM(Data Center Infrastructure Management數(shù)據(jù)中心基礎(chǔ)設(shè)施管理)是再好不過的工具了。
DCIM概念起源于國外,不同的機構(gòu)對DCIM也有不同的定義,但基本共同的觀點是DCIM工具可以架起一座溝通關(guān)鍵基礎(chǔ)設(shè)施和IT設(shè)備之間的橋梁,從而幫助數(shù)據(jù)中心管理人員更高效的運營數(shù)據(jù)中心。
Gartner對DCIM的定義是:Data center infrastructure management (DCIM) tools monitor, measure, manage and/or control data center utilization and energy consumption of all IT-related equipment (such as servers, storage and network switches) and facility infrastructure components (such as power distribution units [PDUs] and computer room air conditioners [CRACs])。數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)工具監(jiān)控、管理和控制數(shù)據(jù)中心所有IT相關(guān)設(shè)備(比如服務(wù)器、存儲和交換機)和關(guān)鍵基礎(chǔ)設(shè)施相關(guān)設(shè)備(比如PDU和精密空調(diào))的使用情況以及能耗水平。
451 Group對DCIM的定義是:A datacenter infrastructure management system collects and manages information about a datacenter‘s assets, resource use and operational status. This information is then distributed, integrated, analyzed and applied in ways that help managers meet business and service-oriented goals and optimize the datacenter’s performance. 數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)通過持續(xù)收集和管理數(shù)據(jù)中心的資產(chǎn)、資源以及各種設(shè)備的運行狀態(tài),然后通過分析、整合提煉成有用的數(shù)據(jù),從而幫助數(shù)據(jù)中心管理者管理數(shù)據(jù)中心并優(yōu)化性能。
從海外資料對DCIM的理解可以看到,DCIM定義中的Infrastructure是指支撐整個數(shù)據(jù)中心IT系統(tǒng)運行的所有物理層設(shè)施,包括供配電、空調(diào)環(huán)境、安全防護、綜合布線、消防等場地基礎(chǔ)設(shè)施與服務(wù)器、存儲、網(wǎng)絡(luò)與安全等IT硬件基礎(chǔ)設(shè)施。
事實上,對于基礎(chǔ)設(shè)施,業(yè)內(nèi)比較通用的認知是:
基礎(chǔ)設(shè)施(infrastructure)
=場地基礎(chǔ)設(shè)施(site facility infrastructure)+ IT基礎(chǔ)設(shè)施(IT infrastructure)
其中場地基礎(chǔ)設(shè)施(site facility infrastructure),通常也簡稱facility,就是常說的風(fēng)火水電等機電設(shè)備。DCIM的主要價值就是在于打通場地基礎(chǔ)設(shè)施和IT基礎(chǔ)設(shè)施(硬件層)的組織和信息斷層、打通場地基礎(chǔ)設(shè)施各子系統(tǒng)的數(shù)據(jù)庫,采用統(tǒng)一的平臺管理場地基礎(chǔ)設(shè)施如UPS、空調(diào)以及IT基礎(chǔ)設(shè)施如服務(wù)器,并通過數(shù)據(jù)的分析和聚合,最大化數(shù)據(jù)中心的運營效率以保證數(shù)據(jù)中心的可用性和業(yè)務(wù)的連續(xù)性。
DCIM能夠為IDC運營帶來的價值
可靠運維
IDC運營的第一要務(wù)是保證7×24×365不間斷可靠運行,IDC承載的業(yè)務(wù)的重要性要求故障時須即時處理,以減少事故歷時、降低故障帶來的損失和風(fēng)險。設(shè)備的故障是IDC運營需要重點關(guān)注的一個問題,是否等到設(shè)備故障告警,運維人員才去關(guān)注呢?是否可以做到預(yù)測故障呢?DCIM可對故障期間的數(shù)據(jù)進行記錄、整理、統(tǒng)計、分析,尋找故障發(fā)生的誘因和共性,探討縮短故障歷時的途徑;DCIM的數(shù)據(jù)分析結(jié)果可幫助運維人員提前診斷哪些設(shè)備處于亞健康的狀態(tài),進而可預(yù)測故障、提醒運維人員提前排查故障,降低風(fēng)險。
表3-1 關(guān)鍵設(shè)備平均無故障時間與故障率
如表3-1,DCIM可匯總、統(tǒng)計來自電力監(jiān)控、制冷監(jiān)控子系統(tǒng)的數(shù)據(jù)庫,整理關(guān)鍵設(shè)備如冷機、冷塔、水泵、柴發(fā)、開關(guān)、變壓器、UPS等的平均維護時間、平均無故障時間和每月累計故障率,如果數(shù)據(jù)分析顯示某一組電池的月故障率突然高于平均值,則有理由懷疑這組電池近期可能出現(xiàn)故障,這就可以提醒IDC運維人員提前對這組電池進行維護和更換,從而避免故障的發(fā)生,減少宕機的可能。
圖3-2 海恩法則
論及運維的可靠性,圖3-2是著名的海恩法則,它的含義是一次嚴重的事故之前可能有1000起事故隱患、300起未遂先兆、29次輕微事故,DCIM的橫向數(shù)據(jù)分析可以幫助運維人員在隱患階段排除故障的可能。如制冷空調(diào)系統(tǒng)的環(huán)境溫度監(jiān)測,當溫度超出限定值時,系統(tǒng)告警,但是等到系統(tǒng)告警往往為時過晚,局部熱點極易導(dǎo)致宕機;然而電氣系統(tǒng)的PDU電量監(jiān)測可預(yù)警告空調(diào)的局部熱點,例如某列機柜PDU電量持續(xù)徘徊在高位,則運維人員可以預(yù)判附近可能出現(xiàn)局部熱點,并提前加速周邊空調(diào)的EC風(fēng)機,從而避免局部熱點的出現(xiàn),減少宕機風(fēng)險。
運維的可靠性常常需要多個子系統(tǒng)聯(lián)合保障,例如市電斷電、導(dǎo)致冷機重新啟動,為了保障冷機重啟的時間段內(nèi)冷量可持續(xù)供給,數(shù)據(jù)中心制冷系統(tǒng)常常配置應(yīng)急冷源(如蓄冷罐),暖通制冷監(jiān)控系統(tǒng)(BMS)須響應(yīng)緊急情況,自動控制應(yīng)急冷源(如水蓄冷罐)放冷,并能實現(xiàn)再次充冷。BMS須準確感知電氣系統(tǒng)中冷機的配電狀況,并在冷機掉電或其他緊急工況時,平穩(wěn)切換至應(yīng)急冷源供冷,保障服務(wù)器的冷量持續(xù)供應(yīng);在應(yīng)急冷源放冷完畢時,BMS須自動切換應(yīng)急冷源至再次充冷。DCIM可橫向整合電力監(jiān)控、暖通制冷監(jiān)控的數(shù)據(jù),實現(xiàn)數(shù)據(jù)的互聯(lián)互通,以免各子系統(tǒng)監(jiān)控自成體系、執(zhí)行子系統(tǒng)命令時影響到其他系統(tǒng)的安全運行,從而影響整個IT環(huán)境的穩(wěn)定可靠。
圖3-3服務(wù)器平均電量數(shù)據(jù)分析
DCIM橫向數(shù)據(jù)庫分析可以幫助運維人員篩選僵尸服務(wù)器,對連續(xù)監(jiān)測的IT電量數(shù)據(jù)進行匯總、分析和比較,如圖3-3,如某IDC大部分機柜服務(wù)器運行在5kW左右的平均值,個別機柜服務(wù)器電量維持在2kW左右,可想而知,這樣的服務(wù)器對計算資源的貢獻非常有限,極有可能是僵尸服務(wù)器。運維人員可根據(jù)電量提示優(yōu)化服務(wù)器的配置及軟件架構(gòu),或移除服務(wù)器另作他用??梢?,DCIM數(shù)據(jù)分析可幫助IDC運維人員優(yōu)化IT資源配置。
綠色節(jié)能
服務(wù)器在飛快地運算著,電表的數(shù)字也在飛快地跳著,IDC輸出計算能力的同時也在消耗大量能源,有數(shù)據(jù)表明IDC的耗電量占全國總耗電量的20%左右,綠色節(jié)能是IDC運營的重要課題。DCIM的橫向數(shù)據(jù)分析可以幫助IDC運營優(yōu)化節(jié)能。例如,某IDC的設(shè)計IT負荷為5000kW,采用冷卻塔串聯(lián)板換的水側(cè)節(jié)能,如圖3-4,滿載時濕球溫度4℃開始自然冷卻。
圖3-4 冷卻塔串聯(lián)板換的水側(cè)節(jié)能
然而服務(wù)器往往是分批上架的,IDC也是分期部署的,如果一期IT負載率低于某設(shè)定值如3000kW,則DCIM可建議運維人員設(shè)定濕球溫度6℃或7℃開始自然冷卻,從而延長自然冷卻的時間,縮短電制冷的運行時間,達到節(jié)省制冷系統(tǒng)電耗、降低PUE、節(jié)能運行的目的。
IDC的規(guī)劃、設(shè)計、建造都是按照IT滿載做的,實際運行往往是變工況運行,DCIM綜合數(shù)據(jù)分析可根據(jù)運行動態(tài)數(shù)據(jù)分析改變設(shè)定值。例如最初的空調(diào)送風(fēng)溫度設(shè)定為18℃,冷通道溫度上限設(shè)定為22℃,運行一段時間后,系統(tǒng)監(jiān)測到機房冷通道的溫度普遍持續(xù)低于22℃,則可以提醒運維人員嘗試提高送風(fēng)溫度設(shè)定值為20℃,甚至冷水機組的供水溫度也可提高,冷凍水供水溫度每提高1℃,冷機效率提升2~3%,自然冷卻的運行時間也可相應(yīng)延長,如此可實現(xiàn)節(jié)省制冷系統(tǒng)電耗、節(jié)能運行的目的。
決策依據(jù)
DCIM通過對運維數(shù)據(jù)的動態(tài)收集、分析以及監(jiān)測,也可以幫助IDC運維人員在下一個生產(chǎn)環(huán)節(jié)提供輸入。
圖3-5 Space Power Cooling(SPC)管理
IDC有SPC的管理三元素,S指空間、P指供電、C指的就是冷卻。DCIM系統(tǒng)收集到U位的總數(shù)據(jù),已占用U位的數(shù)據(jù),兩者相減就可得到可用的U位空間;電力、制冷也是如此,得到可用電力、可用冷量;如圖3-5,通過SPC三個數(shù)據(jù)庫的聯(lián)合分析,運維人員就可以確定上多少臺服務(wù)器,在哪些U位空間進行擺放??梢?,DCIM綜合數(shù)據(jù)分析可幫助IDC運營工作科學(xué)決策。
可以舉的例子還有很多,例如,某企業(yè)某類業(yè)務(wù)的IDC,在一期規(guī)劃設(shè)計采用百分之百的滿負荷進行基礎(chǔ)設(shè)施的容量規(guī)劃,以及平面設(shè)定。然而DCIM常年的運行數(shù)據(jù)表明,此類業(yè)務(wù)平均運行在70%左右的負荷,峰值也不會超過80%,那么,在同樣業(yè)務(wù)的下一個IDC規(guī)劃中,就可以把IT的負載率設(shè)定為80%,則可以縮減基礎(chǔ)設(shè)施的容量、節(jié)省基礎(chǔ)設(shè)施初投資??梢姡珼CIM可幫助IDC規(guī)劃優(yōu)化配置,節(jié)約成本。
又例如,某企業(yè)某類業(yè)務(wù)在某一線城市采用雙路市電加柴油發(fā)電機的冗余方案,但DCIM多年的運行數(shù)據(jù)表明市電從未斷電,電網(wǎng)可靠性達到5個9,甚至更高,則在下一個IDC的規(guī)劃中可考慮優(yōu)化架構(gòu)為一路市電加柴油發(fā)電機的方案。可見,DCIM可幫助IDC規(guī)劃優(yōu)化設(shè)計方案。
從以上分析可以看出,大規(guī)模IDC存在多套監(jiān)控管理子系統(tǒng),如電力監(jiān)控(EPMS)、暖通制冷監(jiān)控(BMS)、消防與安防監(jiān)控、ITSM等,每個子系統(tǒng)都有自己獨立的數(shù)據(jù)采集、統(tǒng)計、分析和執(zhí)行等裝置,完成某項獨立的功能;但是IDC的整體運營需要這些子系統(tǒng)的數(shù)據(jù)橫向整合、縱向挖掘、綜合分析;數(shù)據(jù)不進行分析,就只是數(shù)據(jù),無法對運營產(chǎn)生價值;DCIM對各子系統(tǒng)的數(shù)據(jù)進行篩選、整合并加以關(guān)聯(lián)、挖掘、分析,進而根據(jù)大數(shù)據(jù)分析的結(jié)果提出運維建議、優(yōu)化運行能效、降低故障風(fēng)險、提升IDC運營效率,并為運維人員提供科學(xué)決策的依據(jù)。
DCIM大數(shù)據(jù)分析的前景展望
圖4-1 DCIM的大數(shù)據(jù)分析的多種可能
DCIM的大數(shù)據(jù)分析可以做的事情非常多,如圖4-1,可以實現(xiàn)成本管理、規(guī)劃管理、工單管理、容量管理、可靠性管理、能效管理。如圖4-2,更可以關(guān)聯(lián)故障與應(yīng)急預(yù)案實現(xiàn)告警管理,可以關(guān)聯(lián)資產(chǎn)與容量管理實現(xiàn)變更管理,可以匯總技術(shù)規(guī)范與運維手冊實現(xiàn)知識庫管理,可以供應(yīng)商管理與二維碼對應(yīng)的方式實現(xiàn)供應(yīng)商管理,可以從能效管理進一步提升為計費管理,可以把巡檢的主動式運維流程化變成工單管理。
圖4-2 DCIM的大數(shù)據(jù)分析幫助IDC運營的方式
小結(jié)
大數(shù)據(jù)分析是IDC運營的核心競爭力,如圖5-1
圖5-1 大數(shù)據(jù)分析的核心價值
它可以幫助IDC運營增能效、減成本、助運維、輕風(fēng)險,是科學(xué)管理運營IDC的必殺技。IDC運營即將進入大數(shù)據(jù)分析的時代,DCIM是進行大數(shù)據(jù)挖掘與分析不可或缺的工具,亟需針對運維需求的深度開發(fā)和有效運用。