數(shù)據(jù)中心的監(jiān)控可以分為三大部分。第一部分是應(yīng)用業(yè)務(wù)的監(jiān)控,這部分最重要也最為復(fù)雜,數(shù)據(jù)中心能否長期穩(wěn)定運(yùn)行,能否及時發(fā)現(xiàn)一些系統(tǒng)運(yùn)行隱患,出現(xiàn)故障時能否及時找到問題原因并排除,所有這些問題都需要通過監(jiān)控技術(shù)來解決。對應(yīng)用業(yè)務(wù)的監(jiān)控,實際上就是對各種設(shè)備運(yùn)行狀態(tài)的監(jiān)控,從服務(wù)器、儲存、網(wǎng)絡(luò)甚至到防火墻等等設(shè)備都需要監(jiān)控,不同設(shè)備的監(jiān)控信息并不相同,根據(jù)設(shè)備廠家提供的日志信息,在數(shù)據(jù)中心部署一套或多套監(jiān)控服務(wù)器,周期性地到設(shè)備上采集日志信息,以便在發(fā)現(xiàn)隱患時及時發(fā)出告警,所以日志服務(wù)器是數(shù)據(jù)中心常用必備的“良藥”。當(dāng)然,如果您認(rèn)為只要有日志服務(wù)器監(jiān)控業(yè)務(wù)就萬事大吉了,那您就錯了。更多的時候,業(yè)務(wù)故障并不都能從日志信息反饋出來,尤其是系統(tǒng)級的問題,單單看每個設(shè)備運(yùn)行都是良好的,但是將業(yè)務(wù)部署到這些設(shè)備上時,就會有問題,這些問題往往通過日志無法反映出來,這樣就需要網(wǎng)絡(luò)管理工具、數(shù)據(jù)分析工具、PING工具等等,這樣一系列不同層面的豐富手段來監(jiān)控。既然叫監(jiān)控,就有兩層含義,一個含義是監(jiān)視的意思,另外一個含義是控制的意思。不僅要對數(shù)據(jù)中心業(yè)務(wù)進(jìn)行監(jiān)控,還要在發(fā)現(xiàn)異常的時候,自動采取一些控制措施,也就是監(jiān)控不僅能發(fā)現(xiàn)問題,還能夠具備解決問題的能力。這樣在數(shù)據(jù)中心業(yè)務(wù)監(jiān)控中,要把握好控制的力度,不能沒有也不能執(zhí)行過猛。比如:在網(wǎng)絡(luò)設(shè)備上經(jīng)常部署NQA功能,就是用PING、TCP等報文探測網(wǎng)絡(luò)連通性,當(dāng)出現(xiàn)異常時執(zhí)行一定的動作,這時就要考慮探測要多久,多久中斷是業(yè)務(wù)層面能夠忍受的,還有就是一旦探測失敗,執(zhí)行何種級別的恢復(fù)動作,是切換路由還是重啟設(shè)備,是DOWN掉異常端口還是改變轉(zhuǎn)發(fā)路徑等等,這些都是數(shù)據(jù)中心需要慎重考慮的事情。數(shù)據(jù)中心業(yè)務(wù)層面的監(jiān)控包羅萬象,涉及到數(shù)據(jù)中心內(nèi)的所有設(shè)備,也可以說監(jiān)控屬于運(yùn)維范疇,要知道數(shù)據(jù)中心運(yùn)維市場是非常大的,很多數(shù)據(jù)中心廠商都視這一塊為肥肉,都想能盡量多分一杯羹。
第二部分是對環(huán)境的監(jiān)控。數(shù)據(jù)中心里的設(shè)備要長期穩(wěn)定運(yùn)行,需要一個良好的環(huán)境,要知道這里的很多設(shè)備都是非常精密和昂貴的,對周圍環(huán)境要求條件也較為苛刻。早期的數(shù)據(jù)中心多采用人為周期性檢查的方式來完成對環(huán)境的監(jiān)控,如今基本實現(xiàn)了自動監(jiān)控,這通過在數(shù)據(jù)中心機(jī)房里安裝各種的傳感設(shè)備,實時將內(nèi)部的環(huán)境參數(shù)傳遞到監(jiān)控中心,由計算機(jī)軟件分析判斷是否正常,如果發(fā)現(xiàn)有超過設(shè)定閥值的時候,自動發(fā)出告警,通知到相關(guān)運(yùn)維技術(shù)人員,以便及時采取措施。除了監(jiān)控環(huán)境,還可以監(jiān)控供電、放火、漏水等,通過對數(shù)據(jù)中心環(huán)境的監(jiān)控,為數(shù)據(jù)中心里的設(shè)備提供良好的運(yùn)行環(huán)境。
第三部分是對人的監(jiān)控,人是數(shù)據(jù)中心里最為重要的一環(huán),即便是無人值守的數(shù)據(jù)中心,長期運(yùn)行也離不開人。俗話說“成也蕭何,敗也蕭何”,數(shù)據(jù)中心離不開人,但是往往又是人給數(shù)據(jù)中心帶來了極大的麻煩。經(jīng)統(tǒng)計,以往發(fā)生過的數(shù)據(jù)中心故障,75%左右的都是人為操作事故,規(guī)模越大,越復(fù)雜的數(shù)據(jù)中心,人為故障越多。為了減少人為故障,就必須對人進(jìn)行監(jiān)控。這包括對出入數(shù)據(jù)中心的人員進(jìn)行嚴(yán)格管理,必須經(jīng)過數(shù)據(jù)中心主要領(lǐng)導(dǎo)批準(zhǔn)后,才準(zhǔn)進(jìn)入;進(jìn)入數(shù)據(jù)中心人員必須得穿戴防靜電衣帽,戴防靜電的手套才能觸碰設(shè)備;制定詳細(xì)的人為行為規(guī)范,對數(shù)據(jù)中心所有人員行為進(jìn)行管理,形成良好的工作制度;訪問設(shè)備對不同級別的人開放不同的權(quán)限,每次訪問設(shè)備時,都要做好操作記錄,以便日后進(jìn)行復(fù)查;在數(shù)據(jù)中心里的各個部分都要部署監(jiān)控設(shè)備,掌握到所有在里面活動的人員,一旦發(fā)現(xiàn)異常行為,及時進(jìn)行制止。與此同時,還要對進(jìn)出數(shù)據(jù)中心的設(shè)備、物品進(jìn)行嚴(yán)格檢查,避免出現(xiàn)丟失,一個100G的光模塊就價值數(shù)萬,要通過監(jiān)控避免盜竊行為的發(fā)生。做好對人的監(jiān)控,往往可以消除掉一半以上的數(shù)據(jù)中心故障,大大提升了數(shù)據(jù)中心運(yùn)行的穩(wěn)定性。
監(jiān)控就是給數(shù)據(jù)中心一雙明亮的雙眼,對數(shù)據(jù)中心運(yùn)行的各個環(huán)節(jié)進(jìn)行全面監(jiān)視,及早發(fā)現(xiàn)問題,并最終解決問題,這就是監(jiān)控存在的意義。做好數(shù)據(jù)中心的監(jiān)視,能夠有效減少故障的發(fā)生,減少數(shù)據(jù)中心的業(yè)務(wù)損失。不過,監(jiān)控是要數(shù)據(jù)中心投入大量資金的,越完善的監(jiān)控系統(tǒng),所要花費(fèi)的資金越多,有很多數(shù)據(jù)中心運(yùn)行良好,認(rèn)為沒有必要將過多的資金投入到監(jiān)控中來,這樣做短時間內(nèi)是節(jié)省了不少的資金開支,但一旦發(fā)生故障帶來的損失很可能是災(zāi)難性的,如果有完備的監(jiān)控系統(tǒng),就很可能在故障之前就發(fā)現(xiàn)問題了,從而及時解決掉,避免小問題最終演變成為大故障。為您的數(shù)據(jù)中心增加一雙監(jiān)控明眸吧!