在上個(gè)月,曾就關(guān)于創(chuàng)建數(shù)據(jù)中心整體監(jiān)控做過激烈的討論,討論遠(yuǎn)未結(jié)束。在過去一個(gè)月里,當(dāng)探討關(guān)于在監(jiān)控與數(shù)據(jù)中心管理方面,我收到一些不錯(cuò)的反饋與論點(diǎn)。畢竟,數(shù)據(jù)中心在此之前已默默按照原設(shè)計(jì)服務(wù)很長(zhǎng)一段時(shí)間。一旦要合并,面臨的一個(gè)很重要的問題:數(shù)據(jù)中心運(yùn)營(yíng)商如何“知道”監(jiān)控哪些系統(tǒng)、設(shè)備?有沒有為數(shù)據(jù)中心建立專門的環(huán)境監(jiān)控指南?
我們都知道ASHRAE的推薦指南。業(yè)界專家坦言,數(shù)據(jù)中心部署對(duì)于各個(gè)組織需求是獨(dú)一無二的。目前數(shù)據(jù)中心已被用來作為大數(shù)據(jù)處理、云工作負(fù)載、虛擬化等的核心,這一點(diǎn)確認(rèn)無疑。再加上新類型的數(shù)據(jù)中心架構(gòu)(如融合),會(huì)看到新的監(jiān)控與管理要求等級(jí)。
目前面臨的挑戰(zhàn)——由于每個(gè)數(shù)據(jù)中心規(guī)模不同,需求不同,很難就監(jiān)控管理給出統(tǒng)一的建議。但是無論如何,應(yīng)遵守核心的環(huán)境條件。此外,其中一些環(huán)境條件可能不適用于某些規(guī)模和一些結(jié)構(gòu)復(fù)雜的基礎(chǔ)設(shè)施。
溫度。測(cè)量溫度始終是數(shù)據(jù)中心環(huán)境中的關(guān)鍵組成部分?;旧?,溫度范圍都在規(guī)定范圍內(nèi)運(yùn)行,通常建議最佳溫度是在21℃到23℃(70℉至74℉)之間。但是,這個(gè)溫度范圍可能會(huì)因數(shù)據(jù)中心的使用情況而有所不同。事實(shí)上,范圍可以從64.4℉到 80.6℉ ( 18℃-27℃ ) ;另一方面——取決于您的具體環(huán)境。請(qǐng)參看以下報(bào)告和圖表:
相對(duì)濕度。如果濕度處理不好會(huì)對(duì)數(shù)據(jù)中心產(chǎn)生極為不好的后果。這就是為什么在不同規(guī)模的環(huán)境中必須配備符合標(biāo)準(zhǔn)的傳感器。相對(duì)濕度被描述為在給定溫度下樣品空氣中的水分比與與在該溫度下樣品可能含有的最大水分量的比率。推薦的相對(duì)濕度應(yīng)該介于45%和60%之間。此濕度范圍是數(shù)據(jù)中心和服務(wù)器設(shè)備運(yùn)行的最佳濕度。
濕度。在任何數(shù)據(jù)中心都要盡可能做好水處理,盡可能避免水進(jìn)入數(shù)據(jù)中心,對(duì)地板做好封堵。使用濕度傳感器可以第一時(shí)間提醒相關(guān)管理員快速解決問題。
氣流。保持良好的氣流對(duì)溫度和濕度的控制是至關(guān)重要的。良好的氣流建議,要求氣流速度為每秒10至13英尺/秒。避免氣流混亂在氣流組織管理方面是很重要的,一旦氣流混亂,將會(huì)影響制冷效果。氣流組織管理與數(shù)據(jù)中心規(guī)模相關(guān)。在高密數(shù)據(jù)中心,每小時(shí)的空氣變化量可能比較小規(guī)模變化大幾倍。
機(jī)架條件。在機(jī)架內(nèi), 重要的是監(jiān)控所有上述組件以及其他組件,包括 - 機(jī)架門禁,熱成像與循環(huán)氣流百分比。
數(shù)據(jù)中心空調(diào)/處理器。制冷和處理數(shù)據(jù)中心環(huán)境條件的裝置也需進(jìn)行監(jiān)控。包括進(jìn)風(fēng)溫度和回風(fēng)溫度、內(nèi)部濕度統(tǒng)計(jì)和空氣損失百分比。
PDU(機(jī)柜插座)與電力狀況。通過監(jiān)控設(shè)備電流量,可以知道設(shè)備運(yùn)行狀況。這意味著要監(jiān)控全部的分支電路和電源面板。
環(huán)境監(jiān)控工具的整合,并使其與整體數(shù)據(jù)中心管理相結(jié)合。
另一個(gè)問題是:如果將這些因素(監(jiān)控軟件、數(shù)據(jù)中心管理平臺(tái))結(jié)合在一起,形成一個(gè)大平臺(tái),數(shù)據(jù)中心會(huì)發(fā)生怎樣的變化呢?
毫無疑問,大型數(shù)據(jù)中心環(huán)境的方方面面必須清晰的體現(xiàn)在監(jiān)控平臺(tái)上。這不僅僅是環(huán)境信息——更能體現(xiàn)出服務(wù)器的性能指標(biāo)。有一些工具能夠結(jié)合環(huán)境監(jiān)控系統(tǒng)來共同監(jiān)測(cè)消耗、CPU、RAM以及其他重要組件。
對(duì)于大型基礎(chǔ)設(shè)施的真正成功是來自源于數(shù)據(jù)中心團(tuán)隊(duì)之間的溝通。比如,聽到服務(wù)器警報(bào)后,第一時(shí)間通知相關(guān)工程師,數(shù)據(jù)中心經(jīng)理以及虛擬化團(tuán)隊(duì)成員,共同解除警報(bào),在大家相互溝通,通力配合下共同解決情報(bào),為數(shù)據(jù)中心運(yùn)營(yíng)創(chuàng)建一個(gè)良好的運(yùn)行環(huán)境。
數(shù)據(jù)中心的整合是現(xiàn)在很多企業(yè)、組織正在做的,這意味著大型服務(wù)器正在執(zhí)行更多的核心功能。如果系統(tǒng)發(fā)生任何事件,所有與該次事件相關(guān)的團(tuán)隊(duì)必須通力配合,為突發(fā)事件做出正確判斷。
最好的建議——幾個(gè)主要的系統(tǒng)整合后應(yīng)該能共同處理供應(yīng)商、客戶需求以及數(shù)據(jù)中心自身設(shè)備監(jiān)控。
數(shù)據(jù)中心健康運(yùn)行取決于通過檢測(cè)獲得的各項(xiàng)設(shè)備檢測(cè)數(shù)據(jù),匯聚到軟件平臺(tái),通過軟件平臺(tái)看到設(shè)備運(yùn)行狀況。確保將數(shù)據(jù)中心內(nèi)各系統(tǒng)都考慮在內(nèi),通過監(jiān)測(cè)這些系統(tǒng)運(yùn)行狀況,可以了解到目前工作負(fù)載會(huì)對(duì)數(shù)據(jù)中心運(yùn)行是否產(chǎn)生壓力,是否接近臨界值?通過監(jiān)測(cè),可以幫助數(shù)據(jù)中心更健康的運(yùn)行,同時(shí)增加數(shù)據(jù)中心靈活性。