如果數(shù)據(jù)中心沒有進(jìn)行適當(dāng)?shù)奈锢砭S護(hù),那么,數(shù)據(jù)中心出現(xiàn)突發(fā)故障后會(huì)讓工作人員會(huì)手足無措,會(huì)將數(shù)據(jù)中心置于危險(xiǎn)的境地。本文將有助于重新評(píng)估數(shù)據(jù)中心設(shè)施管理策略,實(shí)時(shí)更新數(shù)據(jù)中心內(nèi)物理指標(biāo)。
通過數(shù)據(jù)中心溫度監(jiān)控 阻止熱點(diǎn)
對(duì)于大部分?jǐn)?shù)據(jù)中心而言,制冷系統(tǒng)故障以及服務(wù)器過熱的問題遠(yuǎn)比電源故障更讓運(yùn)維人員痛心疾首。
當(dāng)然,對(duì)不間斷電源進(jìn)行良好維護(hù)也是很重要的,它是保障服務(wù)器設(shè)備不間斷正常運(yùn)行的重要前提,如果遇到突發(fā)問題,電源正常運(yùn)行,直到發(fā)電機(jī)啟動(dòng),電源恢復(fù)或者對(duì)設(shè)備按部就班的關(guān)機(jī)。但對(duì)于現(xiàn)在的設(shè)備——高密服務(wù)器而言,一旦出現(xiàn)運(yùn)行溫度升高,冷卻系統(tǒng)出現(xiàn)故障(即使有空調(diào)有冗余的情況下)也是可能在幾秒鐘內(nèi)導(dǎo)致服務(wù)器崩潰。 使用數(shù)據(jù)中心溫度監(jiān)控可以避免導(dǎo)致設(shè)備故障早期出現(xiàn)的問題以及無法解釋的熱點(diǎn)問題。
數(shù)據(jù)中心熱點(diǎn)是怎樣產(chǎn)生的
熱點(diǎn)可能出現(xiàn)在數(shù)據(jù)中心的各個(gè)角落,他們會(huì)在數(shù)據(jù)中心某一角落默默潛伏,不易察覺,直到設(shè)備出現(xiàn)故障或數(shù)據(jù)出現(xiàn)異常現(xiàn)象才會(huì)被工作人員發(fā)現(xiàn)。 如果您在沒有了解房間冷卻能力的情況下添加或移動(dòng)設(shè)備,則可能會(huì)發(fā)生熱點(diǎn)。 幾乎每以個(gè)數(shù)據(jù)中心中,冷卻能力在房間的不同位置和沿著機(jī)架高度的不同位置不同。 由于熱點(diǎn)通常會(huì)緩慢發(fā)生,所以很容易就無法識(shí)別,直到情況嚴(yán)重,才會(huì)被發(fā)現(xiàn)。
通過監(jiān)測數(shù)據(jù)中心溫度 發(fā)現(xiàn)熱點(diǎn)
發(fā)現(xiàn)數(shù)據(jù)中心熱點(diǎn)的最簡單也是最省錢的方式是使用溫控面板。這些控制面板上的多色條帶是具有熱敏性的,而且可以指示出進(jìn)風(fēng)溫度??梢詫⑦@些指示板安裝在每個(gè)機(jī)架的頂部、中間及底部附近的位置,或者在硬件前面,接近機(jī)架的頂部、中間及底部的位置安裝溫度探測儀。如果只能為每個(gè)機(jī)架安裝一個(gè)溫度探測儀,那么就放在最容易出現(xiàn)故障的硬件的前面,通常也就是放在機(jī)架內(nèi)位置最高的服務(wù)器的前面。
數(shù)據(jù)中心的溫度和濕度探測儀可作為智能機(jī)架配電單元的附加組件,作為單獨(dú)的無線設(shè)備及部分?jǐn)?shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)的一部分。這三種情況都可以提供軟件選項(xiàng),能夠?qū)崟r(shí)圖形顯示整個(gè)機(jī)房內(nèi)的溫度狀況。最終,你可以在設(shè)備安裝之前,通過結(jié)合這些控制面板給出的數(shù)據(jù)與計(jì)算流體動(dòng)力學(xué)( CFD)的氣流模型給出的建議,驗(yàn)證安裝的制冷系統(tǒng)設(shè)計(jì)的冷量的合理性。
許多數(shù)據(jù)中心都將設(shè)計(jì)了冗余冷卻單元,但實(shí)際上在運(yùn)行中,冗余冷卻單元根本沒有用到;有時(shí)候,這樣的設(shè)計(jì)并不明智。一些數(shù)據(jù)中對(duì)氣流的流動(dòng)情況缺乏足夠的了解,從而制冷情況堪憂。在現(xiàn)代設(shè)計(jì)中,冗余冷卻單元與智能工廠冷卻單元同時(shí)運(yùn)行,但運(yùn)行速度會(huì)降低,因此您不會(huì)意識(shí)到添加的服務(wù)器設(shè)備正在竊取冗余容量,直到冷卻單元出現(xiàn)故障或關(guān)閉維護(hù)為止。
值得慶幸的是,通常,在幾天內(nèi)服務(wù)器在較高的溫度下運(yùn),不產(chǎn)生任何負(fù)面影響。在緊急情況下,ASHRAE( 美國采暖、制冷與空調(diào)工程師學(xué)會(huì))允許的溫度范圍提升到28℃或32℃,但考慮到邊緣冗余的情況——再加上運(yùn)行日久的糟糕的硬件設(shè)備,會(huì)導(dǎo)致服務(wù)器嚴(yán)重的過熱,瞬間過熱,會(huì)在短時(shí)內(nèi)觸發(fā)制冷系統(tǒng)關(guān)機(jī)。
防止數(shù)據(jù)中心冷卻故障
有些業(yè)界人士認(rèn)為解決方案是將冗余單元放在正常單元的旁邊,事實(shí)上,這么做一點(diǎn)都不可靠。 當(dāng)氣流從不同位置過來時(shí)時(shí),當(dāng)正常單元運(yùn)行時(shí),或者當(dāng)兩者一起運(yùn)行時(shí),氣流模式將會(huì)有一些差異。 這個(gè)看似很小的差異會(huì)導(dǎo)致數(shù)據(jù)中心溫度變化,很有可能導(dǎo)致熱點(diǎn)。
熱指標(biāo)是一個(gè)很好的第一步,但是每當(dāng)硬件更改時(shí),就關(guān)閉冷卻單元,只是為了看那些服務(wù)器會(huì)過熱,是不切實(shí)際的。 避免這類問題的最佳方法,特別是在冗余設(shè)計(jì)中,是使用CFD對(duì)冷卻系統(tǒng)進(jìn)行建模,從而創(chuàng)建數(shù)據(jù)中心氣流的3D模型,包括特定的冷卻系統(tǒng)和機(jī)架熱負(fù)荷。 該程序使用這些信息來解決數(shù)千個(gè)形成氣流分析的復(fù)雜偏微分方程。 該模型提供了顏色編碼的圖形和數(shù)據(jù)表,顯示了房間每個(gè)點(diǎn)的氣流量,速度,溫度和壓力,以及活動(dòng)地板下面的情況。 然后很容易看到現(xiàn)有的額外的冷卻能力,并知道可以在那里添加新的服務(wù)器設(shè)備。 當(dāng)然,也有情況時(shí)建立的模型中,發(fā)現(xiàn)冷卻單元設(shè)計(jì)不合理,會(huì)導(dǎo)致故障,這時(shí),需重新進(jìn)行運(yùn)輸,并查看冗余單元是如何工作的。
衡量數(shù)據(jù)中心能耗、冷卻效率
盡管電源使用效率指標(biāo)有諸多好處,但是并不足以完全優(yōu)化數(shù)據(jù)中心的效率。IT團(tuán)隊(duì)需要更詳細(xì)的數(shù)據(jù)中心指標(biāo),包括電力和冷卻基礎(chǔ)設(shè)施,以及計(jì)算系統(tǒng),從而能夠真正意義上優(yōu)化數(shù)據(jù)中心。
作為朝著這個(gè)方向邁進(jìn)的一步,美國環(huán)境保護(hù)局在2007年發(fā)表過一份關(guān)于數(shù)據(jù)中心效率的報(bào)告,該報(bào)告闡明要為服務(wù)器開發(fā)一項(xiàng)能源星級(jí)評(píng)定制度。Green Grid在2010年公布水資源和碳利用效率指標(biāo),盡管他們受到的關(guān)注相對(duì)較低。2016年6月,Green Grid宣布效益指標(biāo)(PI),這是一個(gè)衡量冷卻標(biāo)準(zhǔn)并將其與能源效率相結(jié)合的指標(biāo)。
備注:PI有四個(gè)層級(jí)。
Level 1是根下層級(jí),不需要巨大的設(shè)備就可以應(yīng)用。
Level 2需要更徹底、更精確的丈量。
Level 3和Level 4添加計(jì)較流體動(dòng)力學(xué)(CFD)的氛圍流建模來提供機(jī)能監(jiān)控的圖形可視化,還提供假設(shè)情景闡明,預(yù)測利用當(dāng)前能源效率時(shí),將來的本領(lǐng)和妨礙模式是如何的。Level 3是普通建模。Level 4利用實(shí)際和具體的丈量要領(lǐng),校準(zhǔn)計(jì)較流體動(dòng)力學(xué)模子作為其他尺度可信賴的精確基線。
我們正在濫用關(guān)于性能和效率的數(shù)據(jù)中心指標(biāo),但對(duì)于大多數(shù)IT團(tuán)隊(duì),即使是那些經(jīng)常追蹤其功耗使用效率(PUE)的人員,采取超出該指標(biāo)的步驟也需要更多的高級(jí)數(shù)據(jù)采集和分析技能。 對(duì)于那些準(zhǔn)備使用更復(fù)雜的優(yōu)化工具的人來說還有一些需要考慮的方面。
擴(kuò)容數(shù)據(jù)中心指標(biāo)的目的
通過關(guān)閉那些沒有運(yùn)行的服務(wù)器、整合及虛擬化應(yīng)用程序或購買能源星級(jí)硬件,實(shí)現(xiàn)節(jié)能是很常見的。但是,除非電力和冷卻基礎(chǔ)設(shè)施也能夠得到優(yōu)化,這對(duì)于現(xiàn)有的系統(tǒng)來說是很困難的,事實(shí)上,降低負(fù)載不會(huì)提高能效。這意味著PUE會(huì)變得更糟。通過使用PUE作為基準(zhǔn),而不是跟蹤指標(biāo),可能會(huì)發(fā)現(xiàn)并沒有大家認(rèn)為的節(jié)能,所有的投資和努力是不值得的。作為管理層,他們希望投資能夠產(chǎn)生一個(gè)更低的PUE,但他們根本不理解這個(gè)數(shù)字到底意味著什么。
這就是其他數(shù)據(jù)中心的指標(biāo) - 如Green Grid的數(shù)據(jù)中心能源生產(chǎn)力(DCeP) - 是有價(jià)值的。 DCeP量化數(shù)據(jù)中心實(shí)際產(chǎn)生的每瓦功耗的有用工作量。 DCeP指標(biāo)可讓用戶確定有用工作的定義。 例如,在線搜索公司可以將搜索結(jié)果定義為數(shù)量。對(duì)于零售商而言,可能是銷售數(shù)量。 PUE仍然是必要的,但DCeP會(huì)被對(duì)于數(shù)據(jù)中心有較少經(jīng)驗(yàn)的人更好地理解。雖然DCeP不是科學(xué)上準(zhǔn)確的指標(biāo),但其提供了一種方法來量化您使用的能量所實(shí)現(xiàn)的實(shí)際效果。如果一組服務(wù)器幾乎沒有工作并且大多數(shù)時(shí)間都處在閑置狀態(tài),則它消耗最少的能量,需要最小的冷卻并且不會(huì)顯著影響PUE.但其仍然會(huì)消耗一定的能源。DCeP將對(duì)這一消耗進(jìn)行顯示;其目標(biāo)是最小化能量消耗并最大化有用的工作。對(duì)于處于領(lǐng)先地位的企業(yè)組織機(jī)構(gòu)來說,想要在他們所使用的每一瓦特功率中都能夠?qū)崿F(xiàn)真正有用的生產(chǎn)性計(jì)算,復(fù)雜的服務(wù)器可以提供遠(yuǎn)遠(yuǎn)超出CPU利用率的操作數(shù)據(jù),而更復(fù)雜數(shù)據(jù)中心指標(biāo)則可以跟蹤結(jié)果。
備注:DCeP量化的是數(shù)據(jù)中心實(shí)際產(chǎn)生的有用的工作負(fù)載所消耗的能量瓦特?cái)?shù)。DCeP度量允許用戶建立其有用的工作負(fù)載的定義。
雖然DCeP不是一個(gè)科學(xué)上準(zhǔn)確的指標(biāo),但它提供了一種量化您所使用的能量實(shí)際完成的方法。 如果一大批服務(wù)器在大部分時(shí)間內(nèi)都沒有工作并且運(yùn)行空閑,那么它的能量消耗最少,需要最少的冷卻,并且不會(huì)對(duì)PUE產(chǎn)生很大的影響。 但是,它幾乎沒有任何功能。 DCeP會(huì)顯示; 其目標(biāo)是盡可能減少能源消耗并最大限度地利用有用的工作 對(duì)于處于領(lǐng)先優(yōu)勢的組織來說,想要將每一盎司的生產(chǎn)計(jì)算從每一瓦的功耗中擠出,復(fù)雜的服務(wù)器可以提供遠(yuǎn)遠(yuǎn)超出CPU利用率的運(yùn)營數(shù)據(jù),而更復(fù)雜的數(shù)據(jù)中心指標(biāo)可以跟蹤結(jié)果。
但是,PUE和DCeP仍然是能源效率和能源消耗。 使用它們可能會(huì)產(chǎn)生無法識(shí)別的后果,因?yàn)樗鼈儾粫?huì)泄露出為節(jié)約能源而產(chǎn)生的妥協(xié),從而對(duì)冷卻和可靠性產(chǎn)生負(fù)面影響。 新的PI指標(biāo)對(duì)于具有優(yōu)于平均數(shù)據(jù)收集技能的管理員以及對(duì)其操作的每個(gè)方面進(jìn)行優(yōu)化的能力最為有用。
使用擴(kuò)展的數(shù)據(jù)中心指標(biāo)(如PI和DCeP)有三個(gè)要求:
1)監(jiān)測PUE值
2)在計(jì)算操作中定義什么構(gòu)成有效工作
3)在每個(gè)機(jī)架處,獲得詳細(xì)的功耗及溫度測量值。
PI通過組合PUE、IT熱依從性和IT熱適應(yīng)性來補(bǔ)充現(xiàn)有方法。后兩者分別基于ASHRAE推薦的和允許的熱封套。熱適應(yīng)性和彈性檢查冗余冷卻在正常和異常條件下的工作狀況。如果必須降低計(jì)算機(jī)機(jī)房的空調(diào)空氣溫度以滿足熱合規(guī)目標(biāo),則PUE可能增加。 PI度量的要點(diǎn)是知道硬件被冷卻的可靠性、設(shè)施的能效如何、以及一個(gè)條件如何影響另一個(gè)條件。決定距離想要達(dá)到的操作的最大值的接近程度,以及要所達(dá)到能效目標(biāo)或PUE的目標(biāo)。然后,測量實(shí)際條件,并將它們繪制在三角形圖表上,看看它們與您企業(yè)的目標(biāo)有多接近。
現(xiàn)在,有幾種數(shù)據(jù)中心的指標(biāo),以最大限度地提高整體數(shù)據(jù)中心的能源效率方面的工作,包括每單位能量消耗的輸出和相對(duì)于能源效率的可靠性。對(duì)于大多數(shù)操作而言,堅(jiān)持基本原理和跟蹤電源使用效率仍然是優(yōu)先事項(xiàng)。其他的指標(biāo)也可以適當(dāng)跟蹤,但PUE仍然是基礎(chǔ)。即使您企業(yè)還沒有準(zhǔn)備好采取更為深層次的措施,但還是要了解并知道行業(yè)正在提出什么建議——如果您企業(yè)已經(jīng)確立了自己的相關(guān)節(jié)能目標(biāo)的話。
改進(jìn)數(shù)據(jù)中心設(shè)施管理策略
數(shù)據(jù)中心設(shè)施管理(從不間斷電源系統(tǒng)的維護(hù)到測量電源效率)可以為IT團(tuán)隊(duì)提供不斷發(fā)展的空間。例如,較早期的指標(biāo)(如PUE)已不足以了解數(shù)據(jù)中心的效率,而且提高功率密度可能導(dǎo)致更具破壞性的冷卻故障。
所有這一切都意味著調(diào)整數(shù)據(jù)中心設(shè)施管理策略是非常重要的,這種調(diào)整可以適應(yīng)變化的標(biāo)準(zhǔn)并保持?jǐn)?shù)據(jù)中心的效率和有益成本。下面是2016年SearchDataCenter的四點(diǎn)提示。
更新數(shù)據(jù)中心的電池技術(shù)
隨著數(shù)據(jù)中心變得越來越智能、高效,更加成熟的不間斷電源(UPS)系統(tǒng)將成為更高的優(yōu)先級(jí)。如今,需要的是具有較小的生態(tài)足跡更少的運(yùn)行冷卻設(shè)備以及具有更好的監(jiān)測數(shù)據(jù)(如使用壽命、電池的良好狀態(tài)及維護(hù)需求)功能的UPS系統(tǒng)。
鋰離子電池因其與先進(jìn)的UPS系統(tǒng)完美集成,已經(jīng)成為數(shù)據(jù)中心電池電源的有力競爭。此外,鋰離子電池可以提供更多的能量和功率密度,適合在數(shù)據(jù)中心內(nèi)更靈活地放置的較小UPS系統(tǒng),而且比鉛酸電池更能適應(yīng)較高的溫度。
當(dāng)選擇鋰離子電池時(shí),請(qǐng)記住,它們不是熱插拔的,并不一定是鉛酸電池的直接替代品。 鋰離子電池的成本要高于傳統(tǒng)電池,并且可能會(huì)有一個(gè)復(fù)雜的電池管理系統(tǒng),由此增加運(yùn)營成本。
識(shí)別并防止數(shù)據(jù)中心熱點(diǎn)
今天數(shù)據(jù)中心的功率密度增加可以為效率和預(yù)算帶來奇跡,但也可能導(dǎo)致冷卻故障的風(fēng)險(xiǎn),從而導(dǎo)致災(zāi)難性的服務(wù)器崩潰。 如果您在不考慮數(shù)據(jù)中心的冷卻能力的情況下移動(dòng)或添加設(shè)備,可能會(huì)發(fā)生熱點(diǎn),而且很容易被人認(rèn)識(shí)到,直到這個(gè)問題以破壞性的方式出現(xiàn)在表面。
為了方便地查找數(shù)據(jù)中心熱點(diǎn)(能夠通過較低的成本實(shí)現(xiàn))——安裝溫度指示板——彩色的、熱敏的帶,表明進(jìn)口空氣溫度——靠近頂部、中部和底部都安裝,如果預(yù)算緊張的話,安裝在最容易攻擊的硬件前端。
溫度和濕度探測器是另一種選擇——要么是智能機(jī)架電源分配單元的附加組件,要么是無線設(shè)備,或者是數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)工具的一部分,它可以提供數(shù)據(jù)中心溫度的實(shí)時(shí)圖形顯示。為了模擬安裝和測試?yán)鋮s功能,將計(jì)算流體動(dòng)力學(xué)(CFD)空氣流模型與探測器的讀數(shù)結(jié)合起來。事實(shí)上,防止冷卻失敗的最好方法是通過創(chuàng)建一個(gè)數(shù)據(jù)中心的3D模型來防止冷卻失敗。
用新指標(biāo)準(zhǔn)確地測量效率
近10年前,綠色電網(wǎng)引入了電力使用效率(PUE)。從那時(shí)起,數(shù)據(jù)中心技術(shù)的發(fā)展就有了顯著的發(fā)展,使得PUE在精確測量數(shù)據(jù)中心效率方面的不足。為了獲得真正的效率,IT團(tuán)隊(duì)需要有更為詳細(xì)的度量標(biāo)準(zhǔn),包括電力和冷卻基礎(chǔ)設(shè)施以及計(jì)算系統(tǒng)。幸運(yùn)的是,今天的數(shù)據(jù)中心團(tuán)隊(duì)可以從各種度量中選擇。PUE仍然是效率度量的基礎(chǔ),但是PI這樣的新指標(biāo)可以以更細(xì)致的方式提高數(shù)據(jù)中心的設(shè)施管理。
數(shù)據(jù)中心電纜管理提高效率
一些IT團(tuán)隊(duì)在數(shù)據(jù)中心設(shè)施管理方面無意中浪費(fèi)資源的另一種方法是使用非管理式布線。 布置不良可能會(huì)產(chǎn)生熱量,并阻止樓下平面上的冷卻空氣流動(dòng),增加成本并造成潛在停機(jī)。
要開始清理過程,請(qǐng)使用DCIM工具進(jìn)行全面庫存,從服務(wù)器和交換機(jī)到網(wǎng)絡(luò)集線器和輔助設(shè)備。 使用DCIM工具,對(duì)潛在布局執(zhí)行模擬,以確定最有效的設(shè)計(jì),以及分析您當(dāng)前的接線布局,以確定哪些電纜不再使用, 這可以幫助您清理,而不會(huì)造成意外停機(jī)。