如今又到了炎熱潮濕的夏季,高溫天氣考驗著數(shù)據(jù)中心冷卻系統(tǒng)的工作極限。盡管許多組織放棄運營內(nèi)部部署數(shù)據(jù)中心,并已遷移到托管數(shù)據(jù)中心和云平臺,但仍有許多中小型數(shù)據(jù)中心和服務器機房在運營。許多組織的數(shù)據(jù)中心冷卻系統(tǒng)達到甚至超過其極限。因此,組織需要為其服務器采取一些有效的冷卻措施防止過熱。
因此,盡管關于美國采暖、制冷與空調(diào)工程師學會(ASHRAE)新的熱指南和自然冷卻技術的帖子很多,但是對于邊緣計算設施的冷卻技術卻沒有什么幫助。對于位于混合用途建筑中的服務器機房來說,這是一個常見問題,這些服務器機房沒有部署大型專用冷卻系統(tǒng)或在炎熱的夏季沒有足夠容量的冷卻系統(tǒng)。實際上,任何冷卻系統(tǒng)的性能都會隨著室外溫度和濕度的升高而降低。許多IT部門希望其服務器在夏季中不會因過熱停機而突然崩潰。
以下一些技巧和措施可能無法解決長期冷卻問題,但可能會幫助數(shù)據(jù)中心安然度過夏季。在很多時候,當IT設備的實際熱負荷并沒有嚴重超過冷卻系統(tǒng)的實際容量時,優(yōu)化氣流可能會改善這種情況,直到安裝新的冷卻系統(tǒng)為止。
1.如果數(shù)據(jù)中心溫度上升不要驚慌。即使數(shù)據(jù)中心冷熱通道的溫度高達80°F,也不要驚慌。雖然這比數(shù)據(jù)中心標準溫度(70°F ~72°F)要高,當然工作人員也不喜歡在這樣的環(huán)境中工作,但是它對服務器的影響可能并不像人們想象的那么糟糕。如果機柜前部的最高溫度為80°F或更高,則在ASHRAE的TC 9.9標準的最新推薦準則范圍內(nèi),而即使進氣溫度稍高(高達90°F),仍在其允許范圍內(nèi)。
2.在服務器機柜正面的內(nèi)部進行溫度測量。這是服務器吸入冷空氣的地方,實際上是唯一有效且最重要的溫度測量方法。在服務器機柜的頂部、中部和底部獲取溫度讀數(shù)(假設具有“熱通道-冷通道”布局)。機柜頂部的溫度通常是最高的。如果機柜的底部溫度較低,并且在可能的情況下,可以嘗試將服務器重新布置在機柜底部(或最涼爽的區(qū)域)附近。確保使用擋板擋住機柜前面的空間和所有未使用的開放空間。這樣可以防止后部的熱空氣再回流到機柜的前部。
3.不必擔心后部溫度。即使服務器機架后部溫度在100°F或更高(這并不罕見),不要采用風扇對機柜后部進行冷卻,這只會使更多的熱空氣混入冷通道中。
4.如果數(shù)據(jù)中心采用高架地板,需要確保地板的格柵或穿孔瓷磚正確地位于最熱的機柜所在的位置。如有必要,需要重新布置或更換不同的地板格柵,以使氣流與熱負荷相匹配。注意不要將地板格柵放置在離機房空調(diào)太近的位置,這將使冷空氣回流。
5.避免旁路氣流。檢查架空地板在機柜內(nèi)部是否有開口。地板上的電纜開口將讓冷空氣從不需要的出口中逸出,并降低冷通道中地板通風口的冷空氣流量。使用空氣密閉型套件可最大程度地減少這個問題。
6. 如有可能,盡量將熱負荷重新分配并均勻地分布到每個機柜上,以避免或減少“熱點”。在移動服務器之前,需要檢測服務器機柜頂部、中部和底部的溫度。在每個機柜或每三個機柜中安裝溫度傳感器,并在可能的情況下安裝中央監(jiān)控器。
7.檢查機柜后部是否有阻礙排氣的電纜。這將導致IT設備風扇背壓過大,甚至在前面有足夠的冷空氣時也可能導致設備過熱。對于裝滿1U服務器的機柜來說尤其如此,這些服務器通常有較長的電源線和網(wǎng)絡電纜??紤]采用較短(1~2英尺)的電源線,并替換大多數(shù)服務器原有的較長電源線,并且也要使用盡可能短的網(wǎng)線。對機柜后部采用電纜管理措施,以免阻礙氣流。
8.如果有高架管道冷卻系統(tǒng),需要確保冷空氣出口直接位于機柜的正面,而回流管道位于熱通道上方。也有一些天花板通風口和回風口位置不佳導致機房過熱,但冷卻系統(tǒng)的容量并沒有超出的情況,這只是因為所有的冷空氣都沒有直接流到機柜的前端或未正確排出熱空氣。最重要的問題是避免再循環(huán)。確保來自機柜后部的熱空氣可以直接返回機房空間的回流口,而不會與冷空氣混合。如果有增壓天花板,考慮使用它來捕捉熱空氣,并從機房空調(diào)的頂部回風口向天花板添加通風管道。一些基本的管道工程將會對機房溫度產(chǎn)生直接影響。實際上,回風溫度越高,機房空調(diào)的效率和制冷量就越高。
9.只有在可以將熱量排到外部區(qū)域時,才考慮添加臨時式冷卻設備。將排氣管安裝到可以回到機房空調(diào)的天花板上是行不通的。其新加的冷卻設備熱排氣管必須排入受控空間之外的區(qū)域。
10.當機房沒有人員工作時,需要關掉燈具。這樣可以節(jié)省1%~3%的電力和熱負荷,甚至可以將溫度降低1℃~2℃。
11.檢查是否仍然有其他設備仍然接通電源,但并沒有投入生產(chǎn)(例如僵尸服務器)。這是相當普遍的情況,并且很容易解決,只需將其關閉即可。
12.如果機房部署了刀片服務器,則在冷卻系統(tǒng)無法處理全部熱負荷時,需要考慮激活“功率上限”功能。這可能會減慢處理器的速度,但是這與由于熱關機而發(fā)生意外的服務器崩潰相比要好得多。
結語
當然,需要確保冷卻系統(tǒng)得到了正確的維修和維護,并且所有的外部排風系統(tǒng)都進行了清潔。當熱負荷完全超過冷卻系統(tǒng)的容量時,雖然沒有真正的快速解決辦法,有時只是改善空氣流量就可能會使整體效率提高5%~20%。這可能會讓數(shù)據(jù)中心度過夏季最熱的日子,直到可以根據(jù)需要升級或改造冷卻系統(tǒng)為止。無論如何,這會降低能源成本,這總是一件好事。
今年持續(xù)蔓延的冠狀病毒疫情使IT人員和其他支持人員在現(xiàn)場工作變得更加困難,使遠程監(jiān)視和控制比以往任何時候都更加重要。數(shù)據(jù)中心管理人員因此需要未雨綢繆,至少要在部分或全部機柜中安裝一些遠程溫度監(jiān)控器,設置警報閾值,以提供針對出現(xiàn)問題的預警系統(tǒng)。
如果其他所有方法都不奏效,則需要制定備用計劃,以關閉最不重要的系統(tǒng),以便更重要的服務器保持運行(例如電子郵件和財務等)。確保將最關鍵的IT系統(tǒng)放置在最涼爽的地方。這比收到高溫警告或使最關鍵的系統(tǒng)意外因過熱而關機要好得多。
版權聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權利。