數(shù)據(jù)中心空調(diào)系統(tǒng)一般不會在深冬出現(xiàn)故障——墨菲定律再次證明,此類故障往往發(fā)生在炎熱的夏季。無論冷卻系統(tǒng)何時中斷,數(shù)據(jù)中心都將經(jīng)歷升溫過程,可能威脅到服務器與其他設備。如果冷卻能力已達臨界值,以至于無法關閉其中某個單機房空調(diào)單元(CRAC)來進行維護時,你正走在布滿危機的道路上!本章將介紹關于維護CRAC的一些最佳實踐。在我們深入此文之前,請注意一點,所有類型的機房空調(diào)都被稱為CRAC,但從專業(yè)角度來說,冷卻水機組算是機房空氣處理器(CRAH)。
不要為冷卻模塊留下遺憾
冷卻模塊一直都是現(xiàn)代數(shù)據(jù)中心十分關鍵的一部分,而如何維護用來實現(xiàn)冷卻的CRAC單元則更是重中之重。在冷卻設備上的巨額投資,以及維持設施所需的計算機控制資源,都應該確保與預防故障產(chǎn)生,但事實上并非如此。最近我們?yōu)榱俗非竽茉蠢寐识噲D將每件物品劃分至“合適大小”,這將使得每個設備都更明確并減少故障率。盡管如此,設備增加都有自己的界限范圍,大家也對需要關閉設備才能進行的預防性維護存有顧慮。更糟糕的是,維護合同通常被視為過于昂貴,甚至若干年后的費用總和可以用來更換一套全新的CRAC單元。另外,CRAC服務通常是設施相關人員進行操作,沒有檢查清單說明哪些內(nèi)容需要確認,調(diào)整或替換,也沒有檢測周期。簡而言之,與相對簡單的維護電話不同,如果沒有完善的預防性措施或完全沒有進行維護,冷卻失效可能成為主要維護關機的故障源。
警惕故意冷卻關機的設置
讓我們首先糾正對短期內(nèi)溫度升高的過度關注。ASHRAE TC 9.9在2008年擴大了溫度限定范圍,確定設備可以在27攝氏度(80.6華氏度)的環(huán)境下正常工作,而且可以在32攝氏度(89.6華氏度)的情況下持續(xù)工作數(shù)天,不影響設備或保修情況。這些參數(shù)已經(jīng)被所有主要硬件制造商所接受。盡管如此,大部門數(shù)據(jù)中心依舊將冷卻設置為比實際需求還要低的溫度上。事實上,即使冷卻機組已經(jīng)達到臨界或沒有冗余設備,獨立的CRAC單元依舊可以被關閉數(shù)小時來進行完善的預防性維護,這不會使數(shù)據(jù)中心溫度超出限制。在某天關閉冷卻系統(tǒng)幾小時不會使整個數(shù)據(jù)中心溫度發(fā)生急劇變化,這遠比因故障失去整個CRAC單元而在一年中最熱的時候讓機房運行在沒有空調(diào)的情況下,持續(xù)數(shù)日甚至數(shù)周要強得多。ASHRAE同樣定義了“溫度升高比例”限制,我們會在其他篇章中介紹。如果維護關機使得溫度上升速度高于ASHARE建議值,此跡象說明你需要考慮進行專業(yè)的冷卻評估。
當我們討論運行參數(shù)時,不可忘記冷卻維護中最容易被忽視的項目--設置點。所有的空調(diào)都應該進行檢查以確認它們保持著相同的溫度與濕度級別,當然如果所有設備可以直接顯示相關讀數(shù),那就更好了。如果各單元的設置點不同,那么空調(diào)可能互相競爭,耗費大量能源實際卻降低了制冷效果。根據(jù)實驗結(jié)果調(diào)整傳感器放置位置同樣可以幫助實現(xiàn)統(tǒng)一控制的效果。一個通常被忽略的事實是,工廠的地點不一定是最好的。隨著時間推移,溫度或濕度同樣會因為傳感器故障或設備安裝模式變化而有所變化,這使得單元無法有效維護良好的環(huán)境??梢钥紤]根據(jù)ASHARE的指導手冊來增加設置點,但需要確保可根據(jù)ASHARE限制來調(diào)整服務器進口溫度,保證其不超出進氣口最高溫度限制。這樣可以提升冷卻效率并降低空調(diào)設備損耗。
CRAC單元維護因包括哪些方面
維護CRAC單元最重要的任務便是更換過濾器。臟過濾器會增加電機負擔并降低冷卻能力。如果過濾器在替換時發(fā)現(xiàn)比預期的還要臟,那么因該從源頭查找問題原因。灰塵顆粒同樣會堆積在計算機硬件過濾器或散熱片上,提高內(nèi)部溫度。最常見的污染源是在數(shù)據(jù)中心內(nèi)存儲物品或?qū)ο渥舆M行拆封,此類行為是絕對不允許在數(shù)據(jù)中心內(nèi)操作的。
機械設備養(yǎng)護
需要養(yǎng)護的機械設備取決于所選CRAC單元的類型,但如果有涉及到皮帶,它們的松緊需要調(diào)整至適當程度。皮帶伸展長度與與出廠參數(shù)需要維護。設置過緊會導致皮帶與軸承承擔不必要的負擔,而設置過松會導致滑動并降低性能。自動張緊皮帶已經(jīng)問世5年多了,但逐年替換其他皮帶可能是比較好的經(jīng)驗法則。在任何情況下,應該根據(jù)產(chǎn)商建議的期限更換皮帶,及時它們看起來還工作的很好。檢查電機支架與滑輪組松緊程度同樣重要。當然做任何事情,加些潤滑油總是有好處的,但需要注意不要因添加過度而引起漏油或飛濺。干凈的機械系統(tǒng)通常會運行的比較穩(wěn)定與持久。
經(jīng)常被忽視的問題還包括異常聲響。運維人員應當注意聲音變化情況,此種變化可能是對某些問題的告警,雖然此種變化可能是間歇性或緩慢持續(xù),但應加以重視,形成習慣。維護技術可能無法發(fā)現(xiàn)此類問題,但也不能因此而忽略,它們通常都是大麻煩的前兆。
制冷水平的重要性,電氣測試
直接膨脹(DX)單元的制冷水平每年因至少檢查一次。制冷水平下降可能意味著泄漏,需要立即發(fā)現(xiàn)并修復。水冷型空調(diào)(CRAH)單元的比例閥需要定期檢測以保障控制與操作。
確保冷凝排水管沒有被堵塞以及冷凝泵工作正常同樣十分好總要。根據(jù)實際情況,冷凝可能不會持續(xù)形成數(shù)月,這意味著水泵處于空閑狀態(tài),系統(tǒng)一直處于缺水狀態(tài)。這時候因該引入水以保證系統(tǒng)正常運作。
濕度同樣需要經(jīng)常檢查。蒸汽灌可能需要更換,也可能紅外加濕器已經(jīng)積累了一定厚度的水垢需要清洗。如果沒有定期更換凈水過濾器,超聲波加濕器同樣也可能被堵塞。需要注意,加濕器的服務周期與水質(zhì)條件有很大關系。水質(zhì)分析可以幫助確定部件更換的周期與頻率。
另一個經(jīng)常被忽視的內(nèi)容是電器測試。僅因為CRAC單元正在運行,并不意味著一切正常。因該持續(xù)記錄不同組件的電流狀況(安培)。電機的轉(zhuǎn)數(shù)與電流讀數(shù)同樣應該對照著進行記錄。不斷變化的電流趨勢或者電機減速,都很可能意味著引發(fā)更深層次的問題。在讀取能耗數(shù)據(jù)之前必須先檢查電源連接的緊湊程度。鉗夾式測量器可能移動線纜,或讓如火警感應線等連接松動,進而導致整個數(shù)據(jù)中心斷電??照{(diào)電源線連接狀況應該是年度熱紅外掃描所有用電系統(tǒng)中的一部分。
為外部維護留出時間
對冷卻裝置的外部部件進行維護(冷水機組、水泵、冷卻塔及閥門)是一項大工程,相關內(nèi)容已經(jīng)超出本片介紹范圍,而且IT工程師對此方面知識也知之甚少。但何時關閉這些設備,需要與IT人員協(xié)商一致,尤其在沒有冗余設施的情況下,因為相關活動可能會影響到整個數(shù)據(jù)中心的冷卻計劃。設施工作人員通常對這些大型部件的維護需求十分重視,但通常會忽略手動閥門操作。關閉與旁通閥可能已經(jīng)多年沒有使用,通常都設置于戶外。閥門故障通常是因為腐蝕,甚至可能讓閥門無法正常操作。它們要從外部進行清理,如果有必要,還可以從外部進行保護并安排周期維護工作,確保它們在需要時可以正常使用。如果有必要,更換作業(yè)可以安排在對數(shù)據(jù)中心影響最小的時候進行。
簡而言之,供應商所提供的維護合同是十分值得考慮的,他們可以提供月度、季度、半年和周年的維護服務。對幾乎所有數(shù)據(jù)中心而言,維護響應時間8小時,覆蓋周期5天已經(jīng)足夠(即8/5維護級別)。幾天內(nèi)的氣溫上升所能產(chǎn)生的實際影響并不會太大,這樣可以節(jié)省選擇24/7維護級別的額外開支。如果是設施內(nèi)部或第三方進行維護服務,他們應該嚴格根據(jù)制造商的維護程序進行操作。不管是誰負責,IT運維因該在接到維護電話時保持跟蹤,對相關文檔進行備份,記錄發(fā)現(xiàn)的問題以及解決方法,記錄預防性維護所進行的工作內(nèi)容,確保結(jié)果與期望的一致,這樣的預防性維護工作才是徹底和完整的。