超過半數(shù)的電子故障由溫度造成,并且由于這些熱量源于不斷升高的晶體管密度和運行速度,我們可以得出一個合乎邏輯的結(jié)論:在其他條件均相同的情況下,電子故障率也將不斷攀升。
熱量是電子設(shè)備的敵人。根據(jù) BCC, Inc. 的“Report GB-185R”,超過半數(shù)的電子故障由溫度造成,并且由于這些熱量源于不斷升高的晶體管密度和運行速度,我們可以得出一個合乎邏輯的結(jié)論:在其他條件均相同的情況下,電子故障率也將不斷攀升。
事實上,根據(jù)由 IBM、HP、Dell、Nortel、Cisco 等組成的“行業(yè)冷卻協(xié)會”發(fā)布的信息,我們目前正處于大多數(shù)計算與通信電子設(shè)備熱密度(瓦特/平方英尺)增長的最高峰(據(jù) Uptime Institute(運行時間協(xié)會)的白皮書報告)。
溫度會以許多不同的方式影響 IT 硬件,并且看似無關(guān)緊要的變化經(jīng)常會對性能和經(jīng)濟性產(chǎn)生重大影響。Arrhenius 反應(yīng)導(dǎo)致電容器使用壽命和半導(dǎo)體性能在高溫作用下下降。有一個很靈驗的經(jīng)濟法則,即環(huán)境溫度每升高 10°C,IT 硬件的長期可靠性便會降低 50%.事實上,美國軍方標(biāo)準(zhǔn)和Telcordia標(biāo)準(zhǔn)均將 CPU 使用壽命與溫度相關(guān)聯(lián)。有趣的是,我們注意到大多數(shù) CPU 的工作溫度范圍上限均在 95°C 上下,但是 MIL-HNBK-217 和Bellcore數(shù)據(jù)卻表明,在此溫度水平下持續(xù)運行將會使 CPU 壽命限制為一年或更短時間,而降低 5°C 竟然可以使設(shè)備的預(yù)期壽命延長三倍。
一些芯片制造商已經(jīng)能夠制造明顯更快且更強大的微處理器,但是由于缺乏應(yīng)對多余熱量的解決方案而無法將其投入實際應(yīng)用。因此,無論是在芯片級、電路板級、殼體級或機架/機柜級,每一個為這些微處理器的冷卻做出貢獻(xiàn)的人員都會成為新一代計算能力的推動者。
了解高溫對于 CPU 的影響以及對 IT 硬件進(jìn)行更大程度冷卻可以獲得更高性能和經(jīng)濟利益的前景,我們見多識廣的機房經(jīng)理需要經(jīng)受住投入更多機房空調(diào)機組 (CRAC) 或僅僅調(diào)低恒溫器的誘惑。在有些情況下,這些舉措僅僅是浪費;而在另外一些情況下,較冷的空氣實際上可能會導(dǎo)致產(chǎn)生更嚴(yán)重的散熱問題。正確的空氣管理取決于強制空氣對流熱傳導(dǎo)率冷卻設(shè)備的原理至少有著基本的理解。大多數(shù)的機架安裝設(shè)備采用風(fēng)扇冷卻。盡管有一些將空氣由一側(cè)移至另一側(cè)的獨立產(chǎn)品平臺,但是通常情況下,還另設(shè)有 10-30 臺 CFM 軸流式風(fēng)扇以將空氣由前端抽出,然后排到后端。
管理空氣流動非常簡單,就是使空氣流動到需要的位置,而此過程的第一步是減少浪費的冷送風(fēng)–從地下逃逸到?jīng)]有起到冷卻作用之處的空氣。Triton Technologies 曾針對一百多個機房和數(shù)據(jù)中心中的地板冷卻空氣繪圖,并且發(fā)現(xiàn)在絕大多數(shù)的場所中,輸送到室內(nèi)的空氣有 50-80% 為浪費的冷送風(fēng)。減少浪費的冷送風(fēng)好處多多。
此外,將最冷的空氣直接輸送到最暖的設(shè)備排氣,源空氣與返程空氣溫差的降低問題整體將會變得更嚴(yán)重??梢圆捎萌魤|、全泡沫或特殊的面板隔斷里襯(配有毛刷)封閉電纜周圍。
僅僅增大靜態(tài)壓力還不能保證使冷卻空氣到最關(guān)鍵需求點的流動實現(xiàn)最佳化–在高架地板下方輸送的空氣必須具有方向性且必須予以正確的管理。高架地板空氣管理產(chǎn)品與服務(wù)營銷商 Triton Technology Systems 已積累廣泛的實驗法研究資料,其中指出不僅 CRAC 的氣流傾向于混合,但如果 CRAC 的位置彼此成直角,則會導(dǎo)致冷卻空氣輸出模式以地上機房中返程空氣模式無法預(yù)測的角度偏轉(zhuǎn)。在最好的情況下,此模式會導(dǎo)致運轉(zhuǎn)中的冷卻設(shè)備效率低下,從而導(dǎo)致成本的浪費;在最壞的情況下,會在機房中形成熱點,從而危害計算設(shè)備的性能和數(shù)據(jù)的完整性。
將空氣吹入機柜底部或從機柜頂部抽吸氣體的高功率風(fēng)扇不符合本文所介紹的原理。例如,此類風(fēng)扇通常會同時從機柜的正面和背面抽吸或吹送冷卻空氣,因此會冷卻廢氣(返程氣體),降低源空氣與返程氣體之間的溫差以及降低CRAC 的效率。
數(shù)據(jù)中心設(shè)備的冷卻方案不需要是神秘的技法,但是經(jīng)常需要超乎常識以外的認(rèn)知,尤其因為高架地板磚的下面發(fā)生許多我們看不到的活動。切記以下要點:僅將冷空氣用在設(shè)備確實需要之處;避免將“用過的”返程空氣與源冷卻空氣相混合;以同一方向,彼此平行的方式布設(shè)空氣與地板下的電纜,使環(huán)境顯得簡單且可以預(yù)測;最本質(zhì)的東西是輸送有效的冷卻量,而不僅僅是排掉熱空氣。
最終,當(dāng)?shù)匕逑蚂o態(tài)壓力實現(xiàn)最大化從而確保最佳的冷卻空氣 CFM 輸送,且數(shù)據(jù)中心中的 CRAC 和設(shè)備機柜的布置最理想時,站點管理員必須避免這一常見的傾向:將最熱的設(shè)備放置在最靠近 CRAC 的位置。CRAC 直接流出的空氣速度經(jīng)??赡軙撸鵁o法向上偏轉(zhuǎn),從而通過太靠近 CRAC 的網(wǎng)孔地板磚。事實上,根據(jù)文丘里效應(yīng)的物理學(xué)原理,流經(jīng)附近網(wǎng)孔地板磚的冷卻空氣速度可能很大,足以將室內(nèi)空氣和/或受熱的返程氣體抽到地板下空間中。因此,不僅靠近放置不能將冷卻量傳輸?shù)阶顭岬脑O(shè)備,而且還可能會導(dǎo)致傳輸?shù)秸麄€房間內(nèi)的冷卻空氣溫度上升。本文建議避免將網(wǎng)孔磚布置在太靠近 CRAC 的位置,并且盡可能將無源的連接設(shè)備布置最靠近在 CRAC 的位置,以使空間利用率最大化。