摘要:“N+1”冗余是數(shù)據(jù)中心系統(tǒng)設(shè)計(jì)的最佳實(shí)踐,因?yàn)樵O(shè)備故障偶有發(fā)生,數(shù)據(jù)中心維護(hù)人員期望采用設(shè)備冗余提高可靠性。
“N+1”冗余是數(shù)據(jù)中心系統(tǒng)設(shè)計(jì)的最佳實(shí)踐,因?yàn)樵O(shè)備故障偶有發(fā)生,數(shù)據(jù)中心維護(hù)人員期望采用設(shè)備冗余提高可靠性。在數(shù)據(jù)中心冷卻的情況下,人們預(yù)計(jì)精密空調(diào)(CRAC)在某個(gè)時(shí)候會宕機(jī),而使用“N+1”冗余系統(tǒng)設(shè)計(jì),可以有一個(gè)備用的精密空調(diào)(CRAC)可以使用。但在冷卻過程中的一個(gè)主要問題是,在更換精密空調(diào)(CRAC)時(shí)或由于精密空調(diào)(CRAC)故障導(dǎo)致冷通道過熱的風(fēng)險(xiǎn),而且這種風(fēng)險(xiǎn)也隨著冷通道的遏制而擴(kuò)大。幸運(yùn)的是,工作人員可以經(jīng)濟(jì)高效地管理這種風(fēng)險(xiǎn),在冷通道中使用“空氣動力”風(fēng)扇。
人們一再聽到數(shù)據(jù)中心運(yùn)營商談?wù)撊绾胃淖兙芸照{(diào)(CRAC)陣容會導(dǎo)致冷卻氣流問題。大多數(shù)意見來自傳統(tǒng)的數(shù)據(jù)中心,盡管也有新的數(shù)據(jù)中心聽到了類似意見。有趣的是,許多工作人員無法連接這個(gè)氣流問題和“N+1”冗余之間的點(diǎn)。許多運(yùn)營商都部署一個(gè)特殊的精密空調(diào)(CRAC)單元,他們不敢關(guān)閉,而他們認(rèn)為可以用這個(gè)備用的CRAC單元提供“N+1”冗余。根據(jù)人們的經(jīng)驗(yàn),約四分之一的中小型數(shù)據(jù)中心這樣做,那么他們所謂的“N+1”冗余只是紙上談兵。
平衡法
人們經(jīng)常聽到這樣的評論:“在所有的時(shí)間或房間過熱時(shí),我們需要保持CRACUnit#3持續(xù)運(yùn)行”,或“當(dāng)我們將CRAC#6停機(jī)進(jìn)行維護(hù)時(shí),北側(cè)卻有了熱點(diǎn)”。而這些問題表明了高架地板環(huán)境中典型的氣流行為:
·進(jìn)入通道的CFM(每分鐘立方英尺)高度取決于地板下的壓力和障礙物。
·進(jìn)入通道的CFM主要由最接近的精密空調(diào)(CRAC)驅(qū)動。
·更改CRAC陣容會在傳遞給通道的CFM中產(chǎn)生較大的波動。
·總的空氣供應(yīng)量可能是足夠的,但本地供應(yīng)可能不是(“分配問題”)。
有了這些理解,人們可以很容易地看到精密空調(diào)(CRAC)陣容的變化如何使地板下的壓力變化足以引起不利散熱事件的重大風(fēng)險(xiǎn)。
當(dāng)人們考慮冷卻效率,熱安全性和預(yù)防問題時(shí),就它是在正常操作條件和故障條件下進(jìn)行的,而這兩種情況都是高度動態(tài)的。在正常運(yùn)行條件下,工作人員處理整個(gè)房間的冷卻需求和供應(yīng)的日常變化,而精密空調(diào)(CRAC)陣容保持不變。在故障條件下,當(dāng)一個(gè)精密空調(diào)(CRAC)離線,并且備用精密空調(diào)(CRAC)接管時(shí),數(shù)據(jù)中心的地板下壓力就會有大幅變化。
在正常運(yùn)行條件下,氣流供應(yīng)和需求的日常變化會導(dǎo)致失去平衡的風(fēng)險(xiǎn),并使冷通道受到影響。冷卻需求在機(jī)架級別,通道級別和房間級別不同,并且可能會快速或緩慢地波動。例如,開展大型計(jì)算任務(wù)的研究人員可以快速加熱一個(gè)或多個(gè)數(shù)字服務(wù)器機(jī)架?;蛘咭粋€(gè)IT人員可能會在一個(gè)2kW機(jī)架的地方部署一個(gè)10kW的機(jī)架,但是忘記向設(shè)施人員提及。冷卻需求的這些變化在冷卻供應(yīng)方面產(chǎn)生了不太明顯的變化。當(dāng)一個(gè)通道的冷卻需求增加時(shí),空氣消耗的變化將影響相鄰?fù)ǖ赖臍饬鞴?yīng)。正常運(yùn)行期間的這種需求和供應(yīng)變化會影響地板下的壓力,并可能導(dǎo)致通道局部低壓。
在故障條件下,精密空調(diào)(CRAC)單元的宕機(jī)和“N+1”冗余單元的替換將導(dǎo)致地板內(nèi)壓力的變化。因?yàn)橥ㄟ^道的冷卻供應(yīng)主要受精密空調(diào)(CRAC)的影響,根據(jù)地板下部的情況,精密空調(diào)(CRAC)的變化可能導(dǎo)致低壓區(qū)和通道擁堵。雖然可能有足夠的冷卻供應(yīng),但由于分配問題,存在局部低壓甚至通道過低。在這種情況下,即使“N+1”冗余精密空調(diào)(CRAC)單元按計(jì)劃上線運(yùn)營,但這種情況還只是具有部分冗余。
用風(fēng)扇固定
幸運(yùn)的是,實(shí)現(xiàn)真正的“N+1”冗余減輕了人們描述的冷卻故障風(fēng)險(xiǎn),可以通過局部調(diào)節(jié)氣流的主動風(fēng)扇輕松實(shí)現(xiàn)?;诟袦y到的溫度或壓差相對于目標(biāo)設(shè)定值,可以調(diào)整風(fēng)扇的轉(zhuǎn)數(shù),例如Frost-Byte升高的地板風(fēng)扇,可以根據(jù)感測到的溫度或壓差來改變速度,以將冷空氣輸送到通道。在這些“冷氣通道”中有幾個(gè)風(fēng)扇供應(yīng)適量的冷空氣,以減輕在正常運(yùn)行和故障條件下不可避免的冷卻需求和供應(yīng)變化的熱風(fēng)險(xiǎn)。
這些主動式風(fēng)扇采用鋁合金外殼,由高性能的可變速直流風(fēng)扇的矩陣構(gòu)成,連接到標(biāo)準(zhǔn)的60%升高的地板上。通常通過安裝在服務(wù)器機(jī)架表面上的溫度傳感器控制風(fēng)扇?;蛘?,測量所容納的冷通道內(nèi)部和外部之間的壓力差的傳感器控制風(fēng)扇。這種風(fēng)扇磚結(jié)構(gòu)自動平衡冷通道,消除宕機(jī)風(fēng)險(xiǎn),并改善熱安全性。
采用其他風(fēng)扇的優(yōu)點(diǎn)
平衡冷卻需求和供應(yīng)的另一個(gè)解決辦法就是過度供應(yīng)通道,但由于當(dāng)今強(qiáng)調(diào)能源效率,供過于求并不現(xiàn)實(shí)。事實(shí)上,能源效率是推動采用通道遏制的主要因素,即使是采用遏制,但由于平衡挑戰(zhàn),人們有時(shí)仍然看到供過于求。使用主動的風(fēng)扇,可以減少或消除這些剩余的供應(yīng)過剩的情景,從而實(shí)現(xiàn)冷通道遏制的全面效率。
此外,通過自動平衡主動風(fēng)扇,工作人員可以節(jié)省人力,從而消除常規(guī)手動平衡。在各房間巡查和地板穿孔的日子已經(jīng)過云了。主動風(fēng)扇消除了使用平衡罩(也稱為流量計(jì))分析通道的需要,以確保冷通道中的CFM與通道中的IT負(fù)載匹配。同樣,由于房間和通道中的條件如此動態(tài),用于平衡目的的計(jì)算流體動力學(xué)(CFD)分析已經(jīng)過時(shí),因?yàn)橛?jì)算流體動力學(xué)(CFD)只是提供可能不再相關(guān)的氣流的歷史“快照”。
最后,如果有源風(fēng)扇通過UPS供電,則可以確保在完全中斷冷卻時(shí)持續(xù)更長的正常運(yùn)行時(shí)間。在災(zāi)難性的冷卻設(shè)備故障條件下,地板下的氣室保持冷涼爽的空氣層,盡管沒有空氣壓力或氣流。采用UPS備用電源運(yùn)行的風(fēng)扇可以繼續(xù)輸送并在該冷藏通風(fēng)室內(nèi)循環(huán)冷空氣。測試表明,即使所有精密空調(diào)(CRAC)都關(guān)閉,通過風(fēng)扇瓦片的供氣溫度保持穩(wěn)定超過10分鐘。
自動平衡和解決風(fēng)扇分配問題的好處可使運(yùn)營商享受真正的“N+1”冗余。風(fēng)扇在具有冷通道密封的數(shù)據(jù)中心中提供了顯著的額外優(yōu)點(diǎn):節(jié)省更多的電能,達(dá)到局部平衡,提高熱安全性。