了解數(shù)據(jù)中心設(shè)計(jì)中的三大最重要的因素,有助于幫助您企業(yè)更順利的完成數(shù)據(jù)中心設(shè)計(jì)的起草過程。而將本文作為正確確定您企業(yè)數(shù)據(jù)中心業(yè)務(wù)需求的參考借鑒指南,則有助于您企業(yè)從一開始就得以最大限度地提高整體數(shù)據(jù)中心的性能,稍后的避免重大升級(jí)。
幾大基本因素推動(dòng)了數(shù)據(jù)中心的設(shè)計(jì)要求和成本。在制定預(yù)算和草擬數(shù)據(jù)中心的設(shè)計(jì)藍(lán)圖之前,需要對(duì)這幾大基本因素有相當(dāng)正確的把握。而如果不這樣做的話,很可能會(huì)導(dǎo)致數(shù)據(jù)中心正式投入運(yùn)營后的相關(guān)問題。
在數(shù)據(jù)中心已經(jīng)投入運(yùn)行后才來修復(fù)錯(cuò)誤是相當(dāng)具有挑戰(zhàn)性的,而且其成本代價(jià)昂貴,在操作上也具有一定的風(fēng)險(xiǎn)性。而如果企業(yè)數(shù)據(jù)中心的設(shè)計(jì)構(gòu)建團(tuán)隊(duì)能夠在開始階段就參考了本文作為其數(shù)據(jù)中心設(shè)計(jì)指南,以正確的確定需求,并且其設(shè)計(jì)符合現(xiàn)代行業(yè)標(biāo)準(zhǔn)和實(shí)踐方案的話,則在數(shù)據(jù)中心建成運(yùn)營后的多年內(nèi)都不必實(shí)施重大升級(jí)。
在數(shù)據(jù)中心的設(shè)計(jì)中:三大最重要的因素分別是可靠性水平、增長潛力(包括正面或負(fù)面的)以及硬件流失率或更新率。
確定真正的IT可靠性需求
企業(yè)的每一名員工都認(rèn)為他們各自所操作運(yùn)營的系統(tǒng)和應(yīng)用程序是關(guān)鍵性任務(wù),但實(shí)際的衡量措施則是,如果他們的系統(tǒng)和應(yīng)用程序在任何時(shí)間發(fā)生停機(jī)中斷,會(huì)給企業(yè)組織帶來怎樣的后果。如:系統(tǒng)的停運(yùn)可能讓企業(yè)暴露于安全性隱患中,甚至造成員工生命財(cái)產(chǎn)或企業(yè)的一些其他資產(chǎn)面臨嚴(yán)重的風(fēng)險(xiǎn),或者也可以拿企業(yè)或?qū)⒚媾R的財(cái)務(wù)和聲譽(yù)方面的損失來進(jìn)行衡量。
停機(jī)中斷的影響應(yīng)該基于其持續(xù)時(shí)長進(jìn)行量化:十五分鐘,半小時(shí),一小時(shí),兩小時(shí),四小時(shí),八小時(shí)或更長時(shí)間。這警告數(shù)據(jù)中心的設(shè)計(jì)師們要在數(shù)據(jù)中心的設(shè)計(jì)中包括多少冗余,并允許企業(yè)組織能夠?qū)⒖煽啃猿杀九c潛在風(fēng)險(xiǎn)進(jìn)行比較。
通常,遵循Uptime Institute的Tier IV嚴(yán)格正常運(yùn)行時(shí)間水平的操作運(yùn)營人員們并沒有完全理解這在數(shù)據(jù)中心的設(shè)計(jì)復(fù)雜程度、資本成本和運(yùn)營支持方面到底意味著什么。在大規(guī)模的數(shù)據(jù)中心,Tier IV是合理的,但其對(duì)于整個(gè)數(shù)據(jù)中心的操作運(yùn)營空間而言可能不是必要的。考慮將設(shè)施分區(qū),具有較不重要的功能的設(shè)施通常在Tier III或甚至Tier II區(qū)域中。
在進(jìn)行任何設(shè)計(jì)之前,對(duì)于系統(tǒng)的關(guān)鍵性逐一進(jìn)行現(xiàn)實(shí)性的評(píng)估,應(yīng)該是實(shí)施任何數(shù)據(jù)中心設(shè)計(jì)的第一步。有了這些信息,并了解了驅(qū)使數(shù)據(jù)中心相關(guān)系統(tǒng)進(jìn)行實(shí)際分類的要素,才有助于數(shù)據(jù)中心設(shè)計(jì)師們確定最合適的且符合成本效益的設(shè)計(jì)建造方法。
即使該設(shè)施的設(shè)計(jì)具有統(tǒng)一的冗余和可靠性目標(biāo),但圍繞著正常運(yùn)行時(shí)間做出設(shè)計(jì)決定的過程將幫助優(yōu)先考慮哪些系統(tǒng)在實(shí)施主要中斷恢復(fù)過程中的需要得到重點(diǎn)注意。
與增長預(yù)測(cè)的相關(guān)問題
盡管云服務(wù)為數(shù)據(jù)中心新機(jī)柜的空間不足的難題帶來了一定的緩解,但許多企業(yè)組織仍然需要保持對(duì)于其關(guān)鍵計(jì)算的直接控制。數(shù)據(jù)中心規(guī)劃指南應(yīng)包括現(xiàn)場(chǎng)搬遷和增量增長等方面的注意事項(xiàng)。在經(jīng)歷了服務(wù)提供商的成本和/或性能問題困擾后,部分企業(yè)組織又開始逐步將操作運(yùn)營撤回到自己的數(shù)據(jù)中心。
而使得預(yù)測(cè)變得更加具有挑戰(zhàn)性的是,功率、熱負(fù)載和空間經(jīng)常會(huì)獨(dú)立增長,即使IT設(shè)備機(jī)柜數(shù)量下降了。較小的IT硬件通常意味著垂直規(guī)模的減小,但這通常使硬件更深?,F(xiàn)在,標(biāo)準(zhǔn)高度機(jī)柜的深度必須為42英寸至48英寸(1060至1200毫米),而不是傳統(tǒng)的36英寸(900毫米)。數(shù)據(jù)中心需要更寬的通道用于在機(jī)架和設(shè)備中操作?,F(xiàn)在的機(jī)柜比傳統(tǒng)機(jī)柜寬24英寸(600毫米),以適應(yīng)電纜密度的增加,以及雙電源板和電源線的增加,并且不會(huì)阻塞排氣空氣流量。當(dāng)前,整個(gè)數(shù)據(jù)中心業(yè)界所推薦的標(biāo)準(zhǔn)是30英寸(760毫米)寬。即使機(jī)柜數(shù)量實(shí)際并沒有增長,機(jī)柜深度和寬度組合的增加也將需要更多的占地面積。
打包到機(jī)柜中的IT硬件越多,以及從每款設(shè)備中所獲得的性能越高,就將需要消耗越多的功率,同時(shí)也就會(huì)有越多的熱密度需要越多冷卻處理。虛擬化和整合是數(shù)據(jù)中心這一設(shè)計(jì)指南變革背后的主要驅(qū)動(dòng)力。密集操作需要更多空間用于不間斷電源,配電單元和空調(diào)設(shè)備,其中大部分現(xiàn)在都安裝在設(shè)備機(jī)架行內(nèi)。即使新建的方法不會(huì)增加總的建筑面積要求,但物理布局也將如此。
在進(jìn)行兼并和收購的公司,以及突然獲得資助將主要計(jì)算系統(tǒng)注入設(shè)施的研究企業(yè)組織中,增長尤其難以預(yù)測(cè)。
在未來幾年里,不會(huì)有真正準(zhǔn)確的增長性預(yù)測(cè),但是對(duì)概率的實(shí)際評(píng)估將支持多年來支持模塊化設(shè)計(jì)的彈性規(guī)?;s放。這種靈活性是衡量一處成功的現(xiàn)代數(shù)據(jù)中心設(shè)計(jì)的真正措施。
由于硬件的高流失更新率,一些企業(yè)組織開始維護(hù)自有的數(shù)據(jù)中心。而為了保持最佳的競爭性能,金融機(jī)構(gòu)具有短的硬件更新周期。學(xué)術(shù)研究機(jī)構(gòu)的大型研究系統(tǒng)的更新周期則沒有那么頻繁。任何企業(yè)組織機(jī)構(gòu)都可能由于各種原因而迅速變化細(xì)分。高速率的硬件流失更新需要數(shù)據(jù)中心快速和便捷地調(diào)整容量,這通常是一個(gè)人工手動(dòng)的任務(wù)。操作運(yùn)營空間、電力功率和冷卻 需求的大規(guī)模且頻繁波動(dòng)增加了主機(jī)設(shè)施的費(fèi)用賬單。
數(shù)據(jù)中心的硬件流失更新率很容易基于其操作運(yùn)營歷史實(shí)施量化。這一信息顯著影響了數(shù)據(jù)中心設(shè)計(jì)中內(nèi)置的靈活性程度。運(yùn)營操作人員需要及時(shí)獲取更新信息,以支持不斷變化的計(jì)算需求,保持能源效率并最小化能源成本。
電源功率和熱負(fù)載
一旦設(shè)計(jì)人員遵循設(shè)計(jì)指南了解了基本要求,就可以從電源功率和熱負(fù)荷開始來建立實(shí)際參數(shù)了。
避免操作空間每平方英尺過度的功率分配——今天的數(shù)據(jù)中心在整個(gè)空間都是統(tǒng)一的。按照平均值進(jìn)行設(shè)計(jì)在一些地方會(huì)產(chǎn)生容量不足的情況,而在其他一些地方則又會(huì)造成過度配置,以及如果整個(gè)設(shè)施裝備有最大預(yù)計(jì)負(fù)載,則又會(huì)造成不必要的成本消耗。
按機(jī)柜開發(fā)負(fù)載估計(jì)?,F(xiàn)有的機(jī)柜負(fù)載很容易從智能電源板或通過電工的鉗位儀表上獲得。來自鉗位儀表的電路負(fù)載測(cè)量是瞬時(shí)的,并且不是隨時(shí)間的推移獲得的平均值,但仍然提供了相對(duì)的機(jī)柜工作狀況的良好指示,設(shè)計(jì)者可以從中進(jìn)行規(guī)模大小的判斷。
建筑物的影響
數(shù)據(jù)中心建筑在您可以接近理想的數(shù)據(jù)中心設(shè)計(jì)的距離方面起著不可避免的作用。即使是綠色環(huán)保的建筑也有其實(shí)際的限制。但是,當(dāng)您必須使用現(xiàn)有的結(jié)構(gòu)時(shí),建筑條件往往會(huì)對(duì)設(shè)計(jì)和成本造成嚴(yán)重的破壞?,F(xiàn)有機(jī)柜列中斷了機(jī)柜行,導(dǎo)致空間布局效率低下。不規(guī)則的墻壁塑造了布局,降低了地板空間的效率。樓板可能需要結(jié)構(gòu)加固,或需要更寬間距的機(jī)柜行來分散負(fù)載。板到板的高度可能不允許升高的地板以輸送空氣。操作機(jī)房的高度決定了設(shè)計(jì)是否可以使用回風(fēng)室,或者是否有足夠的空間來安裝協(xié)調(diào)的架空基礎(chǔ)設(shè)施。如果沒有高架地板,電源,電纜橋架,冷卻和照明管道都會(huì)產(chǎn)生開銷——甚至可能會(huì)產(chǎn)生沖突。數(shù)據(jù)中心的窗戶是一個(gè)主要問題,應(yīng)該在數(shù)據(jù)中心建筑規(guī)范中刪除或覆蓋。貨運(yùn)電梯通道必須是強(qiáng)制性的,因?yàn)槠涫前徇w移動(dòng)昂貴設(shè)備而不會(huì)遇到陡峭的樓梯或尖銳墻角障礙的明確路徑。當(dāng)然,除非數(shù)據(jù)中心建筑物具有足夠的電力,并能夠獲得通用運(yùn)營商的通信支持,否則其成本將飆升,而設(shè)計(jì)方面所帶來成本優(yōu)勢(shì)將永遠(yuǎn)是有限的。
數(shù)據(jù)中心必須始終有空間以用于冷卻塔,熱交換器和發(fā)電機(jī)。這些大的設(shè)備單位也會(huì)產(chǎn)生噪音,設(shè)計(jì)師必須采取相應(yīng)的措施,以確保這些噪音不打擾到在建筑物或近鄰的人員。
數(shù)據(jù)中心的設(shè)計(jì)沒有一刀切的解決方案。甚至容器集裝箱化的模塊在一定程度上也是定制的。但對(duì)于企業(yè)專門建立的數(shù)據(jù)中心而言,大型投資應(yīng)該特別進(jìn)行慎重的考慮。在建立預(yù)算,確保正式破土動(dòng)工之前,務(wù)必遵循此數(shù)據(jù)中心設(shè)計(jì)指南。
新的數(shù)據(jù)中心指標(biāo)衡量能源,冷卻效率
新的數(shù)據(jù)中心指標(biāo)超越了電源使用效率的范疇,以確定基礎(chǔ)設(shè)施的總體效率,注重能源和冷卻。盡管電源使用效率指標(biāo)具有其優(yōu)勢(shì),但并不總是足以完全優(yōu)化數(shù)據(jù)中心的效率。IT團(tuán)隊(duì)需要更詳細(xì)的數(shù)據(jù)中心指標(biāo),包括電源和冷卻基礎(chǔ)設(shè)施以及計(jì)算系統(tǒng),以真正優(yōu)化數(shù)據(jù)中心。 作為朝著這個(gè)方向所邁出的一步,美國環(huán)境保護(hù)局在2007年發(fā)表了一份關(guān)于數(shù)據(jù)中心效率的報(bào)告,宣布了他們開發(fā)服務(wù)器能源之星評(píng)級(jí)的意圖——他們也確實(shí)這樣做了,盡管比預(yù)期晚了幾年。綠色網(wǎng)格組織在2010年發(fā)布了水使用效率和碳使用效率指標(biāo),雖然他們得到的關(guān)注度相對(duì)較少。在2016年六月,綠色網(wǎng)格組織宣布推出了性能指標(biāo)(PI),一個(gè)著眼于冷卻標(biāo)準(zhǔn)的指標(biāo),并把它與能源效率進(jìn)行整合。我們正在被大量數(shù)據(jù)中心的性能和效率指標(biāo)所淹沒,但對(duì)于大多數(shù)IT團(tuán)隊(duì)而言——即使對(duì)他們的電力使用效率(PUE)實(shí)施了定期跟蹤——仍然需要采取更先進(jìn)的數(shù)據(jù)采集和分析能力的相關(guān)度量步驟。對(duì)于那些準(zhǔn)備使用更復(fù)雜的優(yōu)化工具的企業(yè)而言,有一些關(guān)鍵性的考慮因素。
擴(kuò)展數(shù)據(jù)中心度量的目的
通過關(guān)閉閑置僵尸服務(wù)器、整合和虛擬化的應(yīng)用程序或購買能源之星評(píng)級(jí)的硬件來節(jié)約能源是很常見的。但是,除非電力和冷卻基礎(chǔ)設(shè)施也進(jìn)行了優(yōu)化,否則減少現(xiàn)有系統(tǒng)的負(fù)荷可能是非常困難的,并且將不會(huì)顯著提高能源效率。這意味著PUE會(huì)變得更糟。通過使用PUE作為基準(zhǔn),而不是跟蹤度量,可能看起來好像沒有節(jié)省能源,相關(guān)的投資和努力也是不值得的。企業(yè)的管理層預(yù)期他們的投資產(chǎn)生了一個(gè)較低的PUE,而對(duì)這個(gè)數(shù)字實(shí)際上意味著什么并沒有很好的理解。
而這就是其他數(shù)據(jù)中心衡量指標(biāo)的價(jià)值所在了,例如綠色網(wǎng)格組織的數(shù)據(jù)中心能源生產(chǎn)力(DCeP)。 DCeP量化的是數(shù)據(jù)中心實(shí)際產(chǎn)生的有用的工作負(fù)載所消耗的能量瓦特?cái)?shù)。DCeP度量允許用戶建立其有用的工作負(fù)載的定義。例如,在線搜索公司可能 將其有用的工作負(fù)載定義為完成的搜索數(shù)。而對(duì)于零售商而言,這可能是銷售的數(shù)量。 PUE仍然是必要的,但DCeP數(shù)字可能更容易被經(jīng)驗(yàn)較少的人們所理解。雖然DCeP不是科學(xué)上準(zhǔn)確的指標(biāo),但其提供了一種方法來量化您使用的能量所實(shí)現(xiàn)的實(shí)際效果。如果一組服務(wù)器幾乎沒有工作并且大多數(shù)時(shí)間都處在閑置狀態(tài),則它消耗最少的能量,需要最小的冷卻并且不會(huì)顯著影響PUE。但其仍然會(huì)消耗一定的能源。DCeP將對(duì)這一消耗進(jìn)行顯示;其目標(biāo)是最小化能量消耗并最大化有用的工作。對(duì)于處于領(lǐng)先地位的企業(yè)組織機(jī)構(gòu)來說,想要在他們所使用的每一瓦特功率中都能夠?qū)崿F(xiàn)真正有用的生產(chǎn)性計(jì)算,復(fù)雜的服務(wù)器可以提供遠(yuǎn)遠(yuǎn)超出CPU利用率的操作數(shù)據(jù),而更復(fù)雜數(shù)據(jù)中心指標(biāo)則可以跟蹤結(jié)果。
但PUE和DCeP仍然是關(guān)注于能源效率和能源消耗減少的。使用它們可能會(huì)產(chǎn)生無法識(shí)別的后果,因?yàn)樗鼈儾粫?huì)顯示為了節(jié)省能量而做出的損害數(shù)據(jù)中心設(shè)備冷卻和可靠性的負(fù)面影響。新的PI度量標(biāo)準(zhǔn),對(duì)于具有超過一般數(shù)據(jù)收集技能、以及優(yōu)化其操作的每個(gè)方面的能力的管理人員們最為有用。
PI測(cè)量的四個(gè)級(jí)別
有四個(gè)級(jí)別的PI測(cè)量。1級(jí)是基本的,不需要使用復(fù)雜的設(shè)備。2級(jí)需要更徹底和準(zhǔn)確的測(cè)量。3級(jí)和4級(jí)增加了計(jì)算流體動(dòng)力學(xué)(CFD)空氣流模擬,以提供性能的視覺圖像,并且能假設(shè)場(chǎng)景,觀察未來的能力和故障模式以及能量效率。 3級(jí)是正常建模。4級(jí)使用實(shí)際的詳細(xì)測(cè)量來校準(zhǔn)CFD模型,作為其他檢查的準(zhǔn)確基線。
使用擴(kuò)展數(shù)據(jù)中心度量標(biāo)準(zhǔn)(如PI和DCeP)有三個(gè)要求:
1)跟蹤PUE;
2)定義在計(jì)算操作中什么工作構(gòu)成有用的工作負(fù)載;
3)獲得對(duì)于每臺(tái)機(jī)架所消耗功率和溫度的詳細(xì)測(cè)量。
PI通過組合PUE、IT熱依從性和IT熱適應(yīng)性來補(bǔ)充現(xiàn)有方法。后兩者分別基于ASHRAE推薦的和允許的熱封套。熱適應(yīng)性和彈性檢查冗余冷卻在正常和異常條件下的工作狀況。如果必須降低計(jì)算機(jī)機(jī)房的空調(diào)空氣溫度以滿足熱合規(guī)目標(biāo),則PUE可能增加。 PI度量的要點(diǎn)是知道硬件被冷卻的可靠性、設(shè)施的能效如何、以及一個(gè)條件如何影響另一個(gè)條件。決定距離想要達(dá)到的操作的最大值的接近程度,以及要所達(dá)到能效目標(biāo)或PUE的目標(biāo)。然后,測(cè)量實(shí)際條件,并將它們繪制在三角形圖表(也稱為蜘蛛圖)上,看看它們與您企業(yè)的目標(biāo)有多接近。
圖1、蜘蛛圖是一種考慮多個(gè)指標(biāo)以確定與目標(biāo)的接近程度的方法。
現(xiàn)在,有幾種數(shù)據(jù)中心的指標(biāo),以最大限度地提高整體數(shù)據(jù)中心的能源效率方面的工作,包括每單位能量消耗的輸出和相對(duì)于能源效率的可靠性。對(duì)于大多數(shù)操作而言,堅(jiān)持基本原理和跟蹤電源使用效率仍然是優(yōu)先事項(xiàng)。其他的指標(biāo)也可以適當(dāng)跟蹤,但PUE仍然是基礎(chǔ)。即使您企業(yè)還沒有準(zhǔn)備好采取更為深層次的措施,但還是要了解并知道行業(yè)正在提出什么建議——如果您企業(yè)已經(jīng)確立了自己的相關(guān)節(jié)能目標(biāo)的話。