真實案例:數(shù)據(jù)中心能效治理經(jīng)驗分享

責任編輯:vivian

2011-11-10 08:59:11

摘自:51CTO

2005年,太平洋國家實驗室(Pacific Northwest National Laboratory,簡稱PHHL)的數(shù)據(jù)中心已經(jīng)到了最危急的時刻。

2005年,太平洋國家實驗室(Pacific Northwest National Laboratory,簡稱PHHL)的數(shù)據(jù)中心已經(jīng)到了最危急的時刻。

意外停電幾乎每周就發(fā)生一次,每次都害得數(shù)據(jù)中心停電幾小時。那時組織不斷地買機架服務器,結果數(shù)量越來越多。因為計算資源數(shù)量暴增,機架服務器在那時比較便宜——按數(shù)據(jù)中心服務經(jīng)理Ralph Wescott的話說是這樣。結果到了2005年,機房的容量已經(jīng)達到臨界點了。

Wescott說:“組織買了服務器,就直接丟給我安裝,但是機房已經(jīng)沒有空間了,電力和冷卻的容量也不夠用。如果再裝一臺服務器,恐怕機房得癱瘓。”

Wescott和PNNL開始著手進行一項計劃:在不打破預算的前提下,好好翻新一下數(shù)據(jù)中心。以后三年的每個季度,數(shù)據(jù)中心小組會花上一個周末,把機房關掉,淘汰掉一批舊的服務器,扔掉地板下交纏的網(wǎng)線,然后換成更高效更強大的服務器,這些服務器都是用天花板上更加簡潔的布線方式連接。這樣的新配置釋放了地板下的空間,以便進行更高效的制冷。

結果怎樣?PNNL以前在500個服務器上運行500個應用,現(xiàn)在150個服務器就能帶起800個應用。

分析公司IDC的程序主管Joseph Pucciarelli說,在經(jīng)濟緊張的士氣,對付這樣的IT計劃需要勒緊錢包。“這種情況很常見,公司只會給你剛剛夠用的資金,他們只想著問題能差不多解決就行。”

在這次PNNL從危機中脫險的事件中,我們學到了五點:

1、積極計劃,不要消極應對。Wescott首先需要解決的問題是糾正數(shù)據(jù)中心小組的習慣,因為他們總是在各個小問題發(fā)生了之后才一個個做出反應,而不是觀察系統(tǒng)的問題,然后做計劃,構建一個耐用的設備系統(tǒng)。除了500個服務器,他們的數(shù)據(jù)中心還有33000條線纜來給這些服務器通電、連網(wǎng),或者連接安全系統(tǒng)。

他說:“由我們決定數(shù)據(jù)中心的形態(tài)和容量該是怎么樣。”

小組推斷出,當前的軌道結構導致了3000個應用程序分別運行在各自服務器上,這種情況持續(xù)了十年。如今該數(shù)據(jù)中心81%的應用都虛擬化了(還有17%的服務器虛擬化),Wescott計劃向90%的應用程序虛擬化邁進。

Joseph Pucciarelli認為,公司若想增加容量,應當關注三個地方:減少物理服務器的數(shù)量;在虛擬系統(tǒng)運行應用來減少電力要求;使用更高效的制冷系統(tǒng)并改善配電。

“這是一個典型的三部曲,這樣就能升級數(shù)據(jù)中心。”

Pucciarelli見過很多公司把大約50個服務器換成2到3個更大容量的系統(tǒng),并且使用虛擬化來運行應用。

2、通過測量能耗來管理。Wescott建議管理者們需要想辦法監(jiān)控數(shù)據(jù)中心的狀態(tài),但是通常他們沒有正確的工具。在作出計劃改變之前,PNNL沒有測量數(shù)據(jù)中心能效的方法,等到停電了之后,才發(fā)現(xiàn)這些能源問題。

“如果電源中的安培數(shù)太多了,那我只能靠觸摸來感覺斷路開關,如果熱的話就有問題。所以還是得有監(jiān)控工具。”

現(xiàn)在PNNL在每四個機柜的低、中、高處放上傳感器,來創(chuàng)建一個3D的機房熱量圖。這樣Wescott就能根據(jù)數(shù)據(jù)改變制冷方針,提升總體溫度,對需要制冷的地方供冷。

“這下就能省下很多錢了,我的空調(diào)也會減少耗損。”Wescott說道,他還補充說,現(xiàn)在制冷方面能效估計比以前提升40%。

3、一小步一小步地進行。Wescott認為,首要的問題是從根本上重新配置數(shù)據(jù)中心,同時又不打斷正常運行。公司的經(jīng)理建議小步進行,減少停電的可能,但是同時又把問題拋給了手下。

“我給了管理層兩種提議,”他說:“一種是我們把關掉數(shù)據(jù)中心,整頓七天,然后從頭開始;另一種就是每個季度的某個周末,我們都停電整修一次。”

最后他們選了第二種提議,他們小組打算先替換一排服務器。在第一個周末三天的時間內(nèi),一個30人的團隊花了14個小時,把數(shù)據(jù)中心里面的一排服務器機架都替換完了,并測試了新的配置。Wescott發(fā)現(xiàn)數(shù)據(jù)中心的可靠性和穩(wěn)定性馬上提升了。

如果管理層不同意這樣做,放棄了計劃暫停這樣的正確方法,恐怕就會帶來突發(fā)的故障事件。Wescott打比方說:“你不能在船航行的時候修理底部,但如果不修的話船就要沉。”

所以答案顯而易見。

4、為了長遠利益,做好暫時損失的準備。管理層不能因為一時的花費而放棄長遠的利益。

Wescott的小組為了減少制冷系統(tǒng)的能源要求,于是估計了waterside economizer(利用水和外面的溫度來冷卻服務器的機架的儀器)。他們發(fā)現(xiàn)使用環(huán)繞制冷系統(tǒng)在長久上看要更加省電,而waterside economizer的制冷花費要比預算多10%。Wescott只好和供應商溝通,把花費減少到預算以內(nèi)。

5、找到你不知道的地方。在翻新數(shù)據(jù)中心的過程中,管理員需要知道哪些地方能源沒有消耗或者很少。其中常見的問題是數(shù)據(jù)中心里存在“流氓服務器”和“幽靈服務器”。

所謂幽靈服務器,就是配置好了但是一直沒使用的服務器。他們?nèi)匀怀阅茉?,卻不為數(shù)據(jù)中心工作。而流氓服務器則是一些人私下放在自己辦公室里的服務器,繞開了數(shù)據(jù)中心人員的約束。

Wescott說,這樣的服務器會浪費能源預算。

“本來得在晚上關掉的空調(diào),卻被流氓服務器利用而徹夜開著。”

經(jīng)過整頓,數(shù)據(jù)中心的能效有了較大進步。自從Wescott開始翻新設備之后,在數(shù)據(jù)中心只發(fā)生過一次意外斷電,那是因為天氣極熱,冷卻系統(tǒng)故障。Wescott知道,他的任務還將繼續(xù)。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號