揭開彈性數(shù)據(jù)中心的神秘面紗

責任編輯:editor005

2017-10-13 14:13:23

摘自:中國IDC圈

當涉及到數(shù)據(jù)中心時, "彈性 "一詞可以定義為 "在面對環(huán)境極端以及人為錯誤或故意破壞的情況下維持ICT服務(wù)的能力 ",通常可以將更高水平的彈性設(shè)計成機械和電力基礎(chǔ)設(shè)施在成本上的溢價。

當涉及到數(shù)據(jù)中心時,"彈性"一詞可以定義為"在面對環(huán)境極端以及人為錯誤或故意破壞的情況下維持ICT服務(wù)的能力",通常可以將更高水平的彈性設(shè)計成機械和電力基礎(chǔ)設(shè)施在成本上的溢價。

Uptime Institute的數(shù)據(jù)中心的等級標準是廣泛用于衡量數(shù)據(jù)中心基礎(chǔ)架構(gòu)彈性的方法。然而根據(jù)研究,"人為錯誤"是數(shù)據(jù)中心中斷的主要原因,至少為70%。但即使這樣,可以通過冗余設(shè)計來提高可靠性。在每個總線中使用UPS的雙母線供電系統(tǒng)可以在很大程度上保護雙接線負載,防止電源故障,人為錯誤和無效的破壞,但即使如此,也一定要更加小心謹慎。

數(shù)字誤導(dǎo)用戶

當然,數(shù)據(jù)中心的用戶希望數(shù)據(jù)中心具有更高的可靠性和可用性,并且物有所值。那么,如何了解數(shù)據(jù)中心的可用性呢?以下兩個有些相互關(guān)聯(lián)的"指標":

"Uptime Institute(I-IV)"或"TIA-942"(I-IV)的"類型",BICSI的"評級"和EN50600的"可用性類"

可用性百分率,例如99.999%(所謂的"五個九")

除了指出,只有Uptime Institute可以給出一個等級,TIA-942和BICSI是最適用于北美的ANSI標準,EN50600還沒有被使用,人們可以將這些標準都概述成描述能力的四個級別"可維護性"和"容錯".這些原則是明確的,兼容的可維護性回答了一個問題,即建立一個非??煽浚赡苁怯袕椥缘模?shù)據(jù)中心,這個數(shù)據(jù)中心必須每年關(guān)閉一次以便維護?雖然容錯系統(tǒng)可能會有任何組件,路徑或空間"失敗",但卻不會影響ICT服務(wù)。

然而濫用最多的是可用性百分率,因為這很容易計算,但可以愚弄非專業(yè)的買方和用戶,使其造成誤解。其實要明確地表示可用性,只需要兩個數(shù)字就可以,MTBF(平均故障間隔時間,小時)和MTTR(平均修復(fù)時間,小時),只需將MTBF除以總時間( MTBF + MTTR)來表示可用性,再乘以100%,就是真正的可用性。

因此,擁有很長的MTBF和很短的MTTR可能會得可用性非常高的結(jié)果。不幸的是,MTBF和MTTR卻是營銷部門可以猜測的數(shù)字,如果他們使用這些數(shù)字來解釋。例如,企業(yè)可以通過假設(shè)客戶端具有豐富經(jīng)驗的工作人員和備件,并可在20分鐘內(nèi)修復(fù)UPS,UPS的可用性可以引用99.999%。然而真正的情況是,致電服務(wù)工程師上門維修,等待備件,重新投入使用之前進行測試(通常為一天或更長時間)。而假設(shè)MTBF為100,000小時(12年以下),而MTTR為20分鐘到12小時,這可以產(chǎn)生任何人們想要的結(jié)果。

第二個問題是故障事件的數(shù)量(多個MTTR求和)和MTBF的組合。舊版本的Uptime Institute白皮書(現(xiàn)已作廢)試圖將可用率與四個Tier等級相關(guān)聯(lián),但沒有定義測量時間。這導(dǎo)致了一個奇怪的情況,即Tier級別低的數(shù)據(jù)中心設(shè)施每年可以允許53分鐘的離線時間,但級別最高的的Tier IV級數(shù)據(jù)中心只能提供5.3分鐘。這很奇怪,然而如果每年發(fā)生一次的故障,這個對于TierI-Tier IV的任何級別的數(shù)據(jù)中心來說都是災(zāi)難。

不管怎樣,人們不要總是關(guān)注這個問題,而要考慮組合問題。這尤其影響到許多非常短暫的失敗。最簡單的說明方法,就是以人們的心臟跳動為例,某人的心臟是99.9%"可用",這聽起來還不錯,一年有3153600秒,0.01%代表著一年中可能30000次心跳停止跳動,如果某次時間較長,就會帶來生命危險,而如果它們在一年中平均分布,那么可能只是感覺不舒服。在數(shù)據(jù)中心的術(shù)語中,查看電源輸入提供給負載的電壓。許多現(xiàn)代的服務(wù)器無法承受10ms的電力中斷,而在6毫秒時,電力系統(tǒng)的可用性為99.9999999%,因此每年可能會產(chǎn)生三個10ms的故障。

那么該怎么辦呢?既然可用性是一個度量標準,只要它表達清晰,就沒有什么問題。例如,"10年以上測量的99.99%的可用性,單次故障持續(xù)不超過10小時"是MTBF(10年)和MTTR(10小時)的明確聲明。一些人可能已經(jīng)算出了答案,可用性將達到99.98859.但是現(xiàn)在人們可能會得出這樣一個觀點:MTBF比可用性更重要,人們需要采用MTBF來計算可用性在第一位。"單一失敗"卻避免了多個事件的求和。

當然,彈性數(shù)據(jù)中心的最終"失敗"可能是最容易實現(xiàn)的:并不是通過黑客互聯(lián)網(wǎng)入侵UPS,而是人為因素或故障關(guān)閉電源,提高服務(wù)器入口溫度,使其宕機。

彈性對于數(shù)據(jù)中心基礎(chǔ)管理和防止出現(xiàn)停機中斷都是至關(guān)重要的。即使是最好的設(shè)計和運營也可能會發(fā)生失敗。因此數(shù)據(jù)中心技術(shù)人員通過設(shè)計和測試來滿足運營商操作人員的需求,減少對停機中斷的恐懼,同時還可以提高工作人員管理維護數(shù)據(jù)中心,并提升對可用性的信心。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號