如何衡量數(shù)據(jù)中心的高可用及容災(zāi)水平

責(zé)任編輯:cres

作者:harbor

2017-01-11 09:01:12

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

數(shù)據(jù)中心的好與差有很多評(píng)判的方法,很多評(píng)價(jià)機(jī)構(gòu)都是將多方面的因素考慮進(jìn)來(lái),對(duì)每種因素進(jìn)行評(píng)分,再根據(jù)經(jīng)驗(yàn)對(duì)每種因素給定權(quán)重,最終得出數(shù)據(jù)中心的評(píng)價(jià)結(jié)果,按照預(yù)先定義的數(shù)據(jù)中心等級(jí),根據(jù)評(píng)價(jià)結(jié)果給數(shù)據(jù)中心定級(jí)。

數(shù)據(jù)中心的好與差有很多評(píng)判的方法,很多評(píng)價(jià)機(jī)構(gòu)都是將多方面的因素考慮進(jìn)來(lái),對(duì)每種因素進(jìn)行評(píng)分,再根據(jù)經(jīng)驗(yàn)對(duì)每種因素給定權(quán)重,最終得出數(shù)據(jù)中心的評(píng)價(jià)結(jié)果,按照預(yù)先定義的數(shù)據(jù)中心等級(jí),根據(jù)評(píng)價(jià)結(jié)果給數(shù)據(jù)中心定級(jí)。不少的數(shù)據(jù)中心評(píng)價(jià)機(jī)構(gòu)盡量保證數(shù)據(jù)的真實(shí)性和權(quán)威性,一定要將數(shù)據(jù)中心分個(gè)三六九等,這其中就有兩項(xiàng)非常重要的參數(shù),就是一個(gè)數(shù)據(jù)中心的高可用性和數(shù)據(jù)中心的容災(zāi)能力。往往這兩項(xiàng)會(huì)在整個(gè)數(shù)據(jù)中心評(píng)價(jià)中占據(jù)相當(dāng)大的權(quán)重,很多數(shù)據(jù)中心在建設(shè)時(shí)考慮最多的也是這兩個(gè)方面。下面就展開(kāi)來(lái)談?wù)劯呖捎眯约叭轂?zāi)。
 
何為高可用性?是指在規(guī)定的條件和規(guī)定的時(shí)刻或時(shí)間區(qū)間內(nèi),數(shù)據(jù)中心處于可執(zhí)行規(guī)定功能狀態(tài)的能力,它是數(shù)據(jù)中心可靠性、可維修性及可維護(hù)性的綜合體現(xiàn),一般用MTBF(mean time between failure)和MTTR(mean time to repair)兩個(gè)可量化的參數(shù)衡量。容災(zāi)就是容忍災(zāi)難,即在災(zāi)難襲來(lái)時(shí)從容不迫,應(yīng)付自如。對(duì)于數(shù)據(jù)中心來(lái)說(shuō),容災(zāi)就是使一個(gè)數(shù)據(jù)中心具有應(yīng)對(duì)一定災(zāi)難襲擊,保持系統(tǒng)持續(xù)或不間斷運(yùn)行的能力。這些災(zāi)難包括天災(zāi)(水災(zāi)、火災(zāi)、地震、龍卷風(fēng)、海嘯、環(huán)境惡化)和人禍(操作失誤、程序缺陷、軟件錯(cuò)誤或故障、硬件老化或次品、蓄意破壞、病毒、黑客攻擊、恐怖襲擊、戰(zhàn)爭(zhēng))。衡量一個(gè)數(shù)據(jù)中心的高可用性以及容災(zāi)的水平,應(yīng)該考慮三方面的內(nèi)容。
 
靈活的流量管控
 
數(shù)據(jù)流量是數(shù)據(jù)中心的生命線,一旦流量轉(zhuǎn)發(fā)不了或者有缺失對(duì)應(yīng)用肯定會(huì)有影響,所以數(shù)據(jù)中心一定要保證數(shù)據(jù)不能丟失。然而,數(shù)據(jù)中心擁有的各種設(shè)備成千上萬(wàn),不可避免會(huì)出這樣那樣的問(wèn)題,要保證數(shù)據(jù)流量不受影響,就需要對(duì)流量進(jìn)行靈活管控。首先要對(duì)數(shù)據(jù)流量進(jìn)行監(jiān)控,實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)重要端口數(shù)據(jù)流量的變化,當(dāng)出現(xiàn)明顯的波動(dòng)時(shí)要引起高度注意;其次要有管控手段,當(dāng)出現(xiàn)流量異常時(shí),通過(guò)調(diào)整網(wǎng)絡(luò)路由或者網(wǎng)絡(luò)聚合端口路徑,避開(kāi)問(wèn)題鏈路和轉(zhuǎn)發(fā)路由表,讓?xiě)?yīng)用業(yè)務(wù)不受影響。很多的數(shù)據(jù)中心會(huì)考慮在網(wǎng)絡(luò)側(cè)做轉(zhuǎn)發(fā)路徑的負(fù)載分擔(dān)或者備份,當(dāng)其中的部分?jǐn)?shù)據(jù)鏈路出問(wèn)題時(shí),及時(shí)切換;最后是嚴(yán)格過(guò)濾數(shù)據(jù)流量,避免異常流量入侵,對(duì)數(shù)據(jù)中心造成攻擊。很多的病毒攻擊都是通過(guò)異常流量進(jìn)入數(shù)據(jù)中心內(nèi)部的,最終造成系統(tǒng)的癱瘓,所以在數(shù)據(jù)中心的入口要做嚴(yán)格管控,從網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)鏈路層直到應(yīng)用會(huì)話層均要做防御,通過(guò)防火墻、網(wǎng)絡(luò)設(shè)備、入侵檢測(cè)等設(shè)備,將異常流量拒之門(mén)外。所有這些靈活的流量管控方法,將大大提升數(shù)據(jù)中心的高可用性。
 
單元化的業(yè)務(wù)部署
 
傳統(tǒng)數(shù)據(jù)中心業(yè)務(wù)量少,往往通過(guò)一個(gè)數(shù)據(jù)機(jī)房的數(shù)十臺(tái)服務(wù)器和存儲(chǔ)設(shè)備就可以搞定,系統(tǒng)一旦出現(xiàn)故障,很多數(shù)據(jù)也就可能丟失了。然而,現(xiàn)在隨著信息數(shù)據(jù)對(duì)人們的工作和生活變得至關(guān)重要,數(shù)據(jù)信息變得異常珍貴。數(shù)據(jù)中心動(dòng)不動(dòng)就將很多數(shù)據(jù)丟失或者泄露的話是沒(méi)法玩的,遲早關(guān)門(mén)大吉。而且,現(xiàn)在的數(shù)據(jù)增長(zhǎng)飛快,海量的數(shù)據(jù)需要及時(shí)處理和保存,不能出差錯(cuò),這時(shí)就要從數(shù)據(jù)層面考慮如何部署。數(shù)據(jù)中心引入了單元化的設(shè)計(jì)思想,即將一種數(shù)據(jù)業(yè)務(wù)進(jìn)行細(xì)分,形成一個(gè)個(gè)的單元,這個(gè)單元往往處于一個(gè)數(shù)據(jù)中心之內(nèi),而具有相同數(shù)據(jù)的單元處于其它機(jī)房或數(shù)據(jù)中心中,單元之間的數(shù)據(jù)通過(guò)實(shí)時(shí)交互,保持?jǐn)?shù)據(jù)準(zhǔn)確性。數(shù)據(jù)中心進(jìn)行單元化業(yè)務(wù)部署之后,應(yīng)用系統(tǒng)實(shí)際上在多個(gè)數(shù)據(jù)中心上都在運(yùn)行,數(shù)據(jù)被存放到各個(gè)數(shù)據(jù)中心內(nèi),在每個(gè)數(shù)據(jù)中心內(nèi)部到處也都是單元化的功能模塊,相互之間耦合的地方很少,這樣同樣可以大幅提升數(shù)據(jù)中心的高可用性。
 
故障容忍能力
 
數(shù)據(jù)中心對(duì)業(yè)務(wù)故障的容忍能力決定了數(shù)據(jù)中心的建設(shè)等級(jí),要求數(shù)據(jù)中心全年故障時(shí)間越短的數(shù)據(jù)中心等級(jí)越高。提升一個(gè)數(shù)據(jù)中心的故障容忍度,將是數(shù)據(jù)中心容災(zāi)高能力的體現(xiàn)。數(shù)據(jù)中心可以在三個(gè)地方做容災(zāi):一個(gè)是數(shù)據(jù)中心內(nèi)部。數(shù)據(jù)中心內(nèi)部在服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)方面做各種冗余設(shè)計(jì),達(dá)到容災(zāi)目的,當(dāng)其中某個(gè)環(huán)節(jié)出現(xiàn)故障,自動(dòng)進(jìn)行業(yè)務(wù)切換,確保業(yè)務(wù)層面不受影響,當(dāng)將故障排除后,再將業(yè)務(wù)切回。第二個(gè)是同城的數(shù)據(jù)中心。有些時(shí)候數(shù)據(jù)中心遇到的可能是整體性的故障,比如供電中斷或者空調(diào)故障等,導(dǎo)致整個(gè)數(shù)據(jù)中心無(wú)法穩(wěn)定運(yùn)行,這時(shí)就可以將業(yè)務(wù)通過(guò)調(diào)整路由,轉(zhuǎn)移到同城的數(shù)據(jù)中心上。在同城的數(shù)據(jù)中心里有故障之前備份過(guò)來(lái)的數(shù)據(jù),有相同的應(yīng)用軟件提供,同城數(shù)據(jù)中心直接接管系統(tǒng),向外提供服務(wù)。第三是異地?cái)?shù)據(jù)中心。有些時(shí)候故障可能是全城的范圍,比如遇到了極端天氣,比如地震、海嘯、洪水、颶風(fēng)等等,這些災(zāi)害將對(duì)某個(gè)地區(qū)的數(shù)據(jù)中心都造成影響,多個(gè)數(shù)據(jù)中心都可能陷入癱瘓之中,這時(shí)通過(guò)異地?cái)?shù)據(jù)中心做災(zāi)備最安全。不過(guò),由于數(shù)據(jù)中心在異地,有的設(shè)計(jì)為了安全,距離可達(dá)數(shù)萬(wàn)公里,這樣網(wǎng)絡(luò)延遲對(duì)業(yè)務(wù)就會(huì)產(chǎn)生影響,所以做異地災(zāi)備時(shí),要將延遲時(shí)間考慮進(jìn)去。比如一些數(shù)據(jù)庫(kù)數(shù)據(jù)做異地復(fù)制,可忍受的時(shí)效性延遲是3秒。在做異地災(zāi)備時(shí),就要考慮延遲時(shí)間是否滿足。通過(guò)在數(shù)據(jù)中心內(nèi)部,同城和異地都部署備份,這將大大提升數(shù)據(jù)中心的容災(zāi)水平。
 
數(shù)據(jù)中心通過(guò)以上三方面的建設(shè)和優(yōu)化,將可大幅提升數(shù)據(jù)中心的高可用性及容災(zāi)水平,這是提升數(shù)據(jù)中心等級(jí)水平的最有效方式。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)