如今的數(shù)據(jù)中心已經(jīng)承載著太多的重要業(yè)務(wù),人們的生活早已經(jīng)離不開(kāi)數(shù)據(jù)中心,它已經(jīng)成為了人們生活的一部分,一旦數(shù)據(jù)中心發(fā)生故障將給人們帶來(lái)很多不便和經(jīng)濟(jì)損失。因?yàn)槊慨?dāng)數(shù)據(jù)中心發(fā)生故障后,既然可以通過(guò)一些歷史記錄去還原故障的發(fā)生原貌,對(duì)數(shù)據(jù)中心的未來(lái)發(fā)展建設(shè)都會(huì)很有借鑒意義。
絕大多數(shù)的數(shù)據(jù)中心都是運(yùn)行在固定的建筑當(dāng)中,不過(guò)也有一些可以移動(dòng)的數(shù)據(jù)中心,這些移動(dòng)的數(shù)據(jù)中心在工作時(shí)也基本是在固定的位置,這就和飛機(jī)有最大的不同。飛機(jī)發(fā)生墜毀一切設(shè)備都無(wú)法再繼續(xù)工作,現(xiàn)場(chǎng)也會(huì)被破壞,而數(shù)據(jù)中心是在固定的位置,故障現(xiàn)場(chǎng)依然可以被很好地保留著,這就為故障分析提供了很好的參考依據(jù)。從以往數(shù)據(jù)中心發(fā)生的故障來(lái)看,主要有三類:自然災(zāi)害;人為故障;設(shè)備故障,這三個(gè)方面。90%以上的故障都來(lái)自于這三個(gè)方面。
對(duì)于地震、火災(zāi)、雷擊等天然災(zāi)害,從故障現(xiàn)場(chǎng)的受損情況就可以分析出來(lái)。比如雷擊,會(huì)產(chǎn)生強(qiáng)大的沖擊電流,打到設(shè)備上,就會(huì)引起設(shè)備器件短路,產(chǎn)生瞬間的高壓,使電路急劇生溫,輕微的可引起設(shè)備短路故障,嚴(yán)重的還能引起火災(zāi)。對(duì)于這些自然災(zāi)害,數(shù)據(jù)中心也有很多的技術(shù)手段可以最大程度上避免災(zāi)害的發(fā)生,針對(duì)每一種自然災(zāi)害數(shù)據(jù)中心都需要加以重視,才能躲避開(kāi)這些自然災(zāi)害。比如增加機(jī)柜和機(jī)房地面的固定螺絲,安裝避雷針,增加放火報(bào)警系統(tǒng)和防火器材。當(dāng)出現(xiàn)這些自然災(zāi)害時(shí),減少對(duì)數(shù)據(jù)中心的沖擊。
人為故障占到了數(shù)據(jù)中心的故障中的70%,其中也可以分為有意的和無(wú)意的。有意的是指明知道一些操作會(huì)造成數(shù)據(jù)中心故障,仍執(zhí)意去做的,這些人往往希望通過(guò)造成數(shù)據(jù)中心運(yùn)行癱瘓,而達(dá)到不可告人的目的。常見(jiàn)的有黑客、情報(bào)人員、商業(yè)機(jī)密小偷等等,他們攻擊的對(duì)象往往是數(shù)據(jù)中心里的數(shù)據(jù),通過(guò)造成數(shù)據(jù)中心故障來(lái)達(dá)到竊取或損壞數(shù)據(jù)的目的。無(wú)意的是指本意并不想破壞數(shù)據(jù)中心,但是由于自己的技術(shù)積累經(jīng)驗(yàn)不夠或者疏忽,自己的操作引發(fā)了數(shù)據(jù)中心故障,這種故障占到了人為故障的80%以上。數(shù)據(jù)中心是一個(gè)復(fù)雜龐大的系統(tǒng),不可能一個(gè)人面面俱到都精通,當(dāng)接觸到自己不熟悉或不了解的地方,操作往往引發(fā)意想不到的結(jié)果,因此加強(qiáng)對(duì)人的管理尤為重要。在對(duì)數(shù)據(jù)中心做任何調(diào)整時(shí),都要從全局考慮,集中最優(yōu)秀的技術(shù)人員,將人為操作風(fēng)險(xiǎn)降低。這類事故往往也很容易留下證據(jù)記錄,給事故分析帶來(lái)方便。幾乎所有的數(shù)據(jù)中心都有門禁系統(tǒng)、視頻監(jiān)控系統(tǒng),任何人的出入都有記錄,很容易查到。有不少的數(shù)據(jù)中心提供遠(yuǎn)程的訪問(wèn),那么所有的訪問(wèn)操作在數(shù)據(jù)中心后臺(tái)數(shù)據(jù)中心都有記錄,訪問(wèn)者對(duì)數(shù)據(jù)中心業(yè)務(wù)調(diào)整、修改配置、甚至重起設(shè)備等任何操作都會(huì)記錄在案,只要數(shù)據(jù)中心不是全面的毀滅,這些記錄都會(huì)在后臺(tái)的數(shù)據(jù)庫(kù)中查到,通過(guò)記錄的時(shí)間和訪問(wèn)的人就可以查明人為事故的原因。
設(shè)備運(yùn)行故障也是數(shù)據(jù)中心故障的一類,大型的數(shù)據(jù)中心擁有數(shù)千臺(tái)設(shè)備很普遍,這些電子設(shè)備難免運(yùn)行中出現(xiàn)故障。一旦出現(xiàn)故障,就需要對(duì)設(shè)備進(jìn)行分析,很多現(xiàn)場(chǎng)操作人員并不具備分析問(wèn)題的能力,為了恢復(fù)業(yè)務(wù),只能重起設(shè)備,或者將業(yè)務(wù)切割到別的備份設(shè)備上。當(dāng)故障設(shè)備上沒(méi)有業(yè)務(wù)或者已經(jīng)重起了,其上很多時(shí)時(shí)記錄都會(huì)沖掉,這樣給故障分析帶來(lái)難度。很多時(shí)候故障的表現(xiàn)也并非集中在某一臺(tái)設(shè)備上,心急的操作人員可能將所有設(shè)備全部重啟或?qū)I(yè)務(wù)全部割離,如果設(shè)備能提供詳細(xì)的歷史記錄,那么對(duì)于故障分析非常有幫助。數(shù)據(jù)中心不怕出故障,怕的是出了故障后找不到原因,這相當(dāng)于給數(shù)據(jù)中心埋了一個(gè)定時(shí)炸彈。其實(shí)在很多高端設(shè)備上已經(jīng)增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時(shí)時(shí)記錄設(shè)備運(yùn)行的各種參數(shù),當(dāng)設(shè)備發(fā)生故障后,哪怕是設(shè)備發(fā)生了斷電,這些器件依然可以正常運(yùn)行,記錄下來(lái)設(shè)備運(yùn)行的各種參數(shù),這些數(shù)據(jù)往往是故障后分析參考的最重要數(shù)據(jù)來(lái)源。當(dāng)數(shù)據(jù)中心出現(xiàn)故障后,有的設(shè)備可以提供故障時(shí)設(shè)備運(yùn)行的各種數(shù)據(jù)參數(shù),非常具有說(shuō)服力,有時(shí)也是證明自己設(shè)備沒(méi)有問(wèn)題的重要信息,而一旦在故障后,一些設(shè)備沒(méi)有可分析的數(shù)據(jù)記錄,根本分不清是不是自己的問(wèn)題,這樣的設(shè)備很快就會(huì)被數(shù)據(jù)中心所棄用。如果通過(guò)數(shù)據(jù)分析是自己設(shè)備的問(wèn)題,那么設(shè)備商依然可以根據(jù)這些數(shù)據(jù)去優(yōu)化設(shè)備設(shè)計(jì),從而避免這類故障的再次發(fā)生,讓設(shè)備運(yùn)行更加穩(wěn)定。
數(shù)據(jù)中心也有各種各樣的監(jiān)控手段和歷史信息記錄,這些技術(shù)為數(shù)據(jù)中心的穩(wěn)定運(yùn)行提供了保障,也是不斷推動(dòng)數(shù)據(jù)中心完善的重要舉措。如同飛機(jī)上的黑匣子,數(shù)據(jù)中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時(shí)數(shù)據(jù)中心的完貌,通過(guò)對(duì)這些數(shù)據(jù)分析,不僅可以找到故障原因,還可以根據(jù)這些故障對(duì)數(shù)據(jù)中心進(jìn)行優(yōu)化,避免發(fā)生二次故障。