防微杜漸 數(shù)據(jù)中心中問題無小事

責(zé)任編輯:sjia

2012-08-13 13:20:10

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

數(shù)據(jù)中心是很多復(fù)雜的高度相互關(guān)聯(lián)的系統(tǒng),需要許多不同的子系統(tǒng)功能都維持正常,才能確保設(shè)施可以提供服務(wù)。

數(shù)據(jù)中心是很多復(fù)雜的高度相互關(guān)聯(lián)的系統(tǒng),需要許多不同的子系統(tǒng)功能都維持正常,才能確保設(shè)施可以提供服務(wù)。不幸的是,往往一個(gè)看似微小的錯(cuò)誤往往會(huì)導(dǎo)致整個(gè)系統(tǒng)癱瘓。最近,維基百科的宕機(jī)是因?yàn)閿?shù)據(jù)中心的光纖被意外切斷,Twitter之前在奧運(yùn)會(huì)期間的中斷,是由于數(shù)據(jù)中心主系統(tǒng)和備份系統(tǒng)同時(shí)出現(xiàn)故障。

從中我們可以吸取的教訓(xùn)是,不僅僅是颶風(fēng)、地震、公共設(shè)施中斷、惡意攻擊會(huì)造成數(shù)據(jù)中心宕機(jī)。任何事情,包括一個(gè)相對(duì)較小的網(wǎng)卡故障,也可能會(huì)破壞您的數(shù)據(jù)中心。

因此,我們對(duì)待較小的程序中斷也需要像大型故障一樣慎重。在這兩種情況下,最關(guān)鍵的是做好充分的準(zhǔn)備,以減少業(yè)務(wù)損失。以下有一些建議。

把安全作為首要任務(wù)。通常數(shù)據(jù)中心宕機(jī)是由一些很煩人的,但是對(duì)人身安全無害的事件所引起。但是當(dāng)出現(xiàn)危險(xiǎn)情況時(shí)(比如裸露的電導(dǎo)體),必須確保安全第一。不要以人民幣的名義讓您的員工處在危險(xiǎn)中。另一方面,當(dāng)然,你也要知道什么時(shí)候是過度保護(hù)了,避免一些不必要的安全措施。關(guān)鍵是要找到正確的平衡點(diǎn),在盡量減少人員傷害的同時(shí)降低安全措施的成本。

未雨綢繆。這也許是最重要的一步。如果等到中斷發(fā)生了,才制定行動(dòng)計(jì)劃,那你已經(jīng)處在劣勢(shì)了。提前確定應(yīng)該聯(lián)系誰(應(yīng)該誰在現(xiàn)場(chǎng))。制定流程來確認(rèn)和解決這個(gè)問題。一份服務(wù)提供商的名單是需要準(zhǔn)備的,因?yàn)槟憧赡苄枰?lián)系他們以尋求幫助,比如冷卻裝置等系統(tǒng)出現(xiàn)故障。也許最重要的是,有條有理地整理所有這些信息,方便讓需要它的人能及時(shí)獲取。通過提前規(guī)劃,你可以更迅速地讓數(shù)據(jù)中心和業(yè)務(wù)再次運(yùn)行。

備份您的數(shù)據(jù)。對(duì)于大多數(shù)人來說,在大部分的時(shí)間里,保險(xiǎn)費(fèi)是討厭的費(fèi)用,看起來沒有任何回報(bào)。但是,當(dāng)災(zāi)難襲來時(shí),購(gòu)買的保險(xiǎn)就派上了用場(chǎng)。備份你的重要數(shù)據(jù)也是一樣的道理。在你沒有丟失數(shù)據(jù)之前,這似乎是在浪費(fèi)時(shí)間。但是你必須定期在正常運(yùn)作期間進(jìn)行備份,否則當(dāng)中斷已經(jīng)發(fā)生時(shí),就來不及了。

部署數(shù)據(jù)中心基礎(chǔ)設(shè)施管理/監(jiān)控(DCIM)解決方案。迅速解決宕機(jī)事故的關(guān)鍵是搞清楚問題出在哪里。手電筒和萬用表可能不會(huì)奏效,你需要(最好)能集中訪問您系統(tǒng)的信息和狀態(tài),以發(fā)現(xiàn)故障區(qū)域。一個(gè)DCIM解決方案可以在宕機(jī)事故發(fā)生之前,幫助確定這些麻煩的區(qū)域。

跟蹤您的數(shù)據(jù)中心服務(wù)的使用率。高峰使用時(shí)間對(duì)系統(tǒng)會(huì)造成壓力,而這可能是發(fā)現(xiàn)潛在問題的最佳時(shí)間。你應(yīng)該在這段時(shí)間內(nèi)為宕機(jī)做好最佳準(zhǔn)備。這時(shí)最有可能發(fā)生斷路器翻轉(zhuǎn)或者冷卻裝置失效。這也是客戶最需要你的時(shí)候。

結(jié)論:小故障和大故障都要做同樣的準(zhǔn)備。小故障可能對(duì)業(yè)務(wù)產(chǎn)生比較小的影響,但是仍然必須解決掉它,以免它以滾雪球的形式造成更大的問題。小故障可能是大問題的征兆。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)