進(jìn)行電源循環(huán)測試以避免硬件故障

責(zé)任編輯:editor005

作者:Stephen J. Bigelow

2017-01-16 14:24:18

摘自:TechTarget中國

摘要:不要讓意外停機(jī)時(shí)間中斷你的數(shù)據(jù)中心。定期進(jìn)行電源循環(huán)測試,以識別可能出現(xiàn)的問題并主動(dòng)解決。為避免這種情況,需要進(jìn)行定期和主動(dòng)的電源循環(huán)測試,以強(qiáng)制在底層級別硬件中重新啟動(dòng)系統(tǒng)。

不要讓意外停機(jī)時(shí)間中斷你的數(shù)據(jù)中心。進(jìn)行電源循環(huán)測試以主動(dòng)監(jiān)控系統(tǒng),并以有條不紊、有序的方式識別硬件故障。

由于日常操作期間可能不會(huì)使用IT系統(tǒng)的所有部分,某些組件可能會(huì)失效,軟件模塊可能會(huì)崩潰,但系統(tǒng)可能依舊正常運(yùn)行數(shù)月甚至數(shù)年。在系統(tǒng)重啟(通常意外)之前,故障可能無法被識別,進(jìn)而導(dǎo)致意外的工作負(fù)載中斷和停機(jī)時(shí)間。

定期進(jìn)行電源循環(huán)測試,以識別可能出現(xiàn)的問題并主動(dòng)解決。

如果沒有發(fā)現(xiàn)任何問題,為什么要執(zhí)行電源循環(huán)測試?

系統(tǒng)管理工具包括Microsoft System Center、SolarWinds、Nagios和Zabbix是強(qiáng)大的多功能平臺(tái)。幾乎所有系統(tǒng)管理工具都可以提供故障、配置、審計(jì)、性能和安全管理等功能,使其成為現(xiàn)代企業(yè)不可或缺的一部分。

但是,某些故障可能發(fā)生在硬件級別,可能不會(huì)立即影響系統(tǒng)或工作負(fù)載。例如,服務(wù)器可能在雙列直插存儲(chǔ)器模塊(DIMM)中檢測到內(nèi)存故障。但是,如果沒有工作負(fù)載使用該內(nèi)存空間,或者故障DIMM由故障糾正技術(shù)保護(hù),則服務(wù)器可以繼續(xù)工作,向系統(tǒng)管理報(bào)告很少的直接錯(cuò)誤。在大多數(shù)情況下,現(xiàn)代服務(wù)器的智能平臺(tái)管理接口或基板管理系統(tǒng)可以報(bào)告這些錯(cuò)誤,但是該信息通常只是記錄,系統(tǒng)及其工作負(fù)載將繼續(xù)運(yùn)行。

未檢測到以及未解決的硬件問題最終將變成大麻煩。如果意外系統(tǒng)崩潰或電源中斷導(dǎo)致計(jì)劃外系統(tǒng)重啟,系統(tǒng)內(nèi)部固件可能會(huì)發(fā)現(xiàn)這些問題并拒絕完成引導(dǎo)過程。例如,如果服務(wù)器南橋芯片出現(xiàn)故障,且USB或板載磁盤控制器未成功初始化或響應(yīng),即使企業(yè)可能不使用服務(wù)器的USB端口,而是通過網(wǎng)絡(luò)訪問存儲(chǔ),也無法正常完成啟動(dòng)引導(dǎo)?,F(xiàn)在,IT必須嘗試從意外中斷中恢復(fù),并同時(shí)解決有缺陷的系統(tǒng)。

為避免這種情況,需要進(jìn)行定期和主動(dòng)的電源循環(huán)測試,以強(qiáng)制在底層級別硬件中重新啟動(dòng)系統(tǒng)。采用有計(jì)劃的重新啟動(dòng)來確保數(shù)據(jù)保護(hù),并以有組織的方案將虛擬機(jī)或存儲(chǔ)實(shí)例遷移到目標(biāo)設(shè)備之外,可以免于計(jì)劃外的應(yīng)急工作或宕機(jī)。接下來,循環(huán)上電,并允許硬件系統(tǒng)完全啟動(dòng),以顯示潛在未知或未解決的問題。系統(tǒng)電源循環(huán)通常作為組織現(xiàn)有關(guān)機(jī)文檔的一部分。如果在重新啟動(dòng)過程中出現(xiàn)問題,你最好取糾正措施。

應(yīng)該如何實(shí)施電源循環(huán)測試,應(yīng)該多久進(jìn)行一次?

可靠的設(shè)計(jì)能夠保障服務(wù)器運(yùn)行多年。當(dāng)在彈性配置(例如服務(wù)器集群)中部署這些服務(wù)器時(shí),這些系統(tǒng)上運(yùn)行的工作負(fù)載幾乎是不可破壞的。事實(shí)上,強(qiáng)調(diào)系統(tǒng)彈性和正常運(yùn)行時(shí)間常常導(dǎo)致許多組織放棄周期性的重啟測試。

但是如果一個(gè)服務(wù)器或存儲(chǔ)子系統(tǒng)運(yùn)行了幾年,要如何知道它還能正確啟動(dòng)?無法得知,而且保證系統(tǒng)能夠成功冷啟動(dòng)的唯一方法就是定期重啟。

電源循環(huán)測試需依賴什么?

根據(jù)需求定期進(jìn)行電源循環(huán)測試,以保證對業(yè)務(wù)需求在合理水準(zhǔn)的信心。通常,可以每幾個(gè)月或每年進(jìn)行幾次電源循環(huán)。將電源循環(huán)測試與常規(guī)災(zāi)難恢復(fù)和關(guān)機(jī)測試同步,以便同時(shí)處理和達(dá)成這兩個(gè)目標(biāo)。

有時(shí),外部因素,如變電站升級或重要建筑物改造,迫使企業(yè)使數(shù)據(jù)中心離線一段時(shí)間。現(xiàn)在,計(jì)劃停機(jī)可以減少業(yè)務(wù)中斷,因?yàn)槟梢暂p松地將工作負(fù)載遷移到輔助數(shù)據(jù)中心或云上。所以任何IT團(tuán)隊(duì)準(zhǔn)備處理計(jì)劃內(nèi)的設(shè)施關(guān)閉時(shí),也應(yīng)該能夠進(jìn)行常規(guī)電源循環(huán)測試。

服務(wù)器硬件有任何風(fēng)險(xiǎn)嗎?

當(dāng)啟動(dòng)和運(yùn)行服務(wù)器或存儲(chǔ)陣列時(shí),總是有一定程度的電、熱和機(jī)械應(yīng)力。當(dāng)電子元件冷卻并再次升溫時(shí),會(huì)產(chǎn)生熱應(yīng)力,可能導(dǎo)致邊緣連接失效,并導(dǎo)致過早的系統(tǒng)故障。同樣,如果讓老化磁盤或冷卻風(fēng)扇冷卻,它可能因?yàn)楹谋M潤滑劑卡住,并導(dǎo)致磁盤/風(fēng)扇軸或其他微小機(jī)制的問題。

還存在潛在邏輯風(fēng)險(xiǎn)。意外的配置更改可能會(huì)使系統(tǒng)超出規(guī)格,并導(dǎo)致由于系統(tǒng)配置管理工具出現(xiàn)告警或應(yīng)用程序啟動(dòng)問題。例如,如果系統(tǒng)重新啟動(dòng)并嘗試安裝意外或未批準(zhǔn)的修補(bǔ)程序,則配置管理工具可能會(huì)暫停該工作負(fù)載或服務(wù)器集群啟動(dòng),直到系統(tǒng)批準(zhǔn)的配置恢復(fù)為止。

這樣的問題比較少見,特別在現(xiàn)代、節(jié)能系統(tǒng)中。雖然一些IT專家認(rèn)為放棄采用和實(shí)施電源循環(huán),可以減少這種故障的可能性,但是理想的電源循環(huán)測試?yán)砟钫浅恋?、隔離和解決這類問題。更早暴露問題,遠(yuǎn)比等到意外的電源故障或應(yīng)用程序崩潰發(fā)生,系統(tǒng)無法正常啟動(dòng)時(shí),才進(jìn)行應(yīng)急處理要合理。隨著如今虛擬化和群集的應(yīng)用,能夠保障工作負(fù)載將持續(xù)運(yùn)行的同時(shí),識別和修復(fù)故障系統(tǒng)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號