隨著大量數(shù)據(jù)應用和業(yè)務量的激增,對大多數(shù)企業(yè)來說數(shù)據(jù)中心安全運行至關(guān)重要。然而,大多數(shù)企業(yè)低估了維護數(shù)據(jù)中心安全運行的重要性。據(jù)統(tǒng)計,數(shù)據(jù)中心的停機一分鐘平均損失將超過8800美元。
那么,數(shù)據(jù)中心停機的原因是什么?又該如何避免這么此類事件發(fā)生呢?
以下是數(shù)據(jù)中心停機的一些最主要的原因:
UPS系統(tǒng)故障。如果企業(yè)投資建設(shè)數(shù)據(jù)中心,就必然要構(gòu)建可靠的UPS供電系統(tǒng),雖然其名為“不間斷”,但并不能保證百分之百的可靠性,無論采用什么類型的UPS,仍然有可能發(fā)生短時間(10秒以內(nèi))或長時間(超過10秒)故障。這些故障可能是由一些潛在的問題引起的,例如UPS本身具有固有的缺陷,其質(zhì)量或可靠性會隨著時間的推移逐漸下降,另外蓄電池組失效,以及使用和維護不當也是引起UPS系統(tǒng)故障的原因,當然,雷電等自然災害也是引起其故障的一個原因。
網(wǎng)絡犯罪。根據(jù)波洛蒙研究所的一項研究,網(wǎng)絡犯罪是導致數(shù)據(jù)中心停機或業(yè)務中斷的一個日益增長的原因,2010年網(wǎng)絡犯罪引起數(shù)據(jù)中心停機只占所有事件的2%,如今已上升至22%。如果一個網(wǎng)絡犯罪分子找到一種遠程訪問企業(yè)數(shù)據(jù)中心的方式,那么他就可能很容易挾持數(shù)據(jù)中心的數(shù)據(jù)和操作,或者完全拒絕數(shù)據(jù)中心的正常訪問和操作。
IT設(shè)備自身故障。企業(yè)的服務器本身故障也是停機時間的主要原因。如果維護不當,或者電源連接不可靠,那么數(shù)據(jù)中心就有可能因此發(fā)生故障。
顯然,這些停機原因并不是不受企業(yè)的控制。正如業(yè)界專家所說,預防性維護和主動維護可以避免大部分的停機。主動維護應注重以下三個方面:
(1)減少人為錯誤。首先,企業(yè)需要減少因人為錯誤引起的設(shè)備風險。如果企業(yè)的IT人員沒有對如何維護設(shè)備進行適當?shù)呐嘤?,或者不知道如何識別潛在問題或?qū)ζ浼皶r的做出反應,那么當他們面對故障時將無法采取必要措施。此外,大多數(shù)網(wǎng)絡犯罪或因沒有采用強大的密碼,或是因為釣魚網(wǎng)絡而被侵入,最終都歸因于某種人為錯誤。如果企業(yè)希望盡可能長時間地保持數(shù)據(jù)中心的全面運行,對其員工進行更好的培訓是必要的措施。
(2)定期檢查維護。服務器是復雜的機器,需要得到良好維護,如果企業(yè)希望最大限度地延長其生命周期,則需要定期監(jiān)控其性能,檢查內(nèi)部風扇和電源連接等,并定期更換零件。持續(xù)的維護雖然會產(chǎn)生額外的費用,但是與因停機造成的損失相比要低得多。
(3)制定預防策略。最后,企業(yè)可以通過制定不同的風險預防策略來降低風險。例如,通過更好地保護物理服務器,并在不同的位置進行鏡像備份來減輕自然災害的風險;通過進行主動的安全防護,可以減少網(wǎng)絡犯罪的風險;還可以通過使用優(yōu)質(zhì)的電源設(shè)備,降低遭受停電的風險。
減少幾分鐘的數(shù)據(jù)中心停機時間,可以節(jié)省數(shù)萬美元的業(yè)務成本,甚至避免出現(xiàn)難以挽回的損失。企業(yè)需要花費時間和精力構(gòu)建一套更好的系統(tǒng)來主動管理硬件以及公司員工。采取這樣的策略之后,企業(yè)將會受益無窮。