數(shù)據(jù)中心的宕機(jī)事件對任何企業(yè)來說都難以承受。數(shù)據(jù)中心的業(yè)務(wù)中斷會導(dǎo)致用戶無法正常訪問應(yīng)用程序,導(dǎo)致企業(yè)業(yè)務(wù)方面的損失。停機(jī)時(shí)間也給服務(wù)提供商帶來了的巨大壓力,因?yàn)樗麄冃枰M快確定問題的原因并解決。
雖然這種情況是令人沮喪的,但與停機(jī)所付出的成本相比,這些抱怨往往是蒼白無力?,F(xiàn)在,越來越多的企業(yè)去花時(shí)間弄清楚企業(yè)的宕機(jī)時(shí)間到底有多少,并利用這些信息來確保服務(wù)提供商正在盡其所能來防止未來的宕機(jī)。
但是數(shù)據(jù)中心停機(jī)會造成企業(yè)多大損失呢?服務(wù)提供商采用什么策略來防止宕機(jī)時(shí)間的發(fā)生?
行業(yè)專家表示,數(shù)據(jù)中心停機(jī)在美國每分鐘的平均損失接近8,000美元。
數(shù)據(jù)中心停機(jī)付出的代價(jià)
根據(jù)波洛蒙研究所和艾默生在2013年的調(diào)查研究,停機(jī)事件使美國企業(yè)每分鐘損失接近8,000美元。這個(gè)數(shù)字比2010年的統(tǒng)計(jì)數(shù)字提高了41%,當(dāng)時(shí)停機(jī)時(shí)間每分鐘損失5,600美元。雖然某些因素如網(wǎng)絡(luò)復(fù)雜度會導(dǎo)致一些人預(yù)計(jì)停機(jī)時(shí)間會上升,但研究人員對他們發(fā)現(xiàn)的增長感到驚訝。
波洛蒙研究所董事長兼創(chuàng)始人arry Ponemon表示,"鑒于當(dāng)今的數(shù)據(jù)中心的相互依賴的設(shè)備和IT系統(tǒng)比以往任何時(shí)候都更重要,大多數(shù)人預(yù)計(jì)與2010年相比,計(jì)劃外的數(shù)據(jù)中心中斷的成本將會上升,但是,41%的增幅還是高于人們的預(yù)期。"
值得注意的是,并不是處理停機(jī)時(shí)間的所有公司都會遇到這各類型的成本,最昂貴的停機(jī)事件會使一個(gè)組織損失高達(dá)170萬美元。雖然目前還沒有更新的停機(jī)時(shí)間的統(tǒng)計(jì)數(shù)據(jù),但可以肯定的是,計(jì)劃外停機(jī)的損失將格持續(xù)上漲?,F(xiàn)在,通過使用停機(jī)計(jì)時(shí)器等工具,企業(yè)可以根據(jù)每年的營業(yè)收入和營業(yè)時(shí)間,確定單次停機(jī)在銷售損失和業(yè)務(wù)損失方面的成本。
是什么原因?qū)е峦C(jī)?
為了妥善解決停機(jī)和計(jì)劃外中斷問題,服務(wù)提供商必須首先了解此類事件的主要原因。據(jù)行業(yè)媒體"Data Center Journal"撰稿人Rob McClary介紹,雖然很多人可能認(rèn)為網(wǎng)絡(luò)或設(shè)備的設(shè)計(jì)是導(dǎo)致停機(jī)的主機(jī)原因,但每年更多的停機(jī)原因是人為錯(cuò)誤。
除了人為錯(cuò)誤,其他主要停機(jī)原因還包括維護(hù)措施和生命周期策略不佳,以及數(shù)據(jù)中心選址,風(fēng)險(xiǎn)緩解措施不足等。
雖然大多數(shù)停機(jī)事件與人為錯(cuò)誤,選址或維護(hù)不力相關(guān),但一些原因難以預(yù)測。行業(yè)專家表示,有的是松鼠啃噬數(shù)據(jù)中心外部電源線而導(dǎo)致的停電事故,有的是一個(gè)鐵錨刮斷了設(shè)置在海底的通訊電纜,而有的是由點(diǎn)燃的煙頭引起的火災(zāi)。
供應(yīng)商采用什么措施防止停機(jī)?
值得慶幸的是,服務(wù)提供商有一些策略和措施可以幫助防止產(chǎn)生停機(jī)的常見原因,其中之一是整個(gè)數(shù)據(jù)中心關(guān)鍵系統(tǒng)采用冗余設(shè)備。當(dāng)數(shù)據(jù)中心設(shè)施配備電源,連接和冷卻的備用設(shè)備時(shí),即使發(fā)生電源中斷或其他負(fù)面影響,工作人員也可以迅速切換到冗余系統(tǒng),以保持?jǐn)?shù)據(jù)中心的正常運(yùn)行。事實(shí)上,調(diào)研機(jī)構(gòu)451Research公司首席分析師Eric Hanselman表示,組織需要為冗余設(shè)置投入更多的費(fèi)用,因?yàn)樵O(shè)備故障是不可避免的。
Hanselman說:"人們必須對停機(jī)對企業(yè)業(yè)務(wù)造成的損失有一個(gè)現(xiàn)實(shí)的理解。"這樣,對冗余系統(tǒng)的主動投資可以幫助防止代價(jià)昂貴的停機(jī)事件。
為了解決人為錯(cuò)誤,服務(wù)提供商應(yīng)確保所有員工都得到適當(dāng)?shù)呐嘤?xùn),而不僅僅是在日常工作中,而且在最壞的情況下,他們能夠快速響應(yīng)并減輕任何損失。 Hanselman還建議利用改進(jìn)的自動化過程來幫助減少人機(jī)交互,從而降低人為錯(cuò)誤的機(jī)會。
Hanselman指出:"沒有一個(gè)組織應(yīng)該人為進(jìn)行改變,哪怕是其基礎(chǔ)設(shè)施組成的一小部分。而日常任務(wù),升級系統(tǒng),以及配置和管理系統(tǒng),都應(yīng)該是自動化的操作。"
Hanselman還指出,數(shù)據(jù)中心應(yīng)該有更加高級的安全控制措施,以防止網(wǎng)絡(luò)威脅和分布式拒絕服務(wù)攻擊,從而導(dǎo)致服務(wù)中斷。
他說:"人們必須確保從最終客戶的路徑到整個(gè)互動體驗(yàn)都得到保護(hù)。"
意外停機(jī)是一個(gè)代價(jià)高昂的事件,在生產(chǎn)力和協(xié)作方面會造成相當(dāng)大的業(yè)務(wù)損失。服務(wù)提供商應(yīng)該努力確保在每一個(gè)環(huán)節(jié)上都能阻止這些事件的發(fā)生。