數(shù)據(jù)中心,支撐整個IT系統(tǒng)正常運轉(zhuǎn)的后臺架構(gòu),囊括了計算、存儲、網(wǎng)絡(luò)等多種IT資源。也正是因為數(shù)據(jù)中心地位的重要性和在現(xiàn)代社會生活中扮演的重要角色,使得數(shù)據(jù)中心的安全和持久穩(wěn)定運行成為了人們極為關(guān)注的問題。然而,前段時間颶風(fēng)桑迪為代表給數(shù)據(jù)中心帶來的災(zāi)難性創(chuàng)傷,再次引發(fā)了人們對數(shù)據(jù)中心的安全擔(dān)憂。本文,將為讀者介紹全球數(shù)據(jù)中心遭遇到的災(zāi)難事故,并從中總結(jié)得出數(shù)據(jù)中心安全殺手以及如何防范等問題。
本月早些時候,颶風(fēng)桑迪重創(chuàng)美國東海岸,尤其是支持著整個工業(yè)園運轉(zhuǎn)的數(shù)據(jù)中心在此次颶風(fēng)肆虐中因斷電而癱瘓,造成了難以挽回的巨大損失。
那么,數(shù)據(jù)中心常見的殺手有哪些呢?換句話說,究竟有哪些因素會影響數(shù)據(jù)中心的正常運行、而需要我們特別加以重視的呢?一般說來,以下因素或者災(zāi)害對數(shù)據(jù)中心會帶來較大危害:
一、洪災(zāi)
毋庸置疑,曾經(jīng)泰國洪災(zāi)給硬盤產(chǎn)業(yè)帶來的影響就可以“窺一葉而知春秋”,數(shù)據(jù)中心也同樣害怕洶涌的洪災(zāi);
二、火災(zāi)
俗話說“大火無情”,一旦出現(xiàn)火災(zāi)事故,后果不堪設(shè)想。也正是如此,數(shù)據(jù)中心往往都備有消防裝備;
三、網(wǎng)絡(luò)中斷
光纖網(wǎng)絡(luò)在很多偏遠(yuǎn)地區(qū)并不常見,如果路由器、交換機出現(xiàn)宕機或者人為誤操作(誤配置)導(dǎo)致網(wǎng)絡(luò)中斷,后果同樣不堪設(shè)想。沒有網(wǎng)絡(luò)的數(shù)據(jù)中心宛如一座孤島——對于提供 網(wǎng)絡(luò)或者云服務(wù)的數(shù)據(jù)中心來尤其如此;
四、電力中斷
相比網(wǎng)絡(luò)中斷,電力中斷帶來的麻煩更大。沒有電力的數(shù)據(jù)中心就如同一堆廢鐵;
五、地震
去年日本大地震帶來的影響,大家可能都?xì)v歷在目。身處地震帶或者地震頻發(fā)周邊的數(shù)據(jù)中心尤其要注意在防震方面的設(shè)計和構(gòu)建。
另外,數(shù)據(jù)泄露、系統(tǒng)崩潰、網(wǎng)絡(luò)攻擊、人為失誤和冗余出錯,都會給數(shù)據(jù)中心的正常運營帶來巨大危害。下面,我們將為大家介紹曾經(jīng)遭遇過巨大創(chuàng)傷的數(shù)據(jù)中心。
【火燒】威斯康辛數(shù)據(jù)中心
【事故檔案】
時間:2008年3月19日
地點:美國
起因:火災(zāi)
損失:數(shù)據(jù)中心遭毀,歷時十天才得以修復(fù)。
2008年3月19日,美國威斯康辛數(shù)據(jù)中心被火燒得一塌糊涂。根據(jù)事后統(tǒng)計,這次大會已經(jīng)燒掉了75臺服務(wù)器、路由器和交換機,當(dāng)?shù)卮罅康恼军c都癱瘓。該數(shù)據(jù)中心屬于當(dāng)?shù)匾患?ldquo;Camera Corner/Connecting Point”的公司所有,該公司主營網(wǎng)站托管和其他IT服務(wù)。
火燒威斯康辛數(shù)據(jù)中心
這次事故,給當(dāng)?shù)鼐W(wǎng)站帶來了巨大損失。耗時10天的修繕和重新部署,才使得這些網(wǎng)站得以上線。該公司CEO Rick Chernick也一再強調(diào),公司為該數(shù)據(jù)中心投放了火災(zāi)險,而且數(shù)據(jù)中心的警報裝置減輕了火災(zāi)帶來的進一步損害。
然而,該數(shù)據(jù)中心耗時十天才得以完全恢復(fù)過來,足以說明該數(shù)據(jù)中心在當(dāng)時并沒有完備的備份計劃。
同樣還遭遇火災(zāi)影響的數(shù)據(jù)中心,有來自莫斯科的ISP服務(wù)器機房。根據(jù)監(jiān)控畫面我們知道,該數(shù)據(jù)中心起火原因是墻壁上的電閘開關(guān)短路而導(dǎo)致的。工作人員利用手中的各種工具將涌向服務(wù)器的煙霧和火花進行撲滅。然而值得稱贊的是,盡管如此,該機房并沒有中斷電力。因為他們部署了UPS系統(tǒng),這一點對于其他數(shù)據(jù)中心的設(shè)計和建筑來說都極具參考意義。
Fisher Plaza數(shù)據(jù)中心變壓器起火引發(fā)火災(zāi)
2009年7月,位于西雅圖的Fisher Plaza數(shù)據(jù)中心的變壓器起火引發(fā)火災(zāi)。此次火災(zāi)影響甚大,造成了包括微軟Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等網(wǎng)站服務(wù)器的中斷運行器的中斷運行。這次事故在同一時間段引發(fā)了很多其他數(shù)據(jù)中心的宕機。
從此次災(zāi)難中,我們應(yīng)該學(xué)會在選擇數(shù)據(jù)中心服務(wù)商的時候,應(yīng)該了解事故發(fā)生后網(wǎng)站需要多長時間從宕機中恢復(fù)過來。如果答案在幾天甚至幾周,那么可以考慮選擇其他更值得信賴的服務(wù)商。
另外,我們也特別需要有完整災(zāi)備計劃的事后措施,在數(shù)據(jù)中心場地和周邊,務(wù)必有科學(xué)合理的消防設(shè)備和設(shè)計方案,數(shù)據(jù)中心的各個角落應(yīng)該有盡可能多的消防器材。(在不影響通行和通風(fēng)散熱的情況下)
【水淹】Vodafone數(shù)據(jù)中心
【事故檔案】
時間:2009年9月9日
地點:土耳其
起因:暴雨引發(fā)洪災(zāi)
損失:數(shù)據(jù)中心遭淹
2009年9月9日,土耳其伊斯坦布爾遭遇暴雨并引發(fā)了洪水。瘋狂肆虐的洪水淹沒了該市Ikitelli區(qū)的大部分地段,也淹沒位于該區(qū)的Vodafone數(shù)據(jù)中心。
水淹Vodafone數(shù)據(jù)中心
城市里的很多Vodafone(沃達豐)手機用戶都因該數(shù)據(jù)中心被淹而無法使用通信服務(wù)。上圖展示的是監(jiān)控攝像頭拍下的畫面:數(shù)據(jù)中心的一名員工在收集自己的東西撤離數(shù)據(jù)中心。
伊斯坦布爾Ikitelli地區(qū)所處位置(截自谷歌地圖)
伊斯坦布爾Ikitelli地勢較為低洼,南北毗鄰愛琴海和黑海。因此,在遭遇暴雨的時候就特別容易引發(fā)洪水。此次洪水在當(dāng)?shù)卦斐闪撕艽蟮挠绊懀踔两值郎系暮芏嘬囕v都被沖走。
同樣遭受洪災(zāi)影響的,還有來自澳大利亞的Datacom網(wǎng)絡(luò)中心。這次洪災(zāi)發(fā)生在澳洲的時間是在2010年,當(dāng)時的大暴雨將Datacom主機代管中心的天花板沖毀,使得服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備都遭損壞。起初該公司否認(rèn)出現(xiàn)問題,但隨著事故在網(wǎng)絡(luò)上得到曝光,人們逐漸知道了真相。
Hunt Valley數(shù)據(jù)中心遭遇水管侵襲
Hunt Valley數(shù)據(jù)中心也曾遭遇了“有驚無險”的侵襲。在2008年的時候,洗手間的一根管道爆裂并涌出大量的水。好在該中心的服務(wù)器機柜設(shè)計較為合理,離地間距為4英寸(1英寸=0.0254米),而且管理人員在午休回來后及時發(fā)現(xiàn)并處理了該險情。
從以上幾個實例中我們不難發(fā)現(xiàn),為了避免洪災(zāi)對數(shù)據(jù)中心帶來的潛在危害,我們應(yīng)該對數(shù)據(jù)中心的選址、海拔、機柜離地間距甚至是整個數(shù)據(jù)中心建筑物的設(shè)計,都需要有一個充分的科學(xué)論證,以防后患。
【網(wǎng)斷】數(shù)據(jù)中心
【事故檔案】
時間:未知
地點:未知
起因:光纖被淹
損失:業(yè)務(wù)中斷
光纖網(wǎng)絡(luò)被水淹導(dǎo)致網(wǎng)絡(luò)中斷
可能有人會問,僅僅是下水管道爆裂怎么會引發(fā)網(wǎng)絡(luò)中斷呢?(不是洪水,數(shù)據(jù)中心也沒有被淹沒)。其實,主要原因是當(dāng)時一家電信公司打算將光線網(wǎng)絡(luò)鋪設(shè)在下水管道上,并通過下水管道的走向來安排布線。圖中所示的就是光纖網(wǎng)絡(luò)被爆裂管道的水所淹沒的場景。
除了網(wǎng)絡(luò)中斷,也有電力中斷的例子。比如接下來要介紹的數(shù)據(jù)中心。如下圖所示,工作人員按慣例檢查UPS的電壓和電流情況。然而,當(dāng)他進入數(shù)據(jù)中心的時候,其中一個UPS宕機并且火花四濺,煙火瞬間彌漫整個機房。
另外,我們這里還要介紹一種意外事件帶來的潛在威脅。當(dāng)IT管理員周末步入數(shù)據(jù)中心查看的時候發(fā)現(xiàn),機房頂端的天花板已經(jīng)濕透并逐漸往下滲水。滲出來的水流入到地面并不斷積壓。管理員發(fā)現(xiàn)后立即將水桶放到滲水的位置,避免水位進一步提升。
經(jīng)過后來的檢查發(fā)現(xiàn),這些水來自于空調(diào)管道,而這些管道被鋪設(shè)在天花板上方,而且沒有經(jīng)過嚴(yán)密的密封處理。
無論是空調(diào)管道還是下水道,其實都是設(shè)計方面存有缺陷。對于這種問題,在搭建數(shù)據(jù)中心的時候就需要嚴(yán)格按照設(shè)計要求來執(zhí)行。同時,也需要進一步加大對UPS和數(shù)據(jù)中心物理設(shè)施的常規(guī)定期檢查。
品牌:IBM 服務(wù)器
【地震】日本數(shù)據(jù)中心
【事故檔案】
時間:2011年3月11日
地點:日本
起因:9級地震
損失:設(shè)備受損
3月11日,日本遭受了9級大地震,上萬人失去了生命,數(shù)百萬人受到嚴(yán)重影響。在此次地震中,日本東京的IBM數(shù)據(jù)中心也受損嚴(yán)重。包括很多大型機和傳統(tǒng)服務(wù)器受損,服務(wù)器機柜東倒西歪,金屬外框也出現(xiàn)了變形,甚至有些大型機的線纜都暴露在外。
9級地震發(fā)生后的IBM數(shù)據(jù)中心
不過,由于IBM數(shù)據(jù)中心線纜長度和松緊度的合理設(shè)計,而且,作為自動觸發(fā)進行錯誤檢查的一項預(yù)防措施,IBM存儲單元也同樣保持正常運行。在此次地震中的IBM服務(wù)器還能正常運行。
另外值得一提的是,2012年初的時候,加爾各答的一家銀行被大伙無情吞噬。煙霧擴散至
樓上九層。消防員趕來的時候,該機房也被火燒掉面目全非,只留下了機柜的空殼和天花板上的一些線纜。
品牌:華為 服務(wù)器
構(gòu)建數(shù)據(jù)中心的【秘訣】
前面我們給大家介紹了遭受洪災(zāi)、火災(zāi)、網(wǎng)絡(luò)中斷、地震破壞的數(shù)據(jù)中心,從這些災(zāi)難事件中,我們也深刻地體會到災(zāi)害的無情和兇猛,也意識到在設(shè)計規(guī)劃、建造部署數(shù)據(jù)中心的時候,需要經(jīng)過多番論證,建立多套應(yīng)急措施和備份系統(tǒng)。
根據(jù)全球保險公司Axa安盛的一份報告,80%的中小企業(yè)在遭受重大事故后的18個月內(nèi)都面臨著關(guān)門破產(chǎn)或者難以為繼的困境。與此同時,更大型公司在遭受重大事故時,則會蒙受巨額的財產(chǎn)損失和名譽損失。
下面,我們將為大家提煉出幾個構(gòu)建數(shù)據(jù)中心值得關(guān)注的問題。這些對于保障IT系統(tǒng)7×24不間斷運行、為業(yè)務(wù)發(fā)展提供源源不斷的支持所應(yīng)該具備的要素:
一、數(shù)據(jù)中心的選址
正如我們前提提到的,很多發(fā)展洪災(zāi)的數(shù)據(jù)中心,都是位于地勢低洼、臨近河道或者海邊的地理位置。而且很多地震頻發(fā)或者環(huán)地震帶也不宜構(gòu)建數(shù)據(jù)中心。選址問題,重點可以考慮自然地理條件、配套設(shè)施、周邊環(huán)境、成本因素、政策環(huán)境、高科技人才資源環(huán)境、社會經(jīng)濟人文環(huán)境。
全球數(shù)據(jù)中心分布位置一覽
ANSI/TIA-942-2005標(biāo)準(zhǔn)不同分級的選址要求 | ||
注意事項 | T3標(biāo)準(zhǔn) | T4標(biāo)準(zhǔn) |
臨近洪水危險區(qū)域 | 遠(yuǎn)離百年一遇/離50年一遇水災(zāi)區(qū)不小于90m | 離百年一遇水災(zāi)區(qū)不小于90m |
接近海岸或內(nèi)陸水路 | 距離不小于90m | 距離不小于800m |
接近主要干道 |
距離不小于90m |
距離不小于800m |
接近機場 | 距離在1.8km~48km間 | 距離在1.8km~48km間 |
接近主要大城市 | 不超過48km | 不超過48km |
二、建立數(shù)據(jù)中心災(zāi)備計劃
即使發(fā)生諸如地震、水災(zāi)、雷擊、火災(zāi)、機器故障這些偶然事件,也必希具備很高的安全可靠性以保證業(yè)務(wù)不會停止。為了提高數(shù)據(jù)中心的安全可靠性,有必要建立完善的數(shù)據(jù)中心災(zāi)備計劃。
災(zāi)備計劃其實應(yīng)該包括軟硬件層面。軟件層面包括人為的風(fēng)險評估、定期審查、軟件系統(tǒng)的相互依存和備份。硬件層面包括硬件冗余、UPS、數(shù)據(jù)備份、異地災(zāi)備等等。
三、融合數(shù)據(jù)中心
由于成本和備份關(guān)鍵系統(tǒng)和數(shù)據(jù)同步的復(fù)雜性,很多企業(yè)不惜代價創(chuàng)建一個備份數(shù)據(jù)中心。隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)中心的問題與日俱增,數(shù)據(jù)中心管理者所面臨的壓力和挑戰(zhàn)也越來越大,企業(yè)業(yè)務(wù)的不斷調(diào)整和改變讓數(shù)據(jù)中心總體架構(gòu)面臨極大的壓力、有限的物理空間讓數(shù)據(jù)中心擴展性和靈活性有所限制。
為此,融合數(shù)據(jù)中心是唯一的出路,只有通過有效的整合才能夠讓傳統(tǒng)數(shù)據(jù)中心升級成為一個智能化、自動化、高效化的數(shù)據(jù)中心。
四、虛擬化技術(shù)
很多明智的企業(yè)都轉(zhuǎn)向虛擬化,從而大大降低成本。在緊急情況下,這也是快速恢復(fù)IT活力的一種方式。利用虛擬化技術(shù),可以將操作系統(tǒng)、應(yīng)用軟件和數(shù)據(jù)打包裝入到基于操作系統(tǒng)之上的應(yīng)用軟件中。封裝的應(yīng)用程序可以很容易的傳輸?shù)綀鐾?-作為數(shù)據(jù)的一種傳輸方式,并為遠(yuǎn)程計算機用戶提供訪問。虛擬化技術(shù)可以大幅減少停機時間,將宕機時間從數(shù)天減少到數(shù)小時。
當(dāng)然,在數(shù)據(jù)中心的具體產(chǎn)品層面,比如在應(yīng)對地震等自然災(zāi)害的時候,可以將數(shù)據(jù)中心構(gòu)建在減震器上面--用金屬和橡膠制成并安放在建筑物內(nèi)的隔離層,可以吸收地震發(fā)生時帶來的震動。某些數(shù)據(jù)中心擁有樓級和機架級的減震隔離層。此外,所有的服務(wù)器機架設(shè)施,冷卻設(shè)備和其他設(shè)施都牢牢地受到地板的保護。