數(shù)據(jù)中心運(yùn)維的關(guān)鍵在于“防患于未然”

責(zé)任編輯:cres

作者:harbor

2016-08-25 09:14:00

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

數(shù)據(jù)中心運(yùn)維的關(guān)鍵在于“防患于未然”,應(yīng)該重點(diǎn)強(qiáng)調(diào)的是“防患于未然”中的“防”。

數(shù)據(jù)中心運(yùn)維是老生常談了,網(wǎng)絡(luò)上有很多數(shù)據(jù)中心運(yùn)維的技術(shù)和管理手段,通過學(xué)習(xí)這些知識的確能夠提升對運(yùn)維的理解。不過,很多技術(shù)都在強(qiáng)調(diào)如何進(jìn)行運(yùn)維,將更多筆墨放到了闡述運(yùn)維的方法上。運(yùn)維的工具和方法也多達(dá)數(shù)十種,這也使得數(shù)據(jù)中心的運(yùn)維,幾乎可以衍生出來一門技術(shù)學(xué)科。數(shù)據(jù)中心人員要掌握數(shù)種運(yùn)維的工具使用,學(xué)習(xí)運(yùn)維方面的各種技術(shù)、技巧。每年數(shù)據(jù)中心在運(yùn)維上,都要投入不菲的資金,包括購入各種運(yùn)維設(shè)備、技術(shù)培訓(xùn)、運(yùn)維的工具等等。各位是否想過:如果我們能在數(shù)據(jù)中心可能出現(xiàn)的故障之前,將隱患消除掉,反而不必在后期運(yùn)維的工作上多下功夫,這正是所謂的“防患于未然”,在禍患發(fā)生之前就加以預(yù)防,這才是數(shù)據(jù)中心運(yùn)維的真正目的。“亡羊補(bǔ)牢,為之晚矣”,如果數(shù)據(jù)中心故障已經(jīng)發(fā)生,就會給業(yè)務(wù)帶來損失,這時(shí)采用再好的修復(fù)措施都失去了重要意義,損失已經(jīng)產(chǎn)生。
 
一般的數(shù)據(jù)中心運(yùn)維都是在出了事之后去解決,這叫做“遇病治病”。這時(shí)候已經(jīng)影響了數(shù)據(jù)中心業(yè)務(wù)的正常運(yùn)行,已經(jīng)給數(shù)據(jù)中心造成了損失,這樣運(yùn)維的工作是失敗的。隨著數(shù)據(jù)中心網(wǎng)絡(luò)的擴(kuò)大,業(yè)務(wù)需求的增加,這樣運(yùn)維的方式對數(shù)據(jù)中心發(fā)展不利。還好已經(jīng)有越來越多人意識到這點(diǎn),于是很多數(shù)據(jù)中心開始強(qiáng)調(diào)預(yù)防,這叫做“以預(yù)治病”,會預(yù)測出數(shù)據(jù)中心某個(gè)設(shè)備有問題就提前把它換掉,或者把存在隱患的薄弱環(huán)節(jié)進(jìn)行鞏固,對現(xiàn)有系統(tǒng)進(jìn)行不斷改造,消除一切可能存在的隱患點(diǎn),以預(yù)防為主,這樣可以大大避免一些嚴(yán)重故障出現(xiàn)。比如數(shù)據(jù)中心網(wǎng)絡(luò)部分匯聚端口流量在高峰期,偶有帶寬跑滿的情況,這時(shí)就要及時(shí)增加設(shè)備或帶寬,避免對業(yè)務(wù)有影響;當(dāng)部分服務(wù)器的CPU占用率超過50%,就要檢查服務(wù)器上承載的業(yè)務(wù)是否過重,優(yōu)化服務(wù)器上的業(yè)務(wù)軟件,關(guān)停一些不必要運(yùn)行的軟件;防火墻上的過濾規(guī)則是否過期,不斷增加一些新病毒攻擊流量類型的過濾,避免新的網(wǎng)絡(luò)病毒對數(shù)據(jù)中心造成傷害,這些預(yù)防性的防護(hù)可以有效減少故障的發(fā)生??墒羌偃缫粋€(gè)人體質(zhì)本身就很弱,做再多的防護(hù),也可能有摔倒的那一天,莫不如去積極鍛煉,提升自身體質(zhì),強(qiáng)身健體,避免摔倒,就算摔倒也可以很快爬起來,這就是“未病治病”,主動加強(qiáng)身體鍛煉。對于數(shù)據(jù)中心就是在數(shù)據(jù)中心建設(shè)之前,就要考慮到其未來數(shù)年甚至數(shù)十年的發(fā)展,使得數(shù)據(jù)中心具有強(qiáng)大擴(kuò)展性;同時(shí)根據(jù)網(wǎng)絡(luò)狀況、業(yè)務(wù)承載狀況,設(shè)計(jì)完善的冗余、備份系統(tǒng),使得整個(gè)數(shù)據(jù)中心可以高效運(yùn)轉(zhuǎn),堅(jiān)決要求數(shù)據(jù)中心不帶“病”運(yùn)行,只有整個(gè)數(shù)據(jù)中心所有系統(tǒng)都能高效、穩(wěn)定運(yùn)行,這樣建設(shè)的數(shù)據(jù)中心才能交付,才能進(jìn)入到運(yùn)維階段。在數(shù)據(jù)中心建設(shè)之前,就將未來可能遇到的問題都考慮盡量全面,數(shù)據(jù)中心設(shè)計(jì)為未來發(fā)展留有至少30%的空間,數(shù)據(jù)中心采用的技術(shù),應(yīng)可以實(shí)現(xiàn)向未來新技術(shù)平滑過渡的能力。
 
數(shù)據(jù)中心運(yùn)維的真正目的,在于能真正做到“防患于未然”,當(dāng)數(shù)據(jù)中心建成后,大的框架很難再做變化,尤其是數(shù)據(jù)中心帶有業(yè)務(wù)運(yùn)行后,再去更改設(shè)備配置、升級軟件、變更都是非常麻煩的事兒,需要在對業(yè)務(wù)無影響下進(jìn)行。有時(shí)改變對業(yè)務(wù)影響太大,根本無法實(shí)施。這也是要做到“未病治病”的真正意義。一旦數(shù)據(jù)中心建成投產(chǎn)后,運(yùn)維的作用在于發(fā)現(xiàn)隱患,已經(jīng)無法做到“未病治病”,只能做“以預(yù)治病”。通過各種運(yùn)維的工具和手段,數(shù)據(jù)中心技術(shù)人員能夠及時(shí)了解到數(shù)據(jù)中心的運(yùn)行狀態(tài),一旦出現(xiàn)安全隱患,可以及時(shí)預(yù)警或者是以其他方式通知相關(guān)人員,讓技術(shù)人員有時(shí)間處理和解決,避免影響數(shù)據(jù)中心業(yè)務(wù)的正常使用,將一切問題的根本扼殺在搖籃當(dāng)中,這種以防為主的運(yùn)維理念得到越來越多人的認(rèn)可,數(shù)據(jù)中心運(yùn)維,應(yīng)該主動地去預(yù)防,而不是坐等下一次故障的出現(xiàn)。
 
“以預(yù)治病”可不是說說那么簡單,這需要做大量的信息收集和診斷工作?,F(xiàn)在,在市面上就可以找到一些以采集數(shù)據(jù)為主的運(yùn)維工具,可以在數(shù)據(jù)中心里通過部署一些這類的工具,通過這些工具可以獲得數(shù)據(jù)中心各個(gè)環(huán)節(jié)的運(yùn)行參數(shù),通過對這些參數(shù)進(jìn)行綜合分析,找出薄弱環(huán)節(jié),一一進(jìn)行改進(jìn)。數(shù)據(jù)中心的運(yùn)行狀態(tài)是不斷變化,需要觀察這些參數(shù)變化,一旦出現(xiàn)偏離正常的數(shù)值,及時(shí)糾正。還要周期性對數(shù)據(jù)中心進(jìn)行各種故障模擬和演練,通過這些演練找到現(xiàn)有系統(tǒng)中的缺陷,并進(jìn)行改進(jìn),只要演練順利通過,避免真出了故障時(shí),業(yè)務(wù)無法切換到備用系統(tǒng)中來,確保所有的備用系統(tǒng)都好用,隨時(shí)準(zhǔn)備投入運(yùn)行。主動地去預(yù)防,找出數(shù)據(jù)中心里隨時(shí)可能出現(xiàn)的隱患,避免小隱患造成大事故。運(yùn)維的工具還是周期性地采集數(shù)據(jù)中心所有設(shè)備運(yùn)行日志,一旦設(shè)備報(bào)出異常日志,運(yùn)維的工具可以及時(shí)發(fā)現(xiàn),并將信息發(fā)送給相關(guān)技術(shù)人員,等待處理,也可以通過提前設(shè)定好的執(zhí)行程序,當(dāng)發(fā)現(xiàn)異常日志,由運(yùn)維的工具可以自動切換業(yè)務(wù)流經(jīng)的端口、鏈路、設(shè)備、路由等等,將業(yè)務(wù)切換到備用系統(tǒng)上來,避免對業(yè)務(wù)造成影響。
 
數(shù)據(jù)中心運(yùn)維的關(guān)鍵在于“防患于未然”,應(yīng)該重點(diǎn)強(qiáng)調(diào)的是“防患于未然”中的“防”。在故障發(fā)生之前,將所有隱患都能發(fā)現(xiàn),并在故障出現(xiàn)之前全部消除掉,這才是數(shù)據(jù)中心運(yùn)維的真正目的。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號