數(shù)據(jù)中心是信息處理的重要場所,里面的設備承載著很多重要的業(yè)務,對連續(xù)穩(wěn)定運行都有很高要求。可是業(yè)務的運行還是要靠成千上萬臺的電子設備穩(wěn)定運行來保證,為了確保這些設備運行不出問題,或者出了問題也讓業(yè)務層面感知不到,數(shù)據(jù)中心運維的技術人員想了很多辦法,有些還逐漸成為了行業(yè)運維的標準,很多數(shù)據(jù)中心都效仿和執(zhí)行。其實,有時技術人員做這些不成文的規(guī)定也是實屬無奈,根本目的還是為了保證數(shù)據(jù)中心業(yè)務的連續(xù)穩(wěn)定運行。業(yè)務中斷對于數(shù)據(jù)中心都是天大的事兒,業(yè)務中斷的損失很多都是以秒來計費,所有的規(guī)定都是為數(shù)據(jù)中心服務的。那我們就來看看,運維的工作都有哪些好玩的不成文規(guī)定。
重大節(jié)假日必封網(wǎng)
每逢重大節(jié)假日來臨,各大網(wǎng)絡運營商,重要行業(yè)企業(yè)等的數(shù)據(jù)中心紛紛進行封網(wǎng)。所謂封網(wǎng),就是停止一切對數(shù)據(jù)中心的人為操作和業(yè)務變更,讓設備自己運行,不進行人工干預。封網(wǎng)并不是減少人員的值班,而是要加強人員的值守,確保數(shù)據(jù)中心運行不出問題,若出問題也及時處理和消除。此時封網(wǎng)可以減少一些人為故障,要知道百分之八十的故障都是人為操作產(chǎn)生的,不去動它反而是最安全的。誰也不想在關鍵時刻自己的數(shù)據(jù)中心掉鏈子,出風頭,就像馬上要召開的十九大,現(xiàn)在所有主流的數(shù)據(jù)中心都已經(jīng)封網(wǎng),不再允許做任何的網(wǎng)絡變更操作(設備出現(xiàn)故障的除外),有的數(shù)據(jù)中心機房甚至已經(jīng)上鎖,無人可以進得去。這項制度也是數(shù)據(jù)中心在運維的工作中摸索出來的,從以往的歷史經(jīng)驗看,只要減少人為干預,讓設備自己運行,出現(xiàn)問題概率會大大下降,所以在關鍵時期堅決不做任何變更操作,就讓數(shù)據(jù)中心自行運行,發(fā)生故障的概率最低。
定期重啟設備
我們的手機如果用久了速度會變慢,如果重啟一下再用會發(fā)現(xiàn)好很多。其實對于數(shù)據(jù)中心里的設備也是這樣,數(shù)據(jù)中心里的設備常年不中斷運行,運行時間久了,各種內(nèi)存垃圾,各種軟件BUG就容易暴露出來,設備出問題的風險隨之增加,定期對設備進行重啟,將有助于減少故障的發(fā)生,延長設備使用壽命。如果設備上業(yè)務沒有備份,重啟設備可能對業(yè)務造成影響。所以,在重啟設備前要做好評估,避免主動重啟給業(yè)務造成影響。如果重啟一次設備對業(yè)務造成的中斷時間可以接受,那么可以定期,比如半年或一年對設備主動進行一次重啟,如果設備使用的軟件版本較老,也可以借此進行軟件升級,不要認為重啟了設備就是一件很丟人的事情。這就像馬拉車,走的時間久了,馬也需要休息一下。有的數(shù)據(jù)中心每年都做一兩次的故障模擬演練,這其中就包括對設備的重啟,來檢查數(shù)據(jù)中心系統(tǒng)的穩(wěn)定性和冗余性,有這個演練就很好,不僅可以讓設備臨時休息一下,也可以及時發(fā)現(xiàn)數(shù)據(jù)中心運行的漏洞,進行修補。千萬不要被動等出了嚴重問題時,再考慮重啟設備恢復,這時往往會給業(yè)務造成嚴重損失。
加強對設備操作管理
數(shù)據(jù)中心里有很多設備,不同的設備來自不同的廠家,使用的功能也不同,對這些設備的操作人員要進行嚴格管理。避免不熟悉設備的人誤操作設備,這些人為故障數(shù)不勝數(shù)。所以一定要對訪問設備的權限做控制,不同的設備由不同的人來管理,由最熟悉它的人來控制。對于一些設備變更操作,要提前做評估,配置是否符合規(guī)范,是否有已知風險,讓設備廠商也參與到變更操作中來,以防出現(xiàn)變更未達預期的情況出現(xiàn)。數(shù)據(jù)中心對登錄設備管理非常嚴格,對不同的人員都有不同的權限要求,如果需要申請相應更高訪問權,需要到高級領導那里去申請,并且將操作的理由和原因說清楚,這是數(shù)據(jù)中心運維管理工作的重要組成部分。
隔離/離線/重啟三把斧
數(shù)據(jù)中心運行過程中出現(xiàn)故障,第一時間就是恢復業(yè)務,定位故障原因是其次,所以運維人員處理故障時,首先要明確故障位置,如果短時間內(nèi)無法完全明確,也要嘗試進行恢復業(yè)務的操作,這時常用的就是這三把斧:隔離、離線、重啟。這三把斧都是針對具體設備的,因為數(shù)據(jù)中心故障都是來自具體設備,穩(wěn)定運行過程中出了故障基本都是其中某個或某些設備出問題了。隔離就是只根據(jù)業(yè)務故障的范圍,對故障的設備端口、VLAN或流量進行切換,切換到其它正常的通道上來,如果故障范圍無法明確這些細,就考慮對設備盡心離線,即將設備下線,整個設備的業(yè)務切換到其它設備上來,比如某個服務器業(yè)務異常了,將這個服務器上的虛擬機遷移到其它服務器上來,盡快恢復業(yè)務。有時,設備之間沒有備份無法進行離線處理,比如一些核心的網(wǎng)絡設備,離線需要做大量的業(yè)務切換工作,這時就考慮對設備進行重啟了,看重啟能否恢復,一般運行異常的設備通過重啟基本都能恢復,在短時間內(nèi)繼續(xù)正常運行,這樣為分析問題原因贏得了寶貴時間。一方面繼續(xù)分析原因,一方面讓數(shù)據(jù)中心業(yè)務正常運行下去,找到問題原因后,再將隱患補救。
數(shù)據(jù)中心運維人員在日常的工作中逐漸摸索出了很多經(jīng)驗,這些都是一個個血的教訓換來的,是數(shù)據(jù)中心的寶貴財富。有些規(guī)定雖然沒有太深的技術支撐,但卻非常實用,這些也是運維人員面對數(shù)據(jù)中心故障時想到的辦法。俗話說“話糙理不糙”,這些不成文的規(guī)定看似簡陋,關鍵時刻卻非常管用。
版權聲明:本文為企業(yè)網(wǎng)D1Net原創(chuàng)文章,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權利。