隨著中國(guó)經(jīng)濟(jì)的快速發(fā)展,工商銀行、農(nóng)業(yè)銀行、中國(guó)銀行、建設(shè)銀行等大型商業(yè)銀行已經(jīng)處于世界前列,支撐其IT系統(tǒng)運(yùn)行的數(shù)據(jù)中心面臨IT設(shè)施規(guī)模快速擴(kuò)張、IT應(yīng)用數(shù)量不斷增多、運(yùn)行壓力越來越大等挑戰(zhàn)。如何實(shí)現(xiàn)365天24小時(shí)的IT運(yùn)維,保證IT系統(tǒng)活著,是銀行數(shù)據(jù)中心運(yùn)維極為關(guān)鍵的一環(huán)。
在由企業(yè)網(wǎng)D1Net主辦的2018北京部委央企及大型企業(yè)CIO年會(huì)上,中國(guó)銀行數(shù)據(jù)中心副總經(jīng)理?xiàng)钪緡?guó)分享了對(duì)于數(shù)據(jù)中心運(yùn)維的經(jīng)驗(yàn)和見解。他提出,要建立數(shù)據(jù)中心可持續(xù)發(fā)展的一體化運(yùn)維管理體系,加速向智能化、數(shù)字化轉(zhuǎn)型。
“工商銀行、建設(shè)銀行、中國(guó)銀行等國(guó)有銀行的數(shù)據(jù)中心每天面對(duì)海量的交易量,像今年雙十一我們的交易量高達(dá)7億,每天有大量的IT設(shè)施和數(shù)據(jù)需要7*24小時(shí)進(jìn)行監(jiān)控和管理。如何保證運(yùn)維工作的有機(jī)統(tǒng)一,對(duì)外的不間斷服務(wù),是數(shù)據(jù)中心的重點(diǎn)。”
楊志國(guó)指出,國(guó)際上自動(dòng)化程度非常高的數(shù)據(jù)中心,利用程序來解決問題的有效性非常高,假設(shè)監(jiān)測(cè)到100種事件之后,無需人工干預(yù)而采用自動(dòng)化解決的概率能達(dá)到60%。”
而要實(shí)現(xiàn)這一切,首要是打造以“監(jiān)管控”為核心的一體化運(yùn)維管理體系,包括一體化監(jiān)控以及自動(dòng)化管理,把監(jiān)控的事件和流程打通,并進(jìn)行數(shù)據(jù)統(tǒng)一呈現(xiàn),展現(xiàn)各種報(bào)表。
向智能化運(yùn)維轉(zhuǎn)型
楊志國(guó)認(rèn)為,一體化運(yùn)維發(fā)展的終極形態(tài)是智能數(shù)字化運(yùn)維模式,其特點(diǎn)是自動(dòng)、開放、智能,人工干預(yù)少,高度自動(dòng)化、精細(xì)化、精準(zhǔn)化,通過大數(shù)據(jù)技術(shù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)以提供智能分析決策,實(shí)現(xiàn)運(yùn)維能力服務(wù)化。
“目前國(guó)內(nèi)還沒有能實(shí)現(xiàn)智能化運(yùn)維模式的數(shù)據(jù)中心。大多數(shù)銀行數(shù)據(jù)中心的運(yùn)維能力不足,架構(gòu)復(fù)雜、海量節(jié)點(diǎn)、多組件、跨平臺(tái),且自動(dòng)化覆蓋不足,靠人工滿足不了運(yùn)維需求。尤其是隨著數(shù)據(jù)量的增大,運(yùn)維的問題往往暴露得越來越多,運(yùn)維場(chǎng)景割裂,事件監(jiān)控有效性不夠,人工決策效率低,突發(fā)性事件處理能力差等等。”
依靠大數(shù)據(jù)和人工智能技術(shù),則可以更有效地應(yīng)對(duì)IT運(yùn)維上的挑戰(zhàn),楊志國(guó)詳細(xì)描繪了智能運(yùn)維的場(chǎng)景:
在監(jiān)控管理方面,傳統(tǒng)運(yùn)維是利用人工經(jīng)驗(yàn)來設(shè)定監(jiān)控閾值,而智能運(yùn)維場(chǎng)景事機(jī)器通過歷史監(jiān)控?cái)?shù)據(jù)規(guī)律的學(xué)習(xí),自動(dòng)生成更加準(zhǔn)確的閾值或者通過異常模式識(shí)別去主動(dòng)判斷異常的發(fā)生。
在故障定位方面,不再需要運(yùn)維人員翻閱大量的監(jiān)控?cái)?shù)據(jù)、事件日志,來定位一個(gè)問題。而是由機(jī)器根據(jù)系統(tǒng)中的網(wǎng)絡(luò)、機(jī)房、程序上下游調(diào)用關(guān)系等,綜合所有監(jiān)控?cái)?shù)據(jù)和采集日志來分析和定位。
在應(yīng)急操作方面,傳統(tǒng)由人工觸發(fā)應(yīng)急預(yù)案,編寫應(yīng)急手冊(cè)和腳本,機(jī)器全面監(jiān)測(cè)所有交易鏈路,分析交易量變化曲線,發(fā)現(xiàn)故障點(diǎn),自動(dòng)進(jìn)行隔離、分流和限流。
楊志國(guó)最后總結(jié)道,IT運(yùn)維解決了數(shù)據(jù)中心“活著”問題,怎么樣“活得更好”,應(yīng)從重點(diǎn)維“穩(wěn)”走向經(jīng)營(yíng)業(yè)務(wù)價(jià)值,意味著IT管理要更加精細(xì)化、自動(dòng)化、智能化、數(shù)字化、可視化。IT運(yùn)營(yíng)管理的架構(gòu)也將在傳統(tǒng)“監(jiān)、管、控”的IT運(yùn)維管理基礎(chǔ)上發(fā)展和變化,以適應(yīng)IT運(yùn)營(yíng)在體驗(yàn)、效率和效益方面的更多要求。他建議,數(shù)據(jù)中心要著力開展安全高效的運(yùn)營(yíng)管理體系建設(shè),建立完善的風(fēng)險(xiǎn)管理體系,智能、數(shù)字化運(yùn)維體系、服務(wù)管理體系、技術(shù)管理體系、性能質(zhì)量控制體系,確保了信息系統(tǒng)安全穩(wěn)定運(yùn)行,有力支持快速業(yè)務(wù)發(fā)展。