如何消除信息孤島,實(shí)現(xiàn)數(shù)據(jù)中心信息共享,可能各有各的招。以某大型央企為例,為建立信息共享服務(wù)中心,企業(yè)建立了自運(yùn)營(yíng)的大型數(shù)據(jù)中心,預(yù)計(jì)全部建設(shè)完畢后,白地板面積將達(dá)到8000平米,容納機(jī)柜4000個(gè),設(shè)備60000臺(tái)。而該數(shù)據(jù)中心將承載大量關(guān)鍵企業(yè)信息化系統(tǒng),譬如人力資源管理系統(tǒng)、財(cái)務(wù)核算管理系統(tǒng)、資金管理系統(tǒng)、預(yù)算管理系統(tǒng)數(shù)以及各戰(zhàn)略利潤(rùn)單元的ERP系統(tǒng)及其他業(yè)務(wù)信息系統(tǒng)近百套,運(yùn)營(yíng)部門面臨極大的挑戰(zhàn),如何能耳聰目明,管理好這么多基礎(chǔ)設(shè)施乃至于應(yīng)用系統(tǒng),依靠監(jiān)控工具是一條必經(jīng)之路。
讓我們來看一下企業(yè)的現(xiàn)狀,從信息管理部成立到現(xiàn)在不足5年,在工具上的投入呈現(xiàn)出條塊化,已經(jīng)基本實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)、基礎(chǔ)系統(tǒng)、虛擬化等領(lǐng)域的簡(jiǎn)單監(jiān)控,但是工具之間既有交疊的部分,交疊的部分的數(shù)據(jù)在不同工具中存在不一致現(xiàn)象;同時(shí)又存在不少盲區(qū),尚未納入管理;各技術(shù)團(tuán)隊(duì)自己管理和使用自己的工具,告警信息也無法分享給其他技術(shù)團(tuán)隊(duì),而且即便是分享了,其他團(tuán)隊(duì)也無法判斷其重要程度及影響面,而監(jiān)控告警信息作為事件流程的主要輸入,其現(xiàn)狀顯然極大制約了運(yùn)維的質(zhì)量及效率,什么是理想的狀態(tài)?又如何實(shí)現(xiàn)這一目標(biāo),成為運(yùn)營(yíng)團(tuán)隊(duì)的所需要解決的兩大問題。
我們用幾個(gè)問題來梳理我們的思路:
1、我們期望監(jiān)控解決我們什么問題,達(dá)到什么目的?
首先,監(jiān)控是運(yùn)維的基礎(chǔ),要解決問題首先要發(fā)現(xiàn)問題,確定問題的嚴(yán)重程度和多個(gè)報(bào)警之間的關(guān)聯(lián)關(guān)系,這樣運(yùn)維響應(yīng)才有目的和效率,處置才能精準(zhǔn)得當(dāng)。當(dāng)數(shù)據(jù)中心關(guān)聯(lián)的子系統(tǒng)之間同時(shí)報(bào)警,那么該如何定位、判斷故障呢?
其次,運(yùn)營(yíng)團(tuán)隊(duì)中不同的層級(jí)對(duì)監(jiān)控的關(guān)注點(diǎn)和所需要的信息是不同的,如何獲取高一致性的基礎(chǔ)監(jiān)控?cái)?shù)據(jù),并能通過DIKW(Data-Information-Knowledge-Wisdom)模式提煉出不同的信息切片,打造立體運(yùn)營(yíng)的管控信息平臺(tái)。
2、目標(biāo)、原則及架構(gòu)
顯然,如果有一個(gè)工具能囊括動(dòng)環(huán)、IT基礎(chǔ)設(shè)施、虛擬化平臺(tái)、操作系統(tǒng)、數(shù)據(jù)庫、中間件以及各類企業(yè)應(yīng)用,那是最理想的,但是現(xiàn)實(shí)往往是骨感的,這類大跨度、高集成的產(chǎn)品從前沒有過,估計(jì)以后也難以問世。
我們希望引入BI和大數(shù)據(jù)分析的一些思路,利用數(shù)據(jù)集成清洗展現(xiàn)等技術(shù)來實(shí)現(xiàn)這一技術(shù)目標(biāo),形成統(tǒng)一監(jiān)控平臺(tái)。
擬定的以下建設(shè)目標(biāo)和原則:
系統(tǒng)建設(shè)目標(biāo)
1) 全資源監(jiān)控覆蓋
2) 關(guān)鍵領(lǐng)域深度監(jiān)控
3) 系統(tǒng)具備高擴(kuò)展性,應(yīng)用業(yè)務(wù)的發(fā)展變化
4) 具備高精度和聯(lián)動(dòng)能力
5) 具備面向服務(wù)的應(yīng)用監(jiān)控能力
1) 使用盡量少的監(jiān)控工具結(jié)合,覆蓋全資源監(jiān)控
2) 投資保護(hù)原則,盡量利用原有的監(jiān)控工具
3) 監(jiān)控系統(tǒng)的技術(shù)架構(gòu)具備靈活性和集成能力
4) 監(jiān)控系統(tǒng)的技術(shù)架構(gòu)成熟,盡量減少二次開發(fā)的工作量
將統(tǒng)一監(jiān)控平臺(tái)的功能主要概括為三個(gè)層次,7大項(xiàng)功能:
系統(tǒng)層次:
信息展示層
1) ECC大屏監(jiān)控信息展示、統(tǒng)一的運(yùn)維Protal門戶、移動(dòng)終端展示
2) 基于角色的運(yùn)維視圖、3D可視化關(guān)聯(lián)的告警視圖、性能數(shù)據(jù)展現(xiàn)
ü 可根據(jù)集團(tuán)/BU的不同角色定制展現(xiàn)視圖,
ü 包括:ECC大屏,PCPortal和移動(dòng)終端等不同形式;
數(shù)據(jù)分析層
3) 統(tǒng)一數(shù)據(jù)倉庫集成性能、告警、配置等綜合數(shù)據(jù),進(jìn)行數(shù)據(jù)分析,生成性能、告警及日常巡檢報(bào)表。
4) 告警管理接收來自各種監(jiān)控子系統(tǒng)的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行跨技術(shù)域的關(guān)聯(lián)分析,并判斷對(duì)應(yīng)用的影響關(guān)系。
5) 同時(shí),告警管理還通過數(shù)據(jù)的過濾、壓縮、分類、豐富等技術(shù)手段,將真正需要關(guān)注和處理的故障事件從眾多的信息中提煉出來,幫助提高運(yùn)維質(zhì)量和運(yùn)維效率
6) 通過歷史性能數(shù)據(jù)的保存與分析,可以查看被管資源的歷史運(yùn)行情況,判斷其可用性與健康狀況,定位故障
能夠?qū)R聚上來的各類原始數(shù)據(jù)、性能數(shù)據(jù)、告警數(shù)據(jù)、日志數(shù)據(jù)等進(jìn)行關(guān)聯(lián)分析,形成各類分析報(bào)告和報(bào)表;
信息采集層
提供數(shù)據(jù)接口,采集各專業(yè)領(lǐng)域的監(jiān)控?cái)?shù)據(jù),覆蓋數(shù)據(jù)中心全資源。
可以直接采集各類納管IT/非IT組件的數(shù)據(jù),同時(shí)也可以靈活對(duì)接已有的各專業(yè)管理系統(tǒng)如網(wǎng)絡(luò)管理、安全管理、機(jī)房管理、應(yīng)用管理等;
3、建設(shè)路線規(guī)劃及分步目標(biāo)
由于統(tǒng)一監(jiān)控系統(tǒng)是一項(xiàng)耗資巨大且非常復(fù)雜的長(zhǎng)期工程,為減輕項(xiàng)目難度及風(fēng)險(xiǎn),在建設(shè)時(shí)我們考慮采取分階段實(shí)施的策略。階段的目標(biāo)及主要工作見下:
第一階段建設(shè)重點(diǎn):搭建設(shè)系統(tǒng)框架,覆蓋全資源監(jiān)控,夯實(shí)監(jiān)控基礎(chǔ)
第二階段建設(shè)重點(diǎn):整合應(yīng)用監(jiān)控,以數(shù)據(jù)分析、跨平臺(tái)聯(lián)動(dòng)為核心
第三階段建設(shè)重點(diǎn):面向業(yè)務(wù)的監(jiān)控,實(shí)現(xiàn)綜合應(yīng)用數(shù)據(jù)分析,掌控業(yè)務(wù)影響管理
根據(jù)經(jīng)驗(yàn)估算,第一二階段相對(duì)用時(shí)較短,在完善監(jiān)控管理流程的前提下,前兩階段可通過運(yùn)動(dòng)式進(jìn)行首次數(shù)據(jù)整理,后期仍需嚴(yán)格按照監(jiān)控管理流程去進(jìn)行運(yùn)維,確保CMDB中CI項(xiàng)的完整性和一致性。而第三階段則難度會(huì)較大,需要應(yīng)用項(xiàng)目組的支持與配合,在應(yīng)用系統(tǒng)中設(shè)置“探針”,進(jìn)行個(gè)性化訂制,建議采用逐個(gè)擊破的方式來推進(jìn),耗時(shí)往往會(huì)較長(zhǎng)。
以上對(duì)數(shù)據(jù)中心監(jiān)控工具的經(jīng)驗(yàn)談,僅供參考。