不同的云遷移策略以不同的方式推動(dòng)業(yè)務(wù)敏捷性,但投資于監(jiān)控(特別是應(yīng)用程序監(jiān)控)是云遷移清單中列出的這些方案的首要任務(wù):
•適用于將應(yīng)用程序直接轉(zhuǎn)換為云計(jì)算基礎(chǔ)設(shè)施的提升和轉(zhuǎn)移策略。監(jiān)視可以指示意外的性能問題。
•針對(duì)云中轉(zhuǎn)換,其中應(yīng)用程序經(jīng)過重新設(shè)計(jì)和優(yōu)化以在云中運(yùn)行。添加的監(jiān)控可以提醒用戶注意新的事件類型和無法預(yù)料的容量問題。
•將應(yīng)用程序部署到多個(gè)云平臺(tái)時(shí)。增加的監(jiān)控功能可以報(bào)告延遲問題,并幫助確定跨多個(gè)微服務(wù)的復(fù)雜事務(wù)的根本原因。
監(jiān)控云計(jì)算應(yīng)用程序和服務(wù)可能需要新工具
不幸的是,添加新的監(jiān)控功能可能并不容易。對(duì)于開始采用云計(jì)算的組織來說,需要考慮一整套新的監(jiān)控工具和警報(bào)類型。已經(jīng)投資和運(yùn)營(yíng)數(shù)據(jù)中心的組織可能會(huì)發(fā)現(xiàn),用于虛擬化系統(tǒng)和私有云的內(nèi)部部署工具可能無法用于公共云應(yīng)用程序、服務(wù)以及無服務(wù)器計(jì)算。即使組織采用多云策略,他們也可能希望利用每個(gè)云計(jì)算供應(yīng)商的內(nèi)置監(jiān)控功能。這實(shí)質(zhì)上意味著任何云遷移都可能引入新的監(jiān)控工具。
云遷移的另一個(gè)因素是,新用戶通常需要參與配置監(jiān)控工具和響應(yīng)警報(bào)。例如,新的云原生應(yīng)用程序可能有開發(fā)人員、DevOps工程師和業(yè)務(wù)所有者的參與,他們是關(guān)于監(jiān)控什么和發(fā)生事件時(shí)應(yīng)該向誰發(fā)出警報(bào)的主題專家。新成員可能使用不同的工作流工具:新的云優(yōu)先團(tuán)隊(duì)可能使用JIRA和Slack,而數(shù)據(jù)中心團(tuán)隊(duì)可能使用ServiceNow和Skype for Business。
最重要的是,即使有很好的理由將監(jiān)控添加到云遷移清單中,也會(huì)增加復(fù)雜性。當(dāng)集中監(jiān)控策略作為云遷移或多云策略的一部分執(zhí)行時(shí),這可以實(shí)現(xiàn)最小化。
實(shí)施集中監(jiān)控策略
通過查看過去如何部署和配置監(jiān)控工具,企業(yè)可以更好地了解集中監(jiān)控解決方案的需求和功能。
大多數(shù)IT運(yùn)營(yíng)團(tuán)隊(duì)都從一些基本的監(jiān)控工具(如Nagios和Perfmon)或平臺(tái)(如Solarwinds、Whatsup Gold和OpManager)開始報(bào)告網(wǎng)絡(luò)和基礎(chǔ)設(shè)施。這就是運(yùn)營(yíng)團(tuán)隊(duì)?wèi)?yīng)該在響應(yīng)基礎(chǔ)設(shè)施問題方面更強(qiáng)大的原因,但在應(yīng)對(duì)最終用戶、應(yīng)用程序或數(shù)據(jù)庫性能問題時(shí)歷來表現(xiàn)不佳。
除基礎(chǔ)設(shè)施監(jiān)控工具外,運(yùn)營(yíng)團(tuán)隊(duì)更常見的是根據(jù)需要添加監(jiān)控工具。在某些情況下,添加工具是為了響應(yīng)一系列重復(fù)出現(xiàn)的問題,例如,監(jiān)視不可靠的數(shù)據(jù)庫是否存在容量和性能問題。在其他情況下,監(jiān)控與添加新的基礎(chǔ)設(shè)施(如新的數(shù)據(jù)中心位置、網(wǎng)絡(luò)、企業(yè)系統(tǒng)或存儲(chǔ)設(shè)備)緊密相連。添加云計(jì)算基礎(chǔ)設(shè)施屬于第二類。
在添加新的監(jiān)控工具時(shí),分配給工程師的工程師通常會(huì)配置該工具以設(shè)置報(bào)告和警報(bào),以便直接發(fā)送給其團(tuán)隊(duì)。這可能是快速配置報(bào)告和警報(bào)的最簡(jiǎn)單方法,但從長(zhǎng)遠(yuǎn)來看,它創(chuàng)建了對(duì)信息的孤立訪問,以及多個(gè)團(tuán)隊(duì)從不同工具接收警報(bào)的可能性。
更好的方法是集中監(jiān)控。每個(gè)監(jiān)控解決方案都會(huì)收集數(shù)據(jù),并具有對(duì)診斷問題有用的專有報(bào)告。但這些相同的監(jiān)視數(shù)據(jù)隨后被聚合到一個(gè)集中的監(jiān)視程序中,該監(jiān)視程序隨后可以在更廣泛的數(shù)據(jù)范圍內(nèi)集中執(zhí)行許多功能。這種集中化有幾個(gè)好處:
•可以從多個(gè)監(jiān)控工具對(duì)邏輯事件進(jìn)行邏輯分組。來自獨(dú)立監(jiān)測(cè)工具的警報(bào)不再盲目地向獨(dú)立團(tuán)隊(duì)發(fā)送。相反,警報(bào)在邏輯上整合為事件,使用更廣泛的數(shù)據(jù)集進(jìn)行分析,并智能地路由到正確的團(tuán)隊(duì)進(jìn)行響應(yīng)。
•中央系統(tǒng)可以分析可能指示容量、安全性或應(yīng)用程序可用性問題的不斷變化的趨勢(shì)。
•通過集中監(jiān)控工具可以更有效地實(shí)現(xiàn)與工作流工具的集成,而不是在點(diǎn)對(duì)點(diǎn)集成中進(jìn)行連接。
首先通過集中數(shù)據(jù)和與工作流工具的集成來實(shí)現(xiàn)智能化。當(dāng)組織實(shí)施自主操作,并利用開放式機(jī)器學(xué)習(xí)將警報(bào)智能分組為可管理的事件時(shí),真正的好處成為現(xiàn)實(shí)。
云遷移是實(shí)施集中監(jiān)控的最佳時(shí)機(jī)
創(chuàng)建集中式監(jiān)控解決方案的理想時(shí)機(jī)是將應(yīng)用程序和服務(wù)遷移到云端。企業(yè)仍然必須在基礎(chǔ)設(shè)施、應(yīng)用程序和服務(wù)級(jí)別完成配置監(jiān)控的過程。但是,企業(yè)沒有在這些解決方案中配置升級(jí),而是采取步驟將監(jiān)控?cái)?shù)據(jù)和警報(bào)集成到中央系統(tǒng)中。這將使工作從在單個(gè)監(jiān)控工具中實(shí)現(xiàn)升級(jí)轉(zhuǎn)移到了集中化的工具中。最后,IT運(yùn)營(yíng)團(tuán)隊(duì)可以輕松獲得集中化帶來的所有好處。
但這也取決于實(shí)施集中監(jiān)控所采取的方法,并且有幾種策略。實(shí)現(xiàn)專有的數(shù)據(jù)湖和報(bào)告工具可能提供最大的靈活性,但它確實(shí)需要在開發(fā)數(shù)據(jù)湖或數(shù)據(jù)倉庫、構(gòu)建報(bào)告、配置警報(bào)以及與工作流工具集成方面進(jìn)行投資。BigPanda等公司通過內(nèi)置集成、機(jī)器學(xué)習(xí)、自主操作和統(tǒng)一分析提供集中監(jiān)控。
集中監(jiān)控功能非常強(qiáng)大,尤其是當(dāng)機(jī)器學(xué)習(xí)正確地將多個(gè)警報(bào)關(guān)聯(lián)到單個(gè)事件時(shí),可以更快、更輕松地識(shí)別根本原因。這就是在核對(duì)清單中包含云遷移中的集中監(jiān)控的原因。它通過提供更豐富的監(jiān)控措施來平衡添加基礎(chǔ)設(shè)施新功能的風(fēng)險(xiǎn),而且它可以比在多個(gè)監(jiān)控工具中配置警報(bào)更有效地實(shí)現(xiàn)。