數(shù)據(jù)中心的可見性價值

責(zé)任編輯:cres

作者:John Jainschigg

2018-07-19 10:19:14

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

企業(yè)的監(jiān)控解決方案正在努力提供插件和模塊,使容器編排和相關(guān)系統(tǒng)的內(nèi)部工作更加可見。與此同時,頂級的市場參與者正在評估一系列策略,用于從分布式和容器化應(yīng)用中提取一些重要的信號,使它們能夠被觀察到。

保持企業(yè)關(guān)鍵應(yīng)用程序正常運行是企業(yè)的絕對必要條件。據(jù)調(diào)研機構(gòu)Gartner、IDC和其他公司估計,IT停機成本平均每分鐘約為4200英鎊。簡單的基礎(chǔ)設(shè)施故障可能花費大約75,000英鎊。而面向公眾的關(guān)鍵應(yīng)用程序的失敗成本更高,每小時為378,000英鎊到755,000英鎊。當(dāng)其故障影響大規(guī)模的全球物流運行,并給客戶帶來廣泛的不便時損失更為慘重。例如,去年五月,英國航空公司的運營系統(tǒng)出現(xiàn)故障,其損失迅速上漲。英國航空公司估計損失了1.0199億美元(7708萬英鎊)的硬性成本,其中包括對滯留乘客的機票退款,以及對聲譽的難以估量的損害。根據(jù)當(dāng)時的股票估值,英國航空公司的母公司IAG公司隨后損失了2.24億美元(1.7億英鎊)。
 
預(yù)防此類災(zāi)難,或在發(fā)生此類災(zāi)難時有效和快速地進行干預(yù),這意味著為開發(fā)人員和運營人員(DevOps)提供IT基礎(chǔ)設(shè)施、網(wǎng)絡(luò)和應(yīng)用程序的可視性?,F(xiàn)代IT監(jiān)控解決方案以多種方式提供這種可視性,包括:
 
•問題:攝取和發(fā)現(xiàn)。人工配置數(shù)百或數(shù)千臺主機的監(jiān)控是一個耗時且可能容易出錯的過程。運營商有時無法全面了解其權(quán)限范圍內(nèi)的所有主機、應(yīng)用程序和業(yè)務(wù)服務(wù)。解決方案:IT監(jiān)控系統(tǒng)越來越能夠自動化或推斷信息,配置管理數(shù)據(jù)庫(CMDB)、部署工具、云計算API和其他信息的信息源。這有助于運營商識別和標(biāo)記實體,可視化依賴關(guān)系,并在整個混合(即內(nèi)部部署和基于云計算)數(shù)據(jù)中心內(nèi)快速準(zhǔn)確地配置監(jiān)控。可以使用窗口管理器(WMI)、SNMP網(wǎng)絡(luò)發(fā)現(xiàn)和其他技術(shù)進行發(fā)現(xiàn)。
 
•問題:概要狀態(tài)顯示。數(shù)據(jù)中心運營商需要“單一控制窗”,可以匯總受到監(jiān)控的系統(tǒng)的大量狀態(tài)信息,讓他們快速發(fā)現(xiàn)問題并研究以確定根本原因。解決方案:采用成熟的IT監(jiān)控平臺提供可折疊的大綱樣式摘要顯示或計劃報告,允許操作人員隱藏或顯示有關(guān)受監(jiān)視主機和系統(tǒng)的有意義的信息子集。彩色編碼彈出窗口引起人們對問題的關(guān)注。可點擊標(biāo)簽可以快速訪問各個服務(wù)檢查、圖表、原始事件日志和故障排除工具的詳細信息。
 
•問題:儀表板。由于擁有太多的監(jiān)控數(shù)據(jù),密集度太高,可能難以使用。運營商需要能夠快速可視化關(guān)鍵指標(biāo)和狀態(tài)信息。解決方案:有價值的IT監(jiān)控系統(tǒng)允許企業(yè)使用圖形小部件創(chuàng)建可自定義的儀表板,隔離特定主機、指標(biāo)和KPI。對準(zhǔn)備好的面板的只讀訪問權(quán)限可以分發(fā)給關(guān)鍵利益相關(guān)者,了解應(yīng)用程序狀態(tài),服務(wù)等級協(xié)議(SLA)合規(guī)性等。
 
•問題:業(yè)務(wù)服務(wù)監(jiān)控。IT團隊和DevOps需要能夠可視化提供關(guān)鍵業(yè)務(wù)服務(wù)所涉及的所有基礎(chǔ)設(shè)施元素和系統(tǒng)的狀態(tài)。解決方案:業(yè)務(wù)服務(wù)監(jiān)控(BSM)是一種增強的儀表板功能,可讓運營商創(chuàng)建交互式視圖復(fù)雜應(yīng)用程序“堆棧”(例如,負載平衡器、Web /應(yīng)用程序服務(wù)器、數(shù)據(jù)庫集群、網(wǎng)絡(luò)設(shè)備和支持典型、擴展、高可用性、分層應(yīng)用程序的其他元素)。它非常適合那些對此負責(zé)的開發(fā)人員、產(chǎn)品經(jīng)理和其他人來了解他們擁有的應(yīng)用程序的狀態(tài),并使他們能夠在系統(tǒng)狀態(tài)開始降低時提供有效的幫助。
 
•問題:報告。實時狀態(tài)可視化并不能說明整個故事。主動管理和規(guī)劃還意味著能夠查看系統(tǒng)范圍的狀態(tài)、資源消耗趨勢和其他信息。解決方案:綜合報告使運營商能夠跟蹤合規(guī)性。它提供了對服務(wù)水平協(xié)議和目標(biāo)、計劃維護和升級、跟蹤成本、橫向擴展預(yù)算,以及許多其他用途的深入了解。
 
•問題:警告。嚴(yán)重問題可能需要操作人員全天候注意。解決方案:幾乎所有IT監(jiān)控解決方案都提供通過手機、電子郵件和短信提醒。許多還直接與通話管理系統(tǒng)和服務(wù)集成。在正確的時間正確地將警報路由到正確的人員是非常重要的。企業(yè)監(jiān)控平臺要么具備此功能,要么與經(jīng)過驗證的解決方案集成,以確保合適的人員在合適的時間獲得洞察力。
 
•問題:移動性。將運營商綁定到網(wǎng)絡(luò)運營中心(NOC)和辦公室影響士氣和生產(chǎn)力。解決方案:最好的IT監(jiān)控解決方案提供有用的移動應(yīng)用程序,使運營商能夠查看狀態(tài),關(guān)鍵業(yè)務(wù)服務(wù)和其他儀表板;并響應(yīng)來自任何地方的警報和通知。
 
•問題:通知和出站集成:一旦狀態(tài)信息從監(jiān)控系統(tǒng)聚合,問題是如何起源、跟蹤、分配、協(xié)作和解決的?解決方案:頂級監(jiān)控平臺提供與流行企業(yè)越來越廣泛的集成和中小企業(yè)問題跟蹤、服務(wù)臺和IT流程管理解決方案。在企業(yè)監(jiān)控平臺中尋找與Slack、ServiceNow、Puppet、Ansible等工具集成。詢問可擴展性,例如“其平臺能否輕松擴展其功能,以便與未來的解決方案集成?”
 
最低信號
 
正確監(jiān)控意味著不要想象每一個可能的信號。在理想情況下,控制使可見信號的最小子集產(chǎn)生最大可操作的洞察力:收集的每個指標(biāo)都伴隨著相關(guān)的硬成本和軟成本。隨著IT資產(chǎn)規(guī)模和復(fù)雜性的增長,與收集、處理、存儲、分析、顯示、查詢和報告指標(biāo)相關(guān)的開銷都會增加。這最終會影響應(yīng)用程序、網(wǎng)絡(luò)、監(jiān)視系統(tǒng)性能。
 
過度的可見性也給運營商帶來了嚴(yán)重的認知負擔(dān)。太多的復(fù)合體,很少使用或與操作無關(guān)的指標(biāo)可以偽裝基本信號(警報),從而減慢有效的事件響應(yīng)。如果缺乏對可見信號的選擇性,以及如何評估和引起對它們的關(guān)注可能很快導(dǎo)致過度警報。這可能促使人們對警報感到疲勞和倦怠,并最終導(dǎo)致真正發(fā)生事件時被人忽略。
 
調(diào)查非關(guān)鍵事件所耗費的操作人員時間對于更重要和更有影響力的工作而言是浪費時間。簡單地說:獲得可見性錯誤會付出更多的支出,并且可能阻礙創(chuàng)新。
 
最大洞察力
 
工作人員需要豐富的知識和經(jīng)驗來識別必要和充分的信號,以便最佳地監(jiān)控給定類型的基礎(chǔ)設(shè)施,應(yīng)用程序或業(yè)務(wù)服務(wù)。如果沒有適當(dāng)?shù)墓ぞ?、人員不足、時間緊張的IT人員通常很難提供這種級別的保證。
 
頂級IT監(jiān)控解決方案通過在模塊或插件中打包最佳度量標(biāo)準(zhǔn)集來彌補知識差距,從而可以快速、自信地設(shè)置最佳實踐兼容監(jiān)控。例如使用插件,操作員可以立即實施監(jiān)控MySQL數(shù)據(jù)庫的運行狀況、性能和資源消耗所需的20到40次服務(wù)檢查。
 
開發(fā)人員使用不太成熟的應(yīng)用程序性能監(jiān)視(APM)系統(tǒng)和開源工具鏈來構(gòu)建軟件,并在測試和生產(chǎn)環(huán)境中可視化應(yīng)用程序狀態(tài)。應(yīng)用程序性能監(jiān)視(APM)解決方案對于對應(yīng)用程序細節(jié)知之甚少的操作人員來說并不是很有幫助,他們的工作是保持眾多復(fù)雜的應(yīng)用程序順利運行。
 
與IT運營監(jiān)控不同,應(yīng)用程序性能監(jiān)視(APM)系統(tǒng)是多種多樣的,并且符合各種標(biāo)準(zhǔn)。例如,有許多開源服務(wù)器、驅(qū)動程序和其他工具,旨在從Proproheus(一種流行的指標(biāo)可視化和數(shù)據(jù)庫系統(tǒng))消耗HAproxy(一種流行的開源代理服務(wù)器/負載平衡器)中提取指標(biāo)。
 
觀測
 
監(jiān)控和可見性處理“已知未知數(shù)”,這眾所周知的性能特征/指標(biāo)和應(yīng)用程序和組件的已知硬故障模式。同時,可觀察性更集中,現(xiàn)在用于討論包含“未知未知數(shù)”的可見性超集。特別是,這指的是理解和管理動態(tài)、自擴展、彈性、分布式應(yīng)用程序行為的挑戰(zhàn)?;旧?,可見性知道可能發(fā)生的一組可預(yù)測問題,而可觀察性使人們能夠洞察出發(fā)生了什么,這需要進一步探究。
 
企業(yè)的監(jiān)控解決方案正在努力提供插件和模塊,使容器編排和相關(guān)系統(tǒng)的內(nèi)部工作更加可見。與此同時,頂級的市場參與者正在評估一系列策略,用于從分布式和容器化應(yīng)用中提取一些重要的信號,使它們能夠被觀察到。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號