背景
AIOps是調(diào)研機(jī)構(gòu)Gartner公司在2016年創(chuàng)造的一個(gè)術(shù)語。它描述了三個(gè)學(xué)科(自動(dòng)化、性能管理和服務(wù)管理)組成一個(gè)框架來改進(jìn)基礎(chǔ)設(shè)施管理員的能力,其實(shí)現(xiàn)由多個(gè)層組成。
•第1層–數(shù)據(jù)源。實(shí)現(xiàn)自動(dòng)化以及管理員執(zhí)行的典型任務(wù)需要配置和使用數(shù)據(jù)。這包括來自系統(tǒng)的遙測(cè)和應(yīng)用程序。
•第2層–實(shí)時(shí)處理。這意味著實(shí)時(shí)收集和處理遙測(cè)數(shù)據(jù),以獲取即時(shí)價(jià)值。
•第3層-規(guī)則/模式。需要使用已經(jīng)確定的規(guī)則和模式來分析數(shù)據(jù)。供應(yīng)商已經(jīng)在開發(fā)算法,這些算法可以使用PB級(jí)的遙測(cè)分析,并將其轉(zhuǎn)換為諸如異常檢測(cè)和故障診斷之類的工具。
•第4層–域算法。其中包括特定于站點(diǎn)的知識(shí),以了解本地化的使用模式和要求。
•第5層–自動(dòng)化。使用應(yīng)用程序接口(API)??和命令行界面(CLI)來驅(qū)動(dòng)諸如供應(yīng)和退役(面向客戶)之類的任務(wù)。這還包括自動(dòng)化性能管理,例如在可用基礎(chǔ)設(shè)施中重新平衡工作負(fù)載。
跨越所有這些層的是使用機(jī)器學(xué)習(xí)來觀察和檢測(cè)遙測(cè)數(shù)據(jù)中的趨勢(shì),異常,這對(duì)于工作人員而言是不切實(shí)際或無法計(jì)算的。因此需要了解人工智能/機(jī)器學(xué)習(xí)如何協(xié)助提供更有效的數(shù)據(jù)和存儲(chǔ)管理。
人為因素
為什么企業(yè)需要在存儲(chǔ)管理中引入諸如AIOps之類的工具?雖然全球創(chuàng)建的信息量繼續(xù)呈指數(shù)級(jí)增長,但企業(yè)中生成的數(shù)據(jù)(更重要的是存儲(chǔ)在企業(yè)中的數(shù)據(jù))也呈指數(shù)級(jí)增長。以前被丟棄甚至沒有創(chuàng)建的數(shù)據(jù)如今被視為具有某種可感知的未來價(jià)值。企業(yè)越來越多地使用機(jī)器學(xué)習(xí)和人工智能,從越來越多的機(jī)器生成的數(shù)據(jù)獲取信息。企業(yè)現(xiàn)在正在存儲(chǔ)數(shù)PB字節(jié)的信息,并希望對(duì)此進(jìn)行實(shí)際操作。
敏捷性
業(yè)務(wù)流程正在推動(dòng)對(duì)數(shù)據(jù)存儲(chǔ)容量的更大需求,但這只是IT組織所面臨挑戰(zhàn)的一方面。平均修復(fù)時(shí)間(MTTR)對(duì)于確?;A(chǔ)設(shè)施可用性水平接近100%變得至關(guān)重要。IT組織通常希望在問題發(fā)生之前就識(shí)別并解決問題,而不是等待嚴(yán)重的失敗。
•存儲(chǔ)和數(shù)據(jù)保護(hù)中對(duì)API的需求;
•存儲(chǔ)的智慧;
•存儲(chǔ)管理和DevOps。
減少或管理硬件干預(yù)措施還有其他積極方面。IT部門希望將工程師在數(shù)據(jù)中心更換故障設(shè)備的時(shí)間降到最低。任何數(shù)據(jù)中心干預(yù)都是一種風(fēng)險(xiǎn)。眾所周知,工程師會(huì)因更換而拔出錯(cuò)誤的硬件,或者意外地碰到設(shè)備并造成意外的停機(jī)或重啟。
隨著企業(yè)之間的競爭,從數(shù)據(jù)分析中獲取價(jià)值的時(shí)間越來越短。這意味著開發(fā)人員希望在更短的周期內(nèi)訪問存儲(chǔ)設(shè)備,最好是自動(dòng)化和按需訪問。隨著資源的創(chuàng)建、使用和返回到數(shù)據(jù)池中,人們預(yù)計(jì)其配置越來越靈活,這是任何存儲(chǔ)管理員都無法有效跟蹤的。
第1層-指標(biāo)
為了實(shí)現(xiàn)有效的AIOps,系統(tǒng)需要測(cè)量存儲(chǔ)操作信息的元數(shù)據(jù)和度量。這些端點(diǎn)從存儲(chǔ)系統(tǒng)的物理和邏輯方面收集數(shù)據(jù)。例如,單個(gè)HDD硬盤或SSD硬盤操作的數(shù)據(jù)提供了有關(guān)溫度、永久性和瞬態(tài)介質(zhì)故障、吞吐量、性能和設(shè)備正常運(yùn)行時(shí)間的信息。此集合擴(kuò)展到存儲(chǔ)機(jī)箱,記錄有關(guān)前端端口活動(dòng)、處理器和內(nèi)存負(fù)載、服務(wù)器溫度和室溫的統(tǒng)計(jì)信息。
數(shù)據(jù)收集不僅限于硬件。存儲(chǔ)軟件非常復(fù)雜,許多供應(yīng)商已將其設(shè)計(jì)模塊化。軟件端點(diǎn)可以跟蹤內(nèi)部應(yīng)用程序崩潰、過度使用內(nèi)存、硬件驅(qū)動(dòng)程序中的錯(cuò)誤以及甚至用于驅(qū)動(dòng)軟件的命令的使用。最后一點(diǎn)看起來似乎是一個(gè)不尋常的指標(biāo),但是,查看最終用戶是否在充分利用可用的命令功能或配置正確的最佳實(shí)踐選項(xiàng)集可能會(huì)很有用。
第2、3和4層–實(shí)時(shí)處理
如果無法實(shí)時(shí)進(jìn)行整理和分析,那么所有這些信息都將毫無用處。通常,人們看到兩層分析方法。首先,供應(yīng)商將數(shù)據(jù)整理到大型的中央存儲(chǔ)庫或數(shù)據(jù)倉庫中,這些存儲(chǔ)庫或數(shù)據(jù)倉庫代表了整個(gè)客戶安裝群中數(shù)以萬億計(jì)的各個(gè)端點(diǎn)數(shù)據(jù)。
這些數(shù)據(jù)集合提供了足夠的信息,可以對(duì)硬盤故障或可能影響整個(gè)客戶群的配置問題進(jìn)行統(tǒng)計(jì)分析。作為信息的長期存檔,供應(yīng)商使用這些數(shù)據(jù)來修復(fù)硬盤固件中的錯(cuò)誤或主動(dòng)替換易發(fā)生故障的介質(zhì)。這個(gè)數(shù)據(jù)源還可用于驗(yàn)證存儲(chǔ)操作系統(tǒng)軟件的質(zhì)量。
最終,這種類型的數(shù)據(jù)收集對(duì)供應(yīng)商有利,因?yàn)樗兄谔岣呦到y(tǒng)可用性并減少由字段引發(fā)的支持調(diào)用的數(shù)量。不過,客戶也看到了好處。通過代碼更新可能引入的錯(cuò)誤或其他問題可以避免或減輕。向管理員提供信息以做出明智的決策,而不是遇到其他客戶已經(jīng)遇到的問題。
異?,F(xiàn)象
整理大量單個(gè)客戶數(shù)據(jù)的第二個(gè)好處是能夠使用機(jī)器學(xué)習(xí)和人工智能技術(shù),突出配置中的異常或問題。這些場(chǎng)景可能包括確定性能熱點(diǎn)、容量或吞吐量的意外增長,或基礎(chǔ)設(shè)施的其他組件(如主機(jī)或虛擬機(jī)監(jiān)控程序?qū)?中的配置數(shù)據(jù)問題。
供應(yīng)商越來越多地提供識(shí)別勒索軟件,在多個(gè)硬件配置之間重新平衡工作負(fù)載,并為將來的升級(jí)或硬件更換提供建議的功能。最后一個(gè)選項(xiàng)特別有用,因?yàn)樗试S管理員建立一個(gè)模型,該模型選擇最有效的新硬件配置進(jìn)行升級(jí)和替換。
人工智能/機(jī)器學(xué)習(xí)
在討論過程中,都提到了機(jī)器學(xué)習(xí)和人工智能的使用。為什么這一點(diǎn)作為現(xiàn)代基礎(chǔ)設(shè)施管理的特征變得如此重要?在存儲(chǔ)領(lǐng)域,管理員將認(rèn)識(shí)到許多問題很容易消耗數(shù)小時(shí)或數(shù)天的工作時(shí)間。
一些良好的例子包括確定性能熱點(diǎn)(并加以解決)、跨系統(tǒng)(前端或后端)平衡I/O活動(dòng)以及跨多個(gè)存儲(chǔ)平臺(tái)管理容量增長。幸運(yùn)的是,通過設(shè)計(jì)、現(xiàn)代存儲(chǔ)解決方案可以自動(dòng)解決許多挑戰(zhàn),從而節(jié)省管理員數(shù)小時(shí)的時(shí)間來處理更有價(jià)值的任務(wù),從而為他們的客戶增加價(jià)值。
盡管在設(shè)計(jì)上取得了這些進(jìn)步,但是仍然出現(xiàn)了人類難以識(shí)別的異?,F(xiàn)象(勒索軟件就是一個(gè)很好的例子)。人工智能提供了自動(dòng)分析大量數(shù)據(jù)并創(chuàng)建經(jīng)過訓(xùn)練的模型的功能,然后可以對(duì)活躍系統(tǒng)進(jìn)行實(shí)時(shí)分析。
新工具
人們需要新的管理工具才能利用AIOps的優(yōu)勢(shì)。存儲(chǔ)供應(yīng)商已經(jīng)開始從基于GUI的系統(tǒng)轉(zhuǎn)移到管理界面,現(xiàn)在提供命令行界面(CLI)和應(yīng)用程序接口(API)??。命令行界面(CLI)提供了將命令集成到腳本和自動(dòng)構(gòu)建過程中的能力。應(yīng)用程序接口(API)??提供了更高級(jí)的交互級(jí)別,尤其是在提取報(bào)告或遙測(cè)數(shù)據(jù)時(shí)。
這并不意味著圖形界面就此終結(jié)。實(shí)際上,更加精明的存儲(chǔ)供應(yīng)商已經(jīng)轉(zhuǎn)向使用GUI作為顯示系統(tǒng)狀態(tài),顯示增長和性能趨勢(shì)的儀表板,并且通常轉(zhuǎn)向基于異常的系統(tǒng)基礎(chǔ)設(shè)施可視化。
評(píng)估供應(yīng)商
人們應(yīng)該如何在供應(yīng)商AIOps解決方案之間進(jìn)行選擇?這是選擇產(chǎn)品時(shí)要遵循的一些指示。
•供應(yīng)商是否正在收集并積極使用遙測(cè)數(shù)據(jù)?
•如何將問題反饋給存儲(chǔ)管理員(警報(bào)、電子郵件、儀表板)?
•從存儲(chǔ)平臺(tái)外部收集了多少信息?
•數(shù)據(jù)如何匿名和保護(hù)?
最后一點(diǎn),因?yàn)樵S多IT組織將關(guān)注共享存儲(chǔ)庫中存儲(chǔ)的數(shù)據(jù)的安全性。存儲(chǔ)供應(yīng)商應(yīng)該能夠準(zhǔn)確說明如何存儲(chǔ)和管理數(shù)據(jù),包括隨著時(shí)間的推移顛覆非必要數(shù)據(jù)的過程。
架構(gòu)師的觀點(diǎn)
盡管自動(dòng)化永遠(yuǎn)無法完全取代存儲(chǔ)管理員,但是諸如使用AIOps實(shí)現(xiàn)的功能可以提高存儲(chǔ)團(tuán)隊(duì)的效率,并使管理員騰出更多精力從事更有價(jià)值的任務(wù),例如與企業(yè)緊密合作以應(yīng)對(duì)未來需求。企業(yè)中數(shù)據(jù)的增長速度意味著企業(yè)必須找到提高單個(gè)團(tuán)隊(duì)成員效率的方法。如果沒有AIOps之類的解決方案,企業(yè)將難以與競爭對(duì)手進(jìn)行競爭,并可能無法充分利用數(shù)據(jù)資產(chǎn)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。