AIOps并不是憑空而起的技術(shù),實際上,運維一直是數(shù)據(jù)中心重要的工作之一,在數(shù)據(jù)中心漫長的生命周期內(nèi),幾乎大部分時間都是運維的工作。在運維發(fā)展的過程中,從最開始的人工運維,到工具運維,再到Devops,Devops可以理解為自動化運維,現(xiàn)在到了AIOps的時代。人工運維顧名思義,是利用單獨的腳本或者一些簡單的工具,沒有較為完善的系統(tǒng)和運維理念,絕大部分運維的工作靠人工完成;工具運維則依賴較為完善的工具,并經(jīng)過不斷改進(jìn),工具越來越成熟,工具可以替代一些重復(fù)性的操作類人工工作;Devops則完全依賴自動化,通過SRE、Chatops等高級形式工具,將運維流程和操作實現(xiàn)完全自動化,Devops可以代替大部分的人力工作;AIOps則將AI技術(shù)引入到運維當(dāng)中,通過機器的自我學(xué)習(xí)、自行分析決策,自動去執(zhí)行腳本。顯然,隨著運維技能的提升,數(shù)據(jù)中心越來越多運維的工作都可以交由機器來自動完成,至少最終數(shù)據(jù)中心完全可以自動運行,鮮有人工參與,這樣能極大降低數(shù)據(jù)中心的人力成本,提升數(shù)據(jù)中心的競爭力。
AIOps可并不是拿來就可以用的,它要對海量的數(shù)據(jù)進(jìn)行學(xué)習(xí),學(xué)習(xí)完后有了經(jīng)驗,才能夠根據(jù)學(xué)習(xí)的經(jīng)驗來工作。所以AIOps需要大量的監(jiān)測日志、設(shè)備運行狀態(tài)信息、已發(fā)生過的故障、歷史經(jīng)驗、自動化腳本等等,數(shù)據(jù)越豐富,AIOps的能力就越強,試想如果靠人去記憶查找,人的大腦是記不住太多東西的,而機器不同,它可以清楚記得數(shù)十G文件中的任何位置的標(biāo)點符號,相對于人類的智慧——雖然是無限的,但不如機器來得高效。所以當(dāng)遇到問題時,AIOps依賴的歷史數(shù)據(jù)要比人腦積攢的多得多,如此才能給出最佳的問題處理方式,這也是AI在任何一個領(lǐng)域中應(yīng)用時所用的相同方式。AIOps就是將人工決策分析交給了機器,用機器學(xué)習(xí)方法做決策分析。從技術(shù)上說,AIOps需要大量的實踐和沉淀,任何歷史的經(jīng)驗數(shù)據(jù)對AIOps都有益。如果說AIOps學(xué)習(xí)的數(shù)據(jù)樣本很少,那么再好的算法,也會經(jīng)常給不出決策結(jié)果,最終還是要人工干預(yù),要是事事還要人去參與,那AIOps就失去存在的意義了。在AIOps學(xué)習(xí)階段,要給AIOps輸入大量的學(xué)習(xí)樣本,學(xué)的越多,AIOps能夠代替人處理的工作就會越多,隨著時間的積累,你會發(fā)現(xiàn)AIOps能干的事情越來越多,只要讓AIOps學(xué)習(xí)一次,類似的工作AIOps都可以做起來,比人工高效多了。數(shù)據(jù)中心出現(xiàn)故障是無法完全避免,重點是快速應(yīng)對,不以發(fā)生故障為恥,以快速修復(fù)為榮,AIOps幾乎可以數(shù)秒之間就可以完成故障排查和解除,在這么短的時間完成,人工是無法做到的,這么快就恢復(fù),業(yè)務(wù)層面也基本不會有感知,真正做到即便出故障了,也能保持業(yè)務(wù)無中斷。
AIOps既然是這么棒的技術(shù),一定在數(shù)據(jù)中心大受歡迎吧,實際卻不是這樣。AIOps概念炒得挺火,真正落地實現(xiàn)的案例并不多。一方面是AIOps采用的機器算法很重要,算法要適應(yīng)數(shù)據(jù)中心的環(huán)境,根據(jù)數(shù)據(jù)可以得出接近人判斷的結(jié)果,AI技術(shù)本身也在不斷發(fā)展過程中,這方面也還不成熟,技術(shù)雖夠先進(jìn),可與實際應(yīng)用還有距離。另一方面是每個行業(yè)的數(shù)據(jù)都有自己的特點,數(shù)據(jù)中心也不例外,而且數(shù)據(jù)中心的數(shù)據(jù)量和特征都特別多,這對AI是個挑戰(zhàn),數(shù)據(jù)中心里有太多新的IT技術(shù),產(chǎn)生很多新的數(shù)據(jù),這些都需要AIOps不斷調(diào)整算法,不斷去適應(yīng)和學(xué)習(xí),如果學(xué)的不好,容易給出錯誤的決策,導(dǎo)致系統(tǒng)失控和癱瘓,這時就需要人工多介入,及時調(diào)整AIOps的算法和數(shù)據(jù)錄入的準(zhǔn)確性,將一個數(shù)據(jù)中心的AIOps真正建起來,這不亞于數(shù)據(jù)中心運維工作幾年的工作量。所以AIOps需要一個專業(yè)的團(tuán)隊來做,大型的企業(yè)都有自己的AIOps團(tuán)隊,而中小企業(yè)則從外部聘請IBM、Oracle等AI技術(shù)公司來做,這種投入目前看也是蠻大的,往往讓那些想引入AIOps的數(shù)據(jù)中心暫時擱置起來。所以,當(dāng)前AIOps落地成了最大的難題,已有部署AIOps的數(shù)據(jù)中心,AIOps發(fā)展差異都很大。
運維未來的方向肯定是AIOps,這一點毋庸置疑,只不過AIOps仍處于偏理論階段,還需要時間進(jìn)行不斷完善。AIOps 可以貫徹整個運維領(lǐng)域,從硬件資源規(guī)劃、管理、實施,操作系統(tǒng)安裝配置,到中間件及應(yīng)用軟件的上線、變更,以及后續(xù)的監(jiān)控、報警、維護(hù)、優(yōu)化等各方面都能夠支持,AIOps幾乎無所不能,只要人能做的工作,AIOps都能做,人不能做的工作,AIOps也都能做。隨著AIOps的成熟,后面也許會進(jìn)入AIDevops時代,它比AIOps多了一個Dev,比Devops多了一個AI。這是智能化開發(fā)和運維、智能化生命周期管理時代,這要比AIOps還要智能,將具有度量、分析、學(xué)習(xí)、預(yù)測、指導(dǎo),行動的能力,AIDevops才是智能運維的未來。