狀態(tài)運(yùn)維是將運(yùn)維的工作做在了故障發(fā)生前,通過(guò)其故障前的一系列表現(xiàn),提前發(fā)現(xiàn)問(wèn)題。這就像是地震預(yù)測(cè),雖說(shuō)地震預(yù)測(cè)技術(shù)還不夠準(zhǔn)確,但不少時(shí)候已經(jīng)可以提前一定時(shí)間發(fā)現(xiàn)哪里有可能會(huì)發(fā)生地震,這樣就可以在地震來(lái)之前,將人員和物品轉(zhuǎn)移走,避免人員傷亡。大數(shù)據(jù)和人工智能是狀態(tài)運(yùn)維必不可少的技術(shù),若不是這兩種技術(shù)的出現(xiàn)和火熱,也不可能出現(xiàn)狀態(tài)運(yùn)維的概念。狀態(tài)運(yùn)維的技術(shù)要依靠大量的歷史數(shù)據(jù),這包括設(shè)備之前運(yùn)行的所有狀態(tài),發(fā)生過(guò)的所有故障,一臺(tái)設(shè)備的各種日志信息、告警、故障表現(xiàn)、特性等數(shù)據(jù)都不少,要將數(shù)據(jù)中心所有設(shè)備的這些信息都集中起來(lái),那必然是海量數(shù)據(jù),還要從這些海量數(shù)據(jù)找到一定的必然規(guī)律,這就需要借助大數(shù)據(jù)技術(shù)分析,得出一些有總結(jié)的東西出來(lái)。比如:當(dāng)設(shè)備出現(xiàn)內(nèi)部端口DOWN告警,就知道會(huì)影響到網(wǎng)絡(luò)轉(zhuǎn)發(fā)流量,就需要將這臺(tái)設(shè)備隔離,讓網(wǎng)絡(luò)流量不流經(jīng)這臺(tái)設(shè)備;比如發(fā)現(xiàn)設(shè)備CPU高,設(shè)備的狀態(tài)效率就會(huì)降低,在設(shè)備癱了之前,就要找到導(dǎo)致CPU高的原因,將CPU降下來(lái),避免故障的發(fā)生,通過(guò)大數(shù)據(jù)技術(shù)讓狀態(tài)運(yùn)維可以做到預(yù)防運(yùn)維。狀態(tài)的運(yùn)維還要依仗人工智能進(jìn)行一定的預(yù)判,分析設(shè)備未來(lái)的工作狀態(tài),比如設(shè)備內(nèi)部溫度每升高一度,狀態(tài)效率就要下降20%,類(lèi)似這樣的預(yù)測(cè)分析。俗話(huà)說(shuō)“冰凍三尺,非一日之寒”,任何事物都是由量變到質(zhì)變的發(fā)展過(guò)程,在故障發(fā)生之前,設(shè)備多多少少都會(huì)有一些異常表現(xiàn)。有人可能會(huì)說(shuō),設(shè)備若發(fā)生硬件故障,怎么預(yù)測(cè),天知道明天會(huì)有哪臺(tái)設(shè)備會(huì)出現(xiàn)硬件故障。其實(shí)依然有手段可以監(jiān)測(cè),從而做到預(yù)判,只不過(guò)現(xiàn)在的監(jiān)測(cè)技術(shù)還比較初級(jí),不夠深入。若將設(shè)備CPU的時(shí)鐘、Catch內(nèi)存、指令運(yùn)算這些過(guò)程都監(jiān)控起來(lái),那么只要CPU運(yùn)行有偏差,就會(huì)發(fā)現(xiàn),任何一個(gè)CPU故障都有一個(gè)過(guò)程,不可能一下子所有的模塊部件都不靈光了,在其CPU徹底死掉之前,抓到異常信息即可,這樣瞬間將業(yè)務(wù)遷移到其它設(shè)備上去,將這臺(tái)設(shè)備隔離,從而避免等到CPU徹底死掉,業(yè)務(wù)掛掉再去處理,通過(guò)人工智能技術(shù)讓狀態(tài)運(yùn)維可以做到預(yù)知運(yùn)維。
狀態(tài)運(yùn)維不僅可以保障設(shè)備持續(xù)健康運(yùn)行,減少失效時(shí)間,提高生產(chǎn)率,還大大降低了大型設(shè)備由于故障停機(jī)造成數(shù)據(jù)中心的財(cái)產(chǎn)損失和設(shè)備的運(yùn)維成本,改善庫(kù)存和供應(yīng)鏈,對(duì)增加數(shù)據(jù)中心利潤(rùn),改善數(shù)據(jù)中心經(jīng)濟(jì)效益具有切實(shí)重要的指導(dǎo)意義?,F(xiàn)在,狀態(tài)運(yùn)維受到越來(lái)越多人的重視,數(shù)據(jù)中心已經(jīng)不允許隨意中斷業(yè)務(wù),很多技術(shù)專(zhuān)家都在絞盡腦汁為數(shù)據(jù)中心的穩(wěn)定運(yùn)行出謀劃策,狀態(tài)運(yùn)維是數(shù)據(jù)中心要走的必由之路。不過(guò),現(xiàn)在的數(shù)據(jù)中心運(yùn)維水平差距有點(diǎn)大,能夠做到預(yù)防運(yùn)維的翎毛鳳角,能做到預(yù)知運(yùn)維的恐怕還沒(méi)有,不然怎么那么多大型數(shù)據(jù)中心時(shí)不時(shí)的還在發(fā)生一些影響業(yè)務(wù)的故障呢,連亞馬遜、阿里云這類(lèi)的技術(shù)型巨頭企業(yè)都避免不了。所以,基于狀態(tài)運(yùn)維的發(fā)展方向沒(méi)錯(cuò),但還需要努力,需要大量的歷史有效數(shù)據(jù),而不是無(wú)用的垃圾數(shù)據(jù);需要先進(jìn)的適合數(shù)據(jù)中心環(huán)境的人工智能技術(shù),而不是隨便拿來(lái)人工智能技術(shù)硬往數(shù)據(jù)中心的設(shè)備上套,那預(yù)知結(jié)果很可能會(huì)事與愿違,反而成了開(kāi)展運(yùn)維工作的絆腳石,最怕不出故障時(shí)天天預(yù)報(bào),真出了故障又不報(bào),這樣的技術(shù)不用也罷。
狀態(tài)運(yùn)維作為未來(lái)數(shù)據(jù)中心運(yùn)維的發(fā)展方向,必將為數(shù)據(jù)中心帶來(lái)無(wú)限好處。其實(shí),早在二十年前1998年,美國(guó)軍方就提出故障預(yù)測(cè)與健康管理PHM這一概念,對(duì)設(shè)備由定期運(yùn)維轉(zhuǎn)變成預(yù)知性的運(yùn)維,只不過(guò)當(dāng)時(shí)的計(jì)算機(jī)技術(shù)還不夠發(fā)達(dá),計(jì)算能力也較低,很多想法沒(méi)有技術(shù)可以實(shí)現(xiàn)。現(xiàn)如今,云計(jì)算、大數(shù)據(jù)、人工智能計(jì)等新技術(shù)撲面而來(lái),計(jì)算能力也得到急速提升,就算單機(jī)的計(jì)算速度有限,也可以通過(guò)云計(jì)算將多臺(tái)設(shè)備聯(lián)合起來(lái)同時(shí)計(jì)算,這樣就不存在計(jì)算能力限制的問(wèn)題。狀態(tài)運(yùn)維呼之欲出,再次來(lái)到人們面前。雖很多技術(shù)仍需完善,數(shù)據(jù)中心的基礎(chǔ)水平也可能不夠,但并不妨礙這一技術(shù)的發(fā)展,為數(shù)據(jù)中心的運(yùn)維添磚加瓦。