如今,數據中心越來越趨于自動化,并已成為數據中心良好運營的強大力量。以下列出在數據中心監(jiān)控自動化中經常出現的兩個主要問題。
問題1:房間里的大象
“房間里的大象”是指人們私密生活和公共生活中對于某些顯而易見的事實,集體保持沉默的社會現象。人們在進一步深入自動化之前,無論是自動發(fā)現,報告交付或警報觸發(fā)操作,必須做出一個關鍵點:在某些方面,它被稱為DPR周期。DPR代表檢測,預防和響應。
警報是工作人員在發(fā)生錯誤時捕獲錯誤的方式,但是由數據中心工作人員來決定它們發(fā)生的原因,并找到一種防止錯誤再次發(fā)生的方法。當構建一個解決方案以自動響應警報并進行修復時,作為負責任的數據中心專業(yè)人員,還應該致力于分析情況的艱苦工作,以找到模式和根本原因。然后需要解決根本原因,并創(chuàng)建檢查,以便知道是否再次出現問題。
對警報的自動響應保持企業(yè)的業(yè)務在所有的時間運行,并幫助確保知道你需要的時間,工作人員必須能夠看到發(fā)生了什么,做的工作出來為什么會發(fā)生,所以可以防止它在將來發(fā)生。這樣才不會出現“房間里的大象”問題。
問題2:內心恐懼
許多數據中心專業(yè)人員在第一次提出自動響應警報的想法時感到擔心。而具有一個真正有活力的大腦的人會對這些警報進行仔細思考,然后謹慎采取行動。這種想法就像站在“自動化”海洋的邊緣。有點令人望而生畏。但你必須相信不會被海水淹死,并且有能力一步步地嘗試。這并不是一個全有或全無的命題,其風險也將會從零到全部。
與任何IT工作一樣,有實施計劃有時比實施(或在這種情況下是自動化)本身更重要。所以可以再談談這個實施計劃:
·首先識別測試機器。無論是為這些目的而部署的實驗室設備還是那些不太重要的志愿者,請設置警報,以便觸發(fā)這些機器。
·學習使用反向閾值。雖然企業(yè)的最終警報將檢查CPU的工作負載量大于90%,工作人員可能希望避免反復測試。而CPU的工作負載量小于90%將觸發(fā)更多的可靠性,至少工作人員希望如此。
·查找復位選項。與上面密切相關,了解數據中心監(jiān)控工具如何重置警報,以便再次觸發(fā)。也許很可能會很多使用那個功能。
·詳細情況。數據中心工作人員想要了解發(fā)生什么和什么時候可能發(fā)生。如果數據中心的工具支持自己的日志記錄,請將其打開。在自動化中大量插入“我現在開始XYZ步驟”消息。雖然很乏味,但你會很高興所做到的事情。
·自己處理警報。如果你認為會通過發(fā)送這些警報到服務器團隊進行測試,事實上,你并不會把它發(fā)送到任何團隊,而會認為自己可以處理這些警報。
·你真的不需要通過電子郵件觸發(fā)那些警報。所有這一切都是在基礎設施上造成額外的延遲和壓力,以及如果你的警報同時啟動多個消息,可能會產生其他問題,會將消息發(fā)送到本地日志文件和顯示屏。
·分享警報提醒?,F在,你可以通過對話與小組的其他人分享警報提醒。
·采用對話。這個過程將涉及與其他人交談。設置自動化是協(xié)作的,因為你和那些每天都在一起工作的人都應該同意從基本功能到消息格式的一切。
·將相位器設置為滿。一旦自動化在企業(yè)的測試系統(tǒng)上工作,計劃通過分階段的方法實施。使用相同的機制,你用來限制幾個警報,你向網絡擴展,也許10-20個系統(tǒng)。并且你再次測試觀察結果。然后你擴大到50個左右。確保你和收件人都很滿意所看到的結果。記住,在這一點上,團隊正在接收常規(guī)警報,但你仍然應該看到之前提到的詳細消息。你應該與團隊進行審查,以確保你認為發(fā)生的是真正發(fā)生的事情。
遵循這些指南,任何自動響應應該有很高的成功機率,或者至少你會避免陷入糟糕的自動化,不會產生太多的損害。采用自動化的一個很好的經驗法則是用最小的努力獲得最大的回報。無論你現在看到的是什么基于系統(tǒng)的事件,這可能是你可以獲得的最大影響。另一個找到自動化想法的辦法就是聆聽團隊的想法,考慮是否有哪些用戶投訴是由系統(tǒng)故障驅動的。如果是這樣,它可能是解決自動化出現問題的機會。最后,不要計劃得太遠。你可能現在感到擔心在獲得一兩個成功之后,你會發(fā)現團隊正在尋求你的建議,以你的方式獲得幫助。