在互聯(lián)網(wǎng)的初期,數(shù)據(jù)中心的規(guī)模很小、很簡易。大型的電子商務服務數(shù)據(jù)中心僅用幾個19英寸的機架就可以部署所有需要的服務器、存儲及網(wǎng)絡設備。現(xiàn)如今數(shù)據(jù)中心,占地面積很大,成千上萬英畝,在這些數(shù)據(jù)中心上矗立著成千上萬的機架,上面部署著成千上萬的網(wǎng)絡設備。由于規(guī)模越來越大,設計理念的變遷,這些超大型的數(shù)據(jù)中心多數(shù)已經(jīng)建立距離市區(qū)較遠的地區(qū)或建立在工業(yè)電價便宜的偏遠地區(qū)。
隨著數(shù)據(jù)中心運營的自動化,像亞馬遜(Amazon Web Services)或微軟公共云(Microsoft Azure)這樣的公司未來會越來越少的雇傭高技術數(shù)據(jù)中心工程師,通常是安全人員和從事體力勞動的低技能工人要比數(shù)據(jù)中心高級工程師多,,他們通常高級工程師工作量大,處理更多的工作,比如人工處理硬件交付等。
用越來越少的工作人員管理更多的網(wǎng)絡設備,就意味著對于數(shù)據(jù)中心的電力和冷卻基礎設施的監(jiān)控,需要更多地通過傳感器來進行實時監(jiān)控,這樣的狀況,我們現(xiàn)在將之稱為物聯(lián)網(wǎng)。雖然物聯(lián)網(wǎng)在一定程度上有助于識別故障,但在很多情況下,具備豐富經(jīng)驗的工程自身積累的多年經(jīng)驗是很難用傳感器代替的。比如,經(jīng)驗豐富的工程師可以通過設備發(fā)出的聲響,分辨設備運行狀況,有些聲音代表風扇出現(xiàn)故障,通過滴水聲音,能夠判斷漏水位置。
數(shù)據(jù)中心管理人員需要更多的傳感器來監(jiān)控現(xiàn)代數(shù)據(jù)中心的基礎設施,新一代的應用程序旨在通過將機器學習應用到IOT,以此彌補差距。這個想法就是通過將操作人員的經(jīng)驗轉變成電腦規(guī)則,以此來分析通過傳感器得到音頻和視頻,例如,自動為日益增加的數(shù)據(jù)中心添加新的管理層。
451Research(一家研究機構)公司的分析師Rhonda Ascierto表示:”這項服務目標旨在——預測并防止數(shù)據(jù)中心基礎設施的事件與故障的發(fā)生, 更快地恢復故障、更快的擁有更多有效的容量意味著可以降低數(shù)據(jù)中心的風險。”
·預測分析和寬泛的數(shù)據(jù)多樣性
第一步是利用數(shù)據(jù)中心基礎設施管理(即DCIM)軟件的預測分析。例如,位于加利福尼亞州奧克蘭市的一家名為“Vigilent”的公司出品的軟件,該軟件的“控制系統(tǒng)是基于機器學習軟件,用于確定變量之間的關系,如機架溫度,冷卻單元設置,冷卻能力,冷卻冗余,功率使用和故障風險。 它通過打開和關閉單元來調(diào)節(jié)冷卻單元,包括變頻器(VFD),上下調(diào)節(jié)變頻器,以及調(diào)整單元的溫度設定值。“,該軟件使用無線溫度傳感器,并預測如果操作員采取某些措施會發(fā)生什么,例如關閉冷卻單元或提高溫度設定值。
另外一個例子,在英國的Oneserve公司推出的“預測性現(xiàn)場服務管理”軟件,其目的是預測維護需求,避免故障,并將停機時間降至最低。 Oneserve首席執(zhí)行官克里斯·普羅克特(Chris Proctor)說:“通過應用這些技術,應該也可以同時處理規(guī)劃和采購策略,并能夠更準確有效地管理數(shù)據(jù)中心資產(chǎn)和資源。” (目前,據(jù)我們所知,這種功能尚未在任何數(shù)據(jù)中心內(nèi)使用。)
Oneserve致力于解決數(shù)據(jù)中心中運維領域的問題,該公司軟件可以將數(shù)據(jù)中心的運行方式、內(nèi)部運營、第三方承包商合作。該軟件其中的一項工具的可用于跟蹤曾經(jīng)維護過的控制面板,使用戶能夠詳細了解什么地方可能出現(xiàn)故障,或者那些地方已經(jīng)出現(xiàn)故障多次。如今,這還是需要人工完成數(shù)據(jù)歸類、分析,未來這種數(shù)據(jù)將會通過機器學習后,由設備完成。
·利用人類經(jīng)驗
San Jose(圣何塞-美國加州西部城市)的LitBit公司推出的產(chǎn)品是將傳感器收集的數(shù)據(jù)與操作人員具有的經(jīng)驗結合在一起。
Scott Noteboom(LitBit公司創(chuàng)始人兼首席執(zhí)行官),, LitBit的數(shù)據(jù)中心AI(人工智能),或DAC(數(shù)字模擬轉換器)曾為雅虎、蘋果公司提供數(shù)據(jù)中心戰(zhàn)略,使運營商能夠使用機器構建,培訓和調(diào)整自己的“同事” 學習技巧 這些可以響應數(shù)據(jù)中心的事件,提醒運營商或最終自動執(zhí)行操作。 LitBit的方法關鍵在于輔助學習的一種形式,其中系統(tǒng)在檢測到新的異常事件時向運營商發(fā)出警報,然后運營商為將來對此類事件做出反應而制定一套規(guī)則。 為了收集數(shù)據(jù),LitBit有一個移動應用程序,它接受視頻,然后可以將其轉換成數(shù)千個圖像進行培訓。
Startup公司提供托管云服務,這將允許它利用許多用戶的匿名數(shù)據(jù)來構建更復雜和更準確的模型; 而有些客戶會選擇將他們訓練有素的模型保密,而另外一些客戶則可以將其作為額外的收入來源銷售。 正如Ascierto所指出的那樣,“數(shù)據(jù)中心管理數(shù)據(jù)的價值在大規(guī)模聚合和分析時會倍增。 通過將算法應用于許多客戶聚集的大型數(shù)據(jù)集,包括不同類型的數(shù)據(jù)中心和不同的位置,例如,供應商可以預測何時設備故障,以及何時會出現(xiàn)冷卻閾值。
·不能完全依賴AI
在運行過程中有很多隱含的知識,將其顯露出來作為規(guī)則有助于識別問題并更快地進行響應,特別是具有豐富經(jīng)驗的運維人員不在現(xiàn)場時。即使不是從地理位置上來看獨立的數(shù)據(jù)中心,你仍然希望能夠在非高峰時間或員工生病期間有效地應對出現(xiàn)的問題。數(shù)據(jù)中心AI目前還不能完全替代操作人員,但它可以成為一種工具,增強現(xiàn)有技術,并幫助操作人員解決運維問題。
目前,這一領域還不是很成熟,但發(fā)展很快。使用傳感器數(shù)據(jù)的機器學習應用程序正在迅速擴展,廣泛應用于各種行業(yè)。微軟研究部門一直在與Sierra Systems(塞拉系統(tǒng)是塞拉集團公司的一部分,它是北美最大的獨立IT服務公司之一)公司合作,開發(fā)基于機器學習的油氣管道缺陷音頻分析,利用其認知工具包來幫助對異常進行分類。 在規(guī)模的另一端,用于超大規(guī)模云的機器學習模型和工具被縮減,壓縮的神經(jīng)網(wǎng)絡使用量化權重運行在諸如Raspberry Pi(Raspberry Pi是一款針對電腦業(yè)余愛好者、教師、小學生以及小型企業(yè)等用戶的迷你電腦,預裝Linux系統(tǒng),體積僅信用卡大小,搭載ARM架構處理器,運算性能和智能手機相仿。)的低容量設備上。
由于人工智能的數(shù)據(jù)中心管理服務是新興技術,目前還在不斷的開發(fā)中,而且還需要進行大量的實踐培訓,因此,不要期望實施基于AI的數(shù)據(jù)中心管理服務能夠很快看到效果,他們還需要大量的培訓、實踐。實施人工智能可能需要比 DCIM軟件安裝還多的傳感器。“如果你想要利用人工智能實現(xiàn)冷卻器端到端,冷水機組到機柜的目標,那還需要一些聲學和振動傳感器設備,以及環(huán)境傳感器和電力儀表等設備。如果目標是優(yōu)化和實現(xiàn)冷卻單元的設定溫度,那么每個機架(上、中、下)可能需要多個環(huán)境傳感器。”
通過傳感器,建立起基礎數(shù)據(jù)模型,但是它們也必須針對您的特定設備、您的特定工作負載,以及最重要的,對您站點的特性進行優(yōu)化。培訓一個人工智能支持系統(tǒng)需要時間,就像給一個新的人工操作系統(tǒng)安裝一樣,但是在時間上,類似的機器學習工具將會幫助運行你的數(shù)據(jù)中心。