該公司早年一直專注于冷卻優(yōu)化,正在擴大其功能范圍,承諾從電源、冷卻和硬件收集數(shù)據(jù)的系統(tǒng),關聯(lián)所有各種信息,以全面優(yōu)化效率、排除故障、發(fā)出事件警報,并通過識別異常來防止設備故障。
AdeptDC預計將在下個月推出其數(shù)據(jù)中心運營商的AI助手,首席執(zhí)行官拉亞戈什在接受采訪時說道。它使用相同的機器學習技術和相同簡單的安裝方法,通過Docker容器,不需要硬件傳感器。
該公司了解到,它必須解決的不僅僅是飛行員對潛在客戶的冷卻。
戈什說:“我們一直在美國和海外運營著幾個數(shù)據(jù)中心的飛行員,而我們所學到的是降低冷卻成本和提高相對效率是很好的,但不是運營商主要關心的事情。”
運營商主要擔心避免故障,這通常是由于冷卻問題和相關硬件問題而導致的。(上個月災難性的微軟Azure停電只是最近一個備受矚目的例子。)應用其技術來幫助解決這種問題是AdeptDC的新目標。他說:“我們使用相同的機器學習技術,但我們使用它來確保硬件運行正常并預測性能問題,而不只是電源和冷卻優(yōu)化。”
這意味著從服務器電源和風扇收集運營數(shù)據(jù),據(jù)他稱,其故障是數(shù)據(jù)中心運營中的主要問題。“CPU已經(jīng)在硬件架構(gòu)中得到了解決,但電源系統(tǒng)和服務器風扇始終處于故障狀態(tài)。”
AdeptDC的角度是將硬件數(shù)據(jù)與設施冷卻系統(tǒng)狀態(tài)數(shù)據(jù)相關聯(lián)。
戈什說:“像谷歌這樣的公司使用環(huán)境數(shù)據(jù)來代表數(shù)據(jù)中心生態(tài)系統(tǒng)和性能的總體健康狀況。”他建議,環(huán)境數(shù)據(jù)(溫度和濕度)是整個系統(tǒng)健康狀況的一部分,但電壓監(jiān)測也很關鍵。電壓是整個數(shù)據(jù)中心健康狀況的主要指標;如果電壓表現(xiàn)得很奇怪,那么就會出現(xiàn)各種各樣的問題。
安裝后大約需要一周的時間來收集足夠的數(shù)據(jù)以獲得基線并開始生成準確的相關性。
當存在事故并對冷卻系統(tǒng)進行微調(diào)時,相關性對于生成修正建議很有用,但最重要的是,它們對于檢測正常操作期間的異常非常有用。一旦AdeptDC標記異常,其儀表板將顯示其所在的邏輯層:IT、網(wǎng)絡或電源和冷卻。
“我們希望捕捉到作為預警的癥狀。”戈什說。
相關性也有助于排除故障。該系統(tǒng)包括用于分類事件的清單,以幫助員工,這可能在停電期間恐慌或在錯誤的地方尋找問題。“當數(shù)據(jù)中心出現(xiàn)故障時,大部分團隊都會跑到服務器機房,但服務器問題可能與冷卻問題有關。”戈什說。
有多個故障排除級別:
第一級是簡單的事情。例如,如果服務器指示燈未亮起,則電源或冷卻系統(tǒng)可能存在問題。下一級稍微復雜一些,例如設備內(nèi)部的電壓問題。更復雜的水平處理氣流數(shù)據(jù)等事情。
如果系統(tǒng)通過較低級別并且無法識別問題,則機器學習功能會啟動以查找根本原因與可能導致問題的各種其他來源之間的關聯(lián)。
使用機器學習來處理事件可以幫助彌補熟練數(shù)據(jù)中心工作人員的減少。“存在巨大的人才短缺,數(shù)據(jù)中心運營管理方面沒有大學課程,因此這將成為未來的一個大問題。”Ghosh指出。“部分工作可以通過人工智能以更系統(tǒng)的方式完成,我非常希望下一代人工智能可以幫助彌合供需之間的差距。”