回顧互聯(lián)網(wǎng)發(fā)展的初期,彼時(shí)的數(shù)據(jù)中心的規(guī)模可能非常小而且也很簡(jiǎn)單。一家大型電子商務(wù)服務(wù)企業(yè)僅僅依靠幾臺(tái)19英寸的機(jī)架就足以配合所有必要的服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備的運(yùn)行。而到了今天,超大規(guī)模數(shù)據(jù)中心的占地面積可達(dá)數(shù)千公頃,其中有著安置了成千上萬(wàn)款的硬件設(shè)備的數(shù)千臺(tái)機(jī)架上。隨著數(shù)據(jù)中心設(shè)計(jì)的變化,這些大型服務(wù)器群組(Server Farms)已經(jīng)被建立在新的、偏遠(yuǎn)的地區(qū),同時(shí)又靠近人口集中、電力價(jià)格便宜的地區(qū)。
隨著數(shù)據(jù)中心運(yùn)營(yíng)的自動(dòng)化,諸如亞馬遜網(wǎng)絡(luò)服務(wù)(Amazon Web Services)或微軟Azure這樣的公共云服務(wù)開始聘用越來(lái)越少的高技能的數(shù)據(jù)中心工程師,這類數(shù)據(jù)中心工程師的數(shù)量通常比安全工作人員和執(zhí)行人工手工勞動(dòng)的低技術(shù)工人(比如:處理硬件交付)要多。更多的服務(wù)器交由更少的員工實(shí)施管理意味著電力和冷卻基礎(chǔ)設(shè)施的監(jiān)控需要更多的依賴傳感器。現(xiàn)在,我們可以將這些傳感器稱為物聯(lián)網(wǎng)硬件。這些傳感器物聯(lián)網(wǎng)硬件有助于在一定程度上幫助數(shù)據(jù)中心操作運(yùn)營(yíng)管理人員識(shí)別某些問(wèn)題,但在很多情況下,經(jīng)驗(yàn)豐富的設(shè)施工程師的經(jīng)驗(yàn)是非常難以用傳感器來(lái)代替的。例如,某些經(jīng)驗(yàn)豐富的設(shè)施工程師可以通過(guò)聲音的識(shí)別,來(lái)判斷機(jī)箱風(fēng)扇的運(yùn)行即將發(fā)生鼓掌運(yùn)行失敗;或通過(guò)聽(tīng)到的水滴的聲音來(lái)定位何處發(fā)生了泄漏。
由Tensor處理單元(TPUs)提供支持的服務(wù)器機(jī)架,谷歌的定制化機(jī)器學(xué)習(xí)處理器(照片來(lái)源:谷歌母公司Alphabet公司)
您企業(yè)將需要更多的傳感器來(lái)監(jiān)控現(xiàn)代數(shù)據(jù)中心的基礎(chǔ)設(shè)施,而新一代的應(yīng)用程序旨在通過(guò)將機(jī)器學(xué)習(xí)應(yīng)用于IoT傳感器網(wǎng)絡(luò)來(lái)彌補(bǔ)這方面的差距。這一理念是通過(guò)捕獲運(yùn)營(yíng)商的知識(shí),并將其變成規(guī)則來(lái)幫助解釋相關(guān)的聲音和視頻,例如,為越來(lái)越多的空數(shù)據(jù)中心增加一個(gè)新的自動(dòng)化管理層。來(lái)自市場(chǎng)調(diào)研機(jī)構(gòu) 451 Research的Rhonda Ascierto表示說(shuō):“這些服務(wù)承諾將能夠預(yù)測(cè)和防止數(shù)據(jù)中心基礎(chǔ)架構(gòu)出現(xiàn)事故和故障,并帶來(lái)更快的平均恢復(fù)時(shí)間和更有效的容量配置,也有助于進(jìn)一步降低風(fēng)險(xiǎn)。”
預(yù)測(cè)分析和更廣泛的數(shù)據(jù)類型
這方面的第一步是數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理或DCIM軟件中的預(yù)測(cè)分析。其中一個(gè)例子是位于加利福尼亞州奧克蘭的一家名叫Vigilent的公司的軟件。“其控制系統(tǒng)是基于機(jī)器學(xué)習(xí)的軟件,用于確定變量之間的關(guān)系,如機(jī)架溫度、冷卻單元設(shè)置、冷卻容量能力、冷卻冗余、功率使用和故障風(fēng)險(xiǎn)。其通過(guò)打開和關(guān)閉單元來(lái)控制冷卻單元(包括變頻器,VFD)、調(diào)節(jié)變頻器,以及調(diào)整單元的溫度設(shè)定值。”Ascierto說(shuō)。其使用無(wú)線溫度傳感器,并預(yù)測(cè)如果操作人員采取某些措施會(huì)發(fā)生什么狀況——例如:關(guān)閉冷卻單元或增加設(shè)定點(diǎn)溫度。
另一個(gè)不同的例子是Oneserve公司的Infinite軟件產(chǎn)品,該軟件將傳感器與更廣泛的數(shù)據(jù)點(diǎn)相結(jié)合。例如:使用天氣條件數(shù)據(jù),為位于英格蘭??巳氐貐^(qū)的企業(yè)客戶提供 “預(yù)測(cè)性現(xiàn)場(chǎng)服務(wù)管理”。其目的旨在滿足預(yù)測(cè)性維護(hù)要求,避免發(fā)生故障,并將停機(jī)時(shí)間降至最低。Oneserve公司的首席執(zhí)行官克里斯·普羅克特(Chris Proctor)表示說(shuō),通過(guò)應(yīng)用這些技術(shù),使得企業(yè)客戶處理戰(zhàn)略規(guī)劃和采購(gòu)成為了可能。他說(shuō):“數(shù)據(jù)中心能夠更準(zhǔn)確、更有效地管理資產(chǎn)和資源。” (據(jù)我們所知,這種功能目前尚未在任何數(shù)據(jù)中心內(nèi)使用。)
Oneserve公司專注于更廣泛的維護(hù)問(wèn)題,但該方法與數(shù)據(jù)中心的操作運(yùn)營(yíng)方式配合良好,能夠順暢的與數(shù)據(jù)中心內(nèi)部運(yùn)營(yíng)團(tuán)隊(duì)和第三方承包商合作。其工具的一個(gè)有用的方面是具備跟蹤過(guò)去維護(hù)的問(wèn)題的儀表板,允許企業(yè)用戶詳細(xì)的了解到訪問(wèn)可能存在困難的地方,或者何處是曾經(jīng)多次發(fā)生問(wèn)題的地方。今天,這仍然是一個(gè)非常依賴于人工手動(dòng)的方法,但是您企業(yè)未來(lái)將需要這種數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
汲取操作人員的知識(shí)
將傳感器數(shù)據(jù)與數(shù)據(jù)中心操作運(yùn)營(yíng)人員的知識(shí)進(jìn)行了很好的結(jié)合的一家企業(yè)的例子是來(lái)自圣荷西的LitBit公司。據(jù)該公司創(chuàng)始人兼首席執(zhí)行官,在過(guò)去曾先后供職于雅虎和蘋果公司數(shù)據(jù)中心戰(zhàn)略部門的Scott Noteboom介紹說(shuō),LitBit數(shù)據(jù)中心的AI或DAC,使數(shù)據(jù)中心的操作運(yùn)營(yíng)人員們能夠使用機(jī)器學(xué)習(xí)技術(shù)來(lái)構(gòu)建、培訓(xùn)和調(diào)整自己的“同事”。這些可以跨數(shù)據(jù)中心對(duì)事件進(jìn)行響應(yīng),提醒運(yùn)營(yíng)人員,甚至最終自動(dòng)執(zhí)行操作。LitBit公司的方法的核心關(guān)鍵是一種輔助學(xué)習(xí)的形式,其中系統(tǒng)在檢測(cè)到新的異常事件時(shí)向操作運(yùn)營(yíng)人員發(fā)出警報(bào),然后操作運(yùn)營(yíng)人員為將來(lái)如何對(duì)此類事件做出反應(yīng)而制定一套規(guī)則。為了收集數(shù)據(jù),LitBit公司采用了一款移動(dòng)應(yīng)用程序,可以進(jìn)行視頻拍攝,然后可以將視頻轉(zhuǎn)換成數(shù)千個(gè)圖像進(jìn)行培訓(xùn)。
該初創(chuàng)企業(yè)提供了一款托管云服務(wù),這將允許該公司能夠充分利用許多用戶的匿名數(shù)據(jù)來(lái)構(gòu)建更復(fù)雜和更準(zhǔn)確的模型;而有些客戶會(huì)選擇將他們的培訓(xùn)模型保密,而另外一些企業(yè)客戶則可以將其培訓(xùn)模型作為額外的收入來(lái)源進(jìn)行銷售。正如Ascierto所指出的那樣,“數(shù)據(jù)中心管理數(shù)據(jù)的價(jià)值在大規(guī)模聚合和分析時(shí)實(shí)現(xiàn)其價(jià)值的倍增。通過(guò)將算法應(yīng)用于許多客戶聚集的大型數(shù)據(jù)集,包括不同類型的數(shù)據(jù)中心和不同的位置,例如,供應(yīng)商可以預(yù)測(cè)設(shè)備何時(shí)會(huì)出現(xiàn)故障,以及何時(shí)會(huì)出現(xiàn)冷卻閾值。
在操作運(yùn)營(yíng)過(guò)程中有很多隱含的知識(shí),而將這些知識(shí)整理規(guī)范制定成規(guī)則則可以幫助識(shí)別問(wèn)題并更快速的做出響應(yīng),特別是當(dāng)具有知識(shí)經(jīng)驗(yàn)的操作運(yùn)營(yíng)人員不在身邊時(shí)。即使您企業(yè)經(jīng)營(yíng)的不是大型的地理位置隔離的數(shù)據(jù)中心,您仍然希望能夠在非工作時(shí)間或員工生病請(qǐng)假期間確保有效的回應(yīng)。一款數(shù)據(jù)中心AI可能無(wú)法完全替代您數(shù)據(jù)中心經(jīng)驗(yàn)豐富的操作運(yùn)營(yíng)人員,但其可以成為增強(qiáng)現(xiàn)有技能,并幫助將豐富的經(jīng)驗(yàn)技能教給給其他團(tuán)隊(duì)成員的工具。
這個(gè)領(lǐng)域目前還不成熟,但發(fā)展速度很快。使用傳感器數(shù)據(jù)的機(jī)器學(xué)習(xí)應(yīng)用正在迅速發(fā)展,并被廣泛應(yīng)用于各行各業(yè)。微軟研究部門一直在與Sierra Systems合作,開發(fā)基于機(jī)器學(xué)習(xí)的音頻分析,以便檢測(cè)油氣管道的缺陷,利用其認(rèn)知工具包來(lái)幫助對(duì)異常狀況進(jìn)行分類。另一方面,用于超大規(guī)模云的機(jī)器學(xué)習(xí)模型和工具的規(guī)模正在縮減,壓縮的神經(jīng)網(wǎng)絡(luò)使用量化權(quán)重,運(yùn)行在諸如Raspberry Pi的低容量設(shè)備上。
不要指望部署了基于AI的數(shù)據(jù)中心管理服務(wù)就能夠?yàn)槟峁┘磿r(shí)的結(jié)果;該技術(shù)目前還很新,服務(wù)還在發(fā)展中,他們需要大量的培訓(xùn)。Ascierto指出,較之您數(shù)據(jù)中心可能已經(jīng)擁有的DCIM軟件,您需要更多的傳感器。 “如果您想利用AI制定終端到終端的冷卻器到機(jī)架的決策,那么一些設(shè)備以及環(huán)境傳感器和功率計(jì)將需要聲學(xué)和振動(dòng)傳感器。如果目標(biāo)是優(yōu)化和自動(dòng)化冷卻單元的設(shè)定點(diǎn)溫度,則可能需要每臺(tái)機(jī)架(頂部、中間、底部)部署多個(gè)環(huán)境傳感器。
基礎(chǔ)數(shù)據(jù)模型可能是存在的,但也必須針對(duì)您企業(yè)數(shù)據(jù)中心的特定設(shè)備、特定工作負(fù)載進(jìn)行調(diào)整,最重要的是您企業(yè)數(shù)據(jù)中心站點(diǎn)的特性。培訓(xùn)一款A(yù)I支持系統(tǒng)將需要時(shí)間,就像在培訓(xùn)新機(jī)器的操作人員一樣,但是隨著時(shí)間的推移,類似的機(jī)器學(xué)習(xí)工具將可以幫助您企業(yè)更好的運(yùn)營(yíng)數(shù)據(jù)中心。