數(shù)據(jù)中心的管理日益復雜,時刻都有龐大而復雜的數(shù)據(jù)信息需要處理,各種各樣的因素隨時有可能導致突發(fā)性事故的發(fā)生,而造成的損失也是驚人的。這些復雜的因素很難通過直觀的方式分析和理解,機器學習的介入有一定的必然性。Google數(shù)據(jù)中心副總裁Joe Kava告訴我們采用神經(jīng)網(wǎng)絡(luò)可以“預見”數(shù)據(jù)中心的“未來”,從而為數(shù)據(jù)中心的工程師們提供最優(yōu)的方案,Google具體是怎樣做的?作者Richer Miller為我們帶來了精彩的分析。
Google將機器學習和人工智能應用到強大的數(shù)據(jù)中心,致力于讓數(shù)據(jù)中心更高效。近日,在Data Centers Europe 2014的一份簡報中,Google的數(shù)據(jù)中心副總裁Joe Kava告訴我們Google已經(jīng)采用神經(jīng)網(wǎng)絡(luò)來分析數(shù)據(jù),該神經(jīng)網(wǎng)絡(luò)系統(tǒng)可以收集服務(wù)器群的相關(guān)信息,并提供改進方案。
實際上,谷歌已經(jīng)制造出了一臺超級計算機,這臺計算機比谷歌的工程師們更了解數(shù)據(jù)中心。目前,數(shù)據(jù)中心仍然由人工控制,但Joe Kava告訴我們,神經(jīng)網(wǎng)絡(luò)的使用將使Google服務(wù)器群的效率達到一個全新的高度,這甚至讓制造它的工程師們望塵莫及。
谷歌已經(jīng)擁有了多個高效的數(shù)據(jù)中心,使用人工智能后,Google將能夠預見“未來”,通過模擬出數(shù)以千計的可能情況,了解到未來數(shù)據(jù)中心的運行狀況。
在早期,神經(jīng)網(wǎng)絡(luò)預測谷歌電力使用效率的準確率已經(jīng)達到99.6%。這種方法帶來的效率提升看起來很小,但當其應用到具有數(shù)千個服務(wù)器的數(shù)據(jù)中心時,就可以節(jié)約下大量的成本。
為什么要采用機器學習和神經(jīng)網(wǎng)絡(luò)?主要的原因是數(shù)據(jù)中心日益復雜,這對谷歌來說是個挑戰(zhàn),Google利用傳感器從數(shù)以億計的數(shù)據(jù)點收集有關(guān)其基礎(chǔ)設(shè)施及能源使用狀況的信息。
谷歌的神經(jīng)網(wǎng)絡(luò)是由Jim Gao創(chuàng)建的,由于他對大型數(shù)據(jù)集有很強的分析能力,他的同事給他取了個綽號——“天才小子(Boy Genius)”。Gao應用計算流體動力學來做冷卻分析,利用監(jiān)測數(shù)據(jù)創(chuàng)建了一個服務(wù)器房間里的氣流3D模型。
Gao認為創(chuàng)建一個模型來跟蹤一組廣泛的變量是有可能實現(xiàn)的,這些變量包括IT負載、天氣條件,以及冷卻塔、水泵和換熱器(這些設(shè)備用來給谷歌服務(wù)器降溫)的運作情況。
Kava在一篇博客中寫道:“計算機擅長的是在數(shù)據(jù)中發(fā)現(xiàn)隱含的信息,所以Jim采用了我們?nèi)粘2僮鬟^程中收集的數(shù)據(jù),并將這些數(shù)據(jù)放到一個模型中運行,目的是理解普通人(Jim的團隊)可能注意不到的復雜互動的意義,如今Jim的模型在預測PUE(Power Usage Effectiveness,電源使用效率)時的準確率已經(jīng)達到了99.6%。這意味著他可以使用該模型提出新方案,從我們的操作中獲得更高的效率。”
Gao倡導發(fā)展和使用機器學習,并將其稱之為“20 percent project”,谷歌鼓勵員工在特定工作職責之外花大量時間進行創(chuàng)新。Gao原先并不是人工智能方面的專家,為了了解更多有關(guān)機器學習的知識,他學習了斯坦福大學Andrew Ng教授的課程。
神經(jīng)網(wǎng)絡(luò)模仿人類大腦的工作原理,讓計算機在沒有顯式編程的情況下,自動適應和“學習”。谷歌的搜索引擎往往被看作是這類機器學習的典型,這也是該公司主要研究的一個重點。
Kava解釋說:“該模型實際上就是一系列的微分方程,你需要對數(shù)學有所了解,該模型能夠了解這些變量之間的交互。”
Gao的第一項任務(wù)是研究數(shù)字,標識出影響Google數(shù)據(jù)中心能源效率的重要因素,以PUE為標準。他將這些因素縮小到19個變量,然后設(shè)計了神經(jīng)網(wǎng)絡(luò),即一個可以分析大型數(shù)據(jù)集以識別模式的機器學習系統(tǒng)。
Gao在他的倡議白皮書中寫道:“大量可能的設(shè)備組合以及它們的設(shè)定值使最優(yōu)效率難以確定,在數(shù)據(jù)中心,通過硬件(機械和電氣設(shè)備)和軟件(控制策略和設(shè)定值)有許多可能的組合。受到時間既定、IT負載頻繁波動和天氣狀況的限制下,測試每一種可能組合以實現(xiàn)效率最大化是不可行的,更不用說還要維持一個穩(wěn)定的DC環(huán)境。
說到硬件,實際上機器學習不需要多么強的計算能力,Kava告訴我們,該機器學習系統(tǒng)在單個服務(wù)器上就可以運行,甚至可以運行在高端臺式機上。
該系統(tǒng)已經(jīng)被應用到Google數(shù)據(jù)中心,該機器學習工具能夠提供建議,對PUE進行改進;或者在能源設(shè)施升級過程中,對數(shù)據(jù)中心負載遷移的改進;也可以對冷卻系統(tǒng)中多個部分的水溫調(diào)整。
Gao還寫道:“谷歌(數(shù)據(jù)中心)的實際測試表明,機器學習是使用現(xiàn)有傳感器為DC能源效率建模的一種有效方法,可以顯著地節(jié)約成本。”
Kava告訴我們:“該工具可以幫助谷歌對未來設(shè)計進行模擬和完善,但我們不需要擔心機器奪走人類的控制權(quán)——近期,Google的數(shù)據(jù)中心還不太可能擁有自我意識。雖然Google熱衷于實現(xiàn)自動化,最近又收購了多家機器人公司,但新的機器學習工具目前還不可能控制一個數(shù)據(jù)中心。”
Kava說:“數(shù)據(jù)中心仍然需要人類對許多事務(wù)作出良好的判斷,我仍然希望我們的工程師對機器提供的建議進行審查。”
從Google構(gòu)建服務(wù)器群的方式中,我們或許可以看到神經(jīng)網(wǎng)絡(luò)帶來的好處。Kava說:“我可以想象出在數(shù)據(jù)中心的設(shè)計周期中使用神經(jīng)網(wǎng)絡(luò)的情形,我們可以將它作為一個具有前瞻性的工具使用,用來測試設(shè)計的變化和創(chuàng)新,將來我們會找到更多的用例。”
Google在Gao的白皮書中分享了機器學習的方法,期待其他超大規(guī)模數(shù)據(jù)中心的運營商也能開發(fā)類似的工具。
Kava說:“這不是只有Google或者Jim Gao才能做到的事情,我很樂意看到這類分析工具被更加廣泛的使用。我認為這個行業(yè)可以從這類工具中受益,它是一個可以提供效率的好工具。”