NREL是如何采用人工智能運營全球最高效數(shù)據(jù)中心的

責(zé)任編輯:cres

作者:Sebastian Moss

2021-05-24 14:33:37

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

美國國家可再生能源實驗室(NREL)日前發(fā)布了一份調(diào)查報告,介紹了該機構(gòu)利用人工智能技術(shù)進(jìn)行數(shù)據(jù)中心運營的探索。

通過與HPE公司合作,美國國家可再生能源實驗室(NREL)已在其能源系統(tǒng)集成設(shè)施(全球目前最高效的數(shù)據(jù)中心)中推出了AIOps。
 
為管理億級數(shù)據(jù)中心做好準(zhǔn)備
 
HPE公司高性能網(wǎng)絡(luò)副總裁兼總經(jīng)理Mike Vildibill為此表示,“我們?yōu)榇私M建了一個團(tuán)隊,對構(gòu)建億級系統(tǒng)所需的內(nèi)容進(jìn)行了非常深入的分析和設(shè)計,該系統(tǒng)在真實環(huán)境中真正可用并運行。
 
我們需要對數(shù)據(jù)中心進(jìn)行管理和監(jiān)控,必須從數(shù)據(jù)中心的服務(wù)器、存儲設(shè)備以及其他設(shè)備中收集大量數(shù)據(jù)。我們必須將這些數(shù)據(jù)放入數(shù)據(jù)庫中,然后進(jìn)行分析,最后才能使用這些數(shù)據(jù)來管理、監(jiān)視和控制數(shù)據(jù)中心。”
 
他們發(fā)現(xiàn),一個億級系統(tǒng)的管理將需要運算速度達(dá)到大約200 petaflops超級計算機來運行。Vildibill說,“我們在探索的過程中偶然發(fā)現(xiàn)了一個實際問題。我們意識到,我們需要基于AIOps才能真正以自動化方式管理和控制大型億級系統(tǒng)。”
 
HPE公司與美國國家可再生能源實驗室(NREL)一起進(jìn)行了為期三年的研究,在規(guī)模相對較小的超級計算機上測試AIOps,將運算速度為8petaflops的Eagle超級計算機作為美國國家可再生能源實驗室(NREL)的旗艦設(shè)備進(jìn)行部署。
 
美國國家可再生能源實驗室(NREL)運營的數(shù)據(jù)中心電力容量的設(shè)計為10MW,當(dāng)前系統(tǒng)負(fù)載為5MW,但通常只消耗了2MW的電力。
 
為了模擬1000臺petaflops級超級計算的使用體驗,這個研究團(tuán)隊擴展了該站點產(chǎn)生的數(shù)據(jù)。Vildibill說,“例如,如果一個傳感器每秒提供一個數(shù)據(jù)點,我們想進(jìn)入并對其進(jìn)行調(diào)整,使其每秒提供100個數(shù)據(jù)點,并不是說我們每秒需要100個,而是在規(guī)劃構(gòu)建未來的百億億次系統(tǒng)時,希望能夠測試所有基礎(chǔ)設(shè)施的可擴展性。”
 
美國國家可再生能源實驗室(NREL)采用的傳感器不僅可以測量IT設(shè)備的功耗,還可以測量有關(guān)網(wǎng)絡(luò)使用、存儲、各種系統(tǒng)組件(例如溫度、壓力、流量、閥狀態(tài)、風(fēng)扇速度)以及外部環(huán)境條件的指標(biāo)。其系統(tǒng)每分鐘可以記錄一百萬個指標(biāo)。
 
在由美國能源部和HPE公司共同發(fā)布的一份研究報告中,美國國家可再生能源實驗室(NREL)詳細(xì)介紹了其能源系統(tǒng)集成設(shè)施第一年的運營情況。
 
報告指出:“如此龐大的數(shù)據(jù)量和速度要求系統(tǒng)能夠有效地處理數(shù)百萬個同時發(fā)生的數(shù)據(jù)流,同時還要能夠應(yīng)對停機時間和網(wǎng)絡(luò)延遲。因此,在ESIF數(shù)據(jù)中心中用于數(shù)據(jù)收集的數(shù)據(jù)體系結(jié)構(gòu)的設(shè)計考慮了數(shù)據(jù)源、數(shù)據(jù)頻率、數(shù)據(jù)移動以及數(shù)據(jù)的最終存儲和使用情況。數(shù)據(jù)收集架構(gòu)的目標(biāo)是提供適合于從多個異構(gòu)數(shù)據(jù)源收集、管理和處理流數(shù)據(jù)的可擴展基礎(chǔ)設(shè)施。”
 
ESIF數(shù)據(jù)中心在去年6月開始使用這一數(shù)據(jù)進(jìn)行異常檢測。報告指出:“為支持運營彈性,流數(shù)據(jù)和分析平臺最初部署了一條管道,用于使用Eagle超級計算機和ESIF數(shù)據(jù)中心的歷史和實時數(shù)據(jù)來檢測冷卻基礎(chǔ)設(shè)施中的異常情況。”
 
所有這些數(shù)據(jù)都使得儀表盤很難以人類處理的方式了解設(shè)施內(nèi)發(fā)生的所有事情。該報告指出:“這源于需要監(jiān)控的大量的同步數(shù)據(jù)流,以及對數(shù)據(jù)中心設(shè)施冷卻系統(tǒng)中每臺設(shè)備進(jìn)行大量調(diào)整以實現(xiàn)最佳系統(tǒng)性能的多種影響,研究團(tuán)隊還發(fā)現(xiàn),設(shè)定點、警報和儀表板并不總是能夠識別系統(tǒng)中的異常情況。”
 
該站點以前的中斷和問題已經(jīng)采用人工智能系統(tǒng)提供幫助,并強調(diào)了工作人員發(fā)現(xiàn)的一個問題。這個在冷卻分配單元出現(xiàn)的問題在幾個月的時間內(nèi)都沒有引起注意,而有關(guān)錯誤信息的數(shù)據(jù)用于訓(xùn)練AIOps系統(tǒng)。
 
研究人員說:“在2015年,一個導(dǎo)致系統(tǒng)關(guān)閉的三通閥發(fā)生故障,這似乎不是需要重點監(jiān)測的項目,但卻導(dǎo)致美國國家可再生能源實驗室(NREL)在系統(tǒng)關(guān)閉過程中損失了2萬個節(jié)點小時。在這項工作的推動下,一個關(guān)鍵的優(yōu)先事項是圍繞傳感器的監(jiān)測和選擇的自動化。這是儀表盤構(gòu)建和使用方式的根本轉(zhuǎn)變,使數(shù)據(jù)中心運營商能夠監(jiān)控一切,并關(guān)注關(guān)鍵異常事件。”
 
除了異常檢測之外,數(shù)據(jù)流架構(gòu)還使美國國家可再生能源實驗室(NREL)研究人員能夠研究Eagle超級計算機上單個作業(yè)的功率消耗及其相關(guān)的冷卻資源需求。
 
研究人員說,“作為AIOps項目的一部分,我們與HPE公司正在進(jìn)行的研究旨在擴展用電量預(yù)測的用例,并構(gòu)建原型。”
 
為了幫助其他企業(yè)開展類似的工作,美國國家可再生能源實驗室(NREL)發(fā)布了一個包含三個月工作數(shù)據(jù)的數(shù)據(jù)集,并提供了每個工作的節(jié)點級功耗指標(biāo)。
 
到目前為止,AIOps系統(tǒng)尚未對數(shù)據(jù)中心能源使用效率產(chǎn)生重大影響,ESIF數(shù)據(jù)中心報告的PUE值為1.06,與通常報告的水平相一致,但低于2017年的最佳PUE值1.032。
 
預(yù)計美國國家可再生能源實驗室(NREL)在今年推出的AIOps軟件開始進(jìn)行預(yù)測性維護(hù)和PUE優(yōu)化。在未來兩年的更新中將會添加根本原因分析功能。利用該項目收集的數(shù)據(jù),該實驗室還計劃開發(fā)一個模型,用于預(yù)測數(shù)據(jù)中心未來數(shù)周或數(shù)月的PUE值。
 
綜上所述,這些努力將為未來的超級計算機采購工作提供信息,其中包括所使用的資源類型、使用效率,以及NREL和 HPC公司如何改進(jìn)其實踐,并幫助指導(dǎo)綠色節(jié)能的數(shù)據(jù)中心的設(shè)計和廣泛采用,顯著降低了超級計算機的碳排放,同時也降低維護(hù)成本,提高了系統(tǒng)可靠性。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號