隨著數(shù)據(jù)中心專注于支持人們?cè)絹碓叫枰墓ぷ骱蜕畹幕炯夹g(shù)服務(wù),數(shù)據(jù)中心的運(yùn)營(yíng)如此繁重也就不足為奇了。在沒有放緩跡象的推動(dòng)下,人們看到與視頻、存儲(chǔ)、計(jì)算需求、智能物聯(lián)網(wǎng)集成以及5G連接推出相關(guān)的數(shù)據(jù)使用量大幅增加。然而,盡管工作量不斷增加,但不幸的是,當(dāng)今許多數(shù)據(jù)中心設(shè)施的運(yùn)行效率都不夠高。
鑒于數(shù)據(jù)中心的平均工作壽命超過20年,這不足為奇。效率總是取決于數(shù)據(jù)中心設(shè)施的原始設(shè)計(jì),并且基于早已被超越的預(yù)期IT負(fù)載。與此同時(shí),變化是一個(gè)不變的因素,平臺(tái)、設(shè)備設(shè)計(jì)、拓?fù)?、功率密度和冷卻要求都隨著新的應(yīng)用的不斷發(fā)展而變化。其結(jié)果是經(jīng)常發(fā)現(xiàn)全球各地的數(shù)據(jù)中心很難將當(dāng)前和計(jì)劃的IT負(fù)載與其關(guān)鍵基礎(chǔ)設(shè)施相匹配。隨著數(shù)據(jù)中心需求的增加,這種情況只會(huì)加劇。根據(jù)分析師的預(yù)測(cè),從現(xiàn)在到2025年,數(shù)據(jù)中心的工作負(fù)載量將以每年20%左右的速度繼續(xù)增長(zhǎng)。
傳統(tǒng)的數(shù)據(jù)中心技術(shù)和方法難以滿足這些不斷升級(jí)的需求。對(duì)可用性進(jìn)行優(yōu)先級(jí)排序在很大程度上是以犧牲效率為代價(jià)的,太多的工作仍然依賴于運(yùn)營(yíng)人員的經(jīng)驗(yàn),并且相信假設(shè)是正確的。不幸的是,有證據(jù)表明這種模式不再適用。遠(yuǎn)程傳感器監(jiān)控提供商EkkoSense公司的研究表明,數(shù)據(jù)中心中平均有15%的IT機(jī)架在ASHRAE的溫度和濕度指南規(guī)定的范圍之外運(yùn)行,而由于效率低下甚至導(dǎo)致數(shù)據(jù)中心冷卻能耗高達(dá)60%。這是一個(gè)主要問題,根據(jù)Uptime Institute估計(jì),由于冷卻和氣流管理效率低下,全球數(shù)據(jù)中心浪費(fèi)的能源損失約為180億美元。這相當(dāng)于浪費(fèi)了大約1500億度電。
數(shù)據(jù)中心基礎(chǔ)設(shè)施使用的35%的能源用于冷卻,很明顯,傳統(tǒng)的性能優(yōu)化方法錯(cuò)過了實(shí)現(xiàn)效率提升的巨大機(jī)會(huì)。EkkoSense公司的調(diào)查表明,三分之一的計(jì)劃外數(shù)據(jù)中心中斷是由過熱問題引發(fā)的。因此需要找到不同的方法來管理這個(gè)問題,可以為數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)提供很好的方法來確??捎眯院吞岣咝?。
傳統(tǒng)監(jiān)控技術(shù)的局限性
不幸的是,目前只有大約5%的運(yùn)維團(tuán)隊(duì)在每個(gè)機(jī)架上監(jiān)控和報(bào)告他們的數(shù)據(jù)中心設(shè)備溫度。此外,DCIM和傳統(tǒng)監(jiān)控解決方案可以提供趨勢(shì)數(shù)據(jù),并設(shè)置成在出現(xiàn)故障時(shí)提供警報(bào),但這些措施還不夠。它們?nèi)狈Ψ治瞿芰?,無法深入了解問題的原因,以及如何在未來解決和避免問題。
運(yùn)營(yíng)團(tuán)隊(duì)認(rèn)識(shí)到這種傳統(tǒng)監(jiān)控技術(shù)有其局限性,但他們也知道根本沒有資源和時(shí)間來獲取他們擁有的數(shù)據(jù),并從分析數(shù)據(jù)中獲得有意義的見解。好消息是,現(xiàn)在可以使用技術(shù)解決方案來幫助數(shù)據(jù)中心解決這個(gè)問題。
現(xiàn)在是讓數(shù)據(jù)中心與機(jī)器學(xué)習(xí)和人工智能相結(jié)合的時(shí)候了
機(jī)器學(xué)習(xí)和人工智能的應(yīng)用在如何處理數(shù)據(jù)中心運(yùn)營(yíng)方面創(chuàng)造了一個(gè)新的模式。運(yùn)營(yíng)團(tuán)隊(duì)現(xiàn)在可以利用機(jī)器學(xué)習(xí)來收集更細(xì)粒度的數(shù)據(jù),而不是被過多的性能數(shù)據(jù)淹沒——這意味著他們可以開始實(shí)時(shí)訪問數(shù)據(jù)中心的運(yùn)行情況。關(guān)鍵是使其易于訪問,使用智能3D可視化是一種很好的方法,可以讓數(shù)據(jù)中心團(tuán)隊(duì)更輕松地在更深層次上解釋性能和數(shù)據(jù):例如顯示更改和突出顯示異常。
下一階段是應(yīng)用機(jī)器學(xué)習(xí)和人工智能分析來提供可行的見解。通過使用機(jī)器學(xué)習(xí)算法擴(kuò)充測(cè)量數(shù)據(jù)集,數(shù)據(jù)中心團(tuán)隊(duì)可以立即受益于易于理解的見解,以幫助支持他們的實(shí)時(shí)優(yōu)化決策。每五分鐘進(jìn)行一次實(shí)時(shí)粒度數(shù)據(jù)收集和人工智能/機(jī)器學(xué)習(xí)分析相結(jié)合,使運(yùn)營(yíng)人員不僅可以查看其數(shù)據(jù)中心設(shè)施中發(fā)生的情況,還可以找出原因,以及應(yīng)該如何處理。
人工智能和機(jī)器學(xué)習(xí)支持的分析還可以揭示建議關(guān)鍵領(lǐng)域的可操作更改所需的洞察力,如最佳設(shè)定點(diǎn)、地板格柵布局、冷卻設(shè)施操作以及風(fēng)扇速度調(diào)整等。熱量分析還將顯示安裝機(jī)架的最佳位置。而且,由于人工智能能夠?qū)崿F(xiàn)實(shí)時(shí)可視化,數(shù)據(jù)中心團(tuán)隊(duì)可以快速獲得任何已經(jīng)執(zhí)行更改的即時(shí)性能反饋。
人工智能和機(jī)器學(xué)習(xí)為數(shù)據(jù)中心運(yùn)營(yíng)提供幫助
鑒于減少碳排放量和盡量減少電價(jià)上漲影響的壓力,數(shù)據(jù)中心團(tuán)隊(duì)如果要實(shí)現(xiàn)其可靠性和效率目標(biāo),就需要新的優(yōu)化支持。
利用最新的機(jī)器學(xué)習(xí)和人工智能驅(qū)動(dòng)的數(shù)據(jù)中心優(yōu)化方法當(dāng)然可以通過減少冷卻能源和使用來產(chǎn)生影響——在幾周內(nèi)即可獲得立竿見影的結(jié)果。將細(xì)粒度數(shù)據(jù)置于優(yōu)化計(jì)劃的最前沿,數(shù)據(jù)中心團(tuán)隊(duì)不僅能夠消除過熱和電力故障風(fēng)險(xiǎn),還能確保將冷卻能耗成本和碳排放量平均降低30%。很難忽視這種成本節(jié)省可能產(chǎn)生的影響,尤其是在電價(jià)快速上漲的時(shí)期。如今為優(yōu)化而權(quán)衡風(fēng)險(xiǎn)和可用性的日子已經(jīng)一去不復(fù)返了,人工智能和機(jī)器學(xué)習(xí)技術(shù)將應(yīng)用在數(shù)據(jù)中心運(yùn)營(yíng)的最前沿。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。