AI和HPC推動(dòng)對(duì)更高密度的數(shù)據(jù)中心、新的即服務(wù)產(chǎn)品的需求

責(zé)任編輯:cres

作者:David Chernicoff

2023-08-23 14:35:00

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

AI的采用正在以前所未有的速度發(fā)生。在一年左右的時(shí)間內(nèi),托管提供商將需要進(jìn)行調(diào)整,以應(yīng)對(duì)企業(yè)對(duì)高密度數(shù)據(jù)中心的新的、更大的需求。

AI和HPC的電力和冷卻需求需要專業(yè)知識(shí)和能力,運(yùn)營和工程也需要具備專業(yè)知識(shí)。
 
正如數(shù)據(jù)中心發(fā)現(xiàn)自己需要處理電力、空間和可持續(xù)發(fā)展等新問題一樣,最新的尖端技術(shù)、AI和機(jī)器學(xué)習(xí)給所有這些問題帶來了挑戰(zhàn)。
 
這并不是說必須面對(duì)的這些問題是新的,而是AI的采用正在以前所未有的速度發(fā)生。在一年左右的時(shí)間內(nèi),托管提供商將需要進(jìn)行調(diào)整,以應(yīng)對(duì)企業(yè)對(duì)高密度數(shù)據(jù)中心的新的、更大的需求。
 
那么,這實(shí)際上意味著什么呢?似乎不太可能有一大批客戶投資數(shù)百萬美元購買AI專用硬件,敲響托管提供商的大門,那么數(shù)據(jù)中心需要提供什么呢?
 
電力和冷卻優(yōu)先
 
在基礎(chǔ)設(shè)施方面,電力和冷卻的可用性將是客戶首先尋求的。但是,提供商是否需要能夠支持整個(gè)數(shù)據(jù)大廳的NVIDIA H100規(guī)模的GPU,或者更有可能的是,具有4或8個(gè)GPU服務(wù)器和適當(dāng)存儲(chǔ)的單個(gè)機(jī)架就是所需的全部?
 
當(dāng)然,對(duì)于相對(duì)簡單的單一AI服務(wù)器部署,單機(jī)架解決方案可能需要支持50kW或更多。正如我們最近指出的,處理這種工作負(fù)載的技術(shù)已經(jīng)在許多設(shè)施中到位,但它只是將AI部署到主機(jī)托管中的一個(gè)起點(diǎn)。
 
對(duì)于提供商和客戶來說,現(xiàn)在和未來的中期解決方案是AI即服務(wù)解決方案。
 
換句話說,托管客戶大規(guī)模AI部署的市場(chǎng)正開始推動(dòng)需求,因?yàn)樗坪趺總€(gè)人都有興趣涉足其中。這意味著,擁有各自云的微軟、谷歌、亞馬遜甚至甲骨文都將看到客戶希望使用其按需配置來測(cè)試、評(píng)估并潛在地部署云AI服務(wù)。
 
誰將推動(dòng)這一需求?
 
但進(jìn)入提供AI云服務(wù)的不僅僅是頂級(jí)參與者。在最近的Computex 2023大會(huì)上,英偉達(dá)特別強(qiáng)調(diào)了他們的云合作伙伴,除了四大之外。
 
Cirrascale就是一個(gè)這樣的例子,他們最初是作為HPC按需計(jì)算的提供商而成名的。他們現(xiàn)在提供他們的AI創(chuàng)新云,該云利用支持基礎(chǔ)設(shè)施為客戶提供評(píng)估AI/ML系統(tǒng)的機(jī)會(huì)。他們對(duì)AI托管的承諾反映在客戶可供選擇的方面。
 
客戶不僅可以選擇使用前幾代和當(dāng)前幾代NVIDIA AI硬件,該公司還可以托管他們的GraphCloud,利用Graphcore的BOW IPU;Cerebras的AI Model Studio在他們托管的Cerabras云上運(yùn)行;以及SambaNova的數(shù)據(jù)流即服務(wù)和基礎(chǔ)模型。
 
這是四種領(lǐng)先的加速AI/ML技術(shù),它們不是Google或AWS,這兩家公司除了自己的內(nèi)部設(shè)計(jì)外,還提供Nvida GPU。Cirrascale也可能是這些相互競爭的技術(shù)的唯一來源,在某些情況下,還提供互補(bǔ)技術(shù),甚至在他們的云中提供不同技術(shù)的公開定價(jià)模型。
 
Lambda Labs采取了一種略有不同的方法,他們提供五種不同級(jí)別的基于Nvidia的托管服務(wù),以及為你的ML硬件和軟件堆棧設(shè)計(jì)的全面托管服務(wù)。它們提供專為GPU計(jì)算工作負(fù)載設(shè)計(jì)的高密度電源和冷卻。此外,他們還可以在你的數(shù)據(jù)中心或其數(shù)據(jù)中心內(nèi)部提供其設(shè)計(jì)的GPU群集。
 
NVIDIA強(qiáng)調(diào)的其他供應(yīng)商包括Coreweave、Paperspace和Vultr。所有這些提供商的共同點(diǎn)是,它們都是專門的云服務(wù)提供商,擁有多個(gè)數(shù)據(jù)中心,并專注于支持AI/ML工作負(fù)載。有些公司的目光超越了他們的AI重點(diǎn),提供了更標(biāo)準(zhǔn)化的云數(shù)據(jù)中心選項(xiàng),例如全方位的存儲(chǔ)、托管數(shù)據(jù)庫、Kubernetes和裸機(jī)部署。
 
這讓我們對(duì)主機(jī)代管的未來有了一些了解。隨著新設(shè)施的建設(shè)和現(xiàn)有空間的翻新,為高密度計(jì)算開發(fā)必要的支持基礎(chǔ)設(shè)施,無論是提供帶有被動(dòng)后門冷卻的機(jī)架,還是配備用于部署液體冷卻IT工作負(fù)載設(shè)備的完整數(shù)據(jù)大廳,或者介于兩者之間的任何東西,都需要引起人們的注意。
 
它將成為行業(yè)的驅(qū)動(dòng)力
 
雖然并不是每個(gè)數(shù)據(jù)中心都需要配備設(shè)備來運(yùn)行最密集的AI工作負(fù)載,但當(dāng)前的趨勢(shì)是,僅寶貴的數(shù)據(jù)中心位置的空間就非常寶貴,這意味著構(gòu)建更高密度的機(jī)架解決方案是通向未來的唯一途徑。
 
這并不意味著每個(gè)數(shù)據(jù)中心都需要按照Colovore設(shè)施的方式來建設(shè),Colovore設(shè)施提供每個(gè)機(jī)架35千瓦的標(biāo)準(zhǔn)密度,并談到了構(gòu)建超過200 kW機(jī)架的能力(這個(gè)數(shù)字似乎過高,除非你看看AI/ML工作負(fù)載專用硬件的電力需求)。但這確實(shí)意味著,尤其是在空間有限的地方,數(shù)據(jù)中心將需要標(biāo)準(zhǔn)化,以支持顯著更高的電力和冷卻需求。
 
對(duì)現(xiàn)有設(shè)施來說,幸運(yùn)的是,冷卻技術(shù)的進(jìn)步并不需要對(duì)現(xiàn)有的冷卻基礎(chǔ)設(shè)施進(jìn)行大規(guī)模的拆卸和更換。有足夠廣泛的冷卻技術(shù)可以實(shí)現(xiàn)經(jīng)濟(jì)高效的按需升級(jí),新的機(jī)架設(shè)計(jì)、被動(dòng)和液體冷卻技術(shù)以及從機(jī)架擴(kuò)展到整個(gè)數(shù)據(jù)中心的解決方案近在咫尺。
 
作為這些技術(shù)的一個(gè)極好的例子,在2023年8月的第一周,Digital Realty宣布其在28個(gè)市場(chǎng)的代管設(shè)施將開始支持高達(dá)70kW的機(jī)架密度。該公司正在使用所謂的空氣輔助液體冷卻技術(shù)來實(shí)現(xiàn)這一點(diǎn),該技術(shù)通過在現(xiàn)有的代管設(shè)施中引入液體冷卻后門熱交換器來實(shí)現(xiàn)。
 
對(duì)高密度托管的支持不是在未來,而是現(xiàn)在。找到可伸縮性良好的解決方案將是許多提供商的目標(biāo)。隨著客戶開始了解高性能計(jì)算和AI解決方案將為他們的業(yè)務(wù)帶來的價(jià)值,推動(dòng)這些變化的業(yè)務(wù)正在迅速增長。
 
關(guān)于企業(yè)網(wǎng)D1net(r5u5c.cn):
 
國內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)