亚洲国产99精品国自产拍,亚洲精品成a人在线观看夫,黑人40厘米全进去

專家解讀：從傳統(tǒng)數(shù)據(jù)中心到智算中心的三大根本差異

責(zé)任編輯：cres

2024-10-31 18:47:30

摘自：中國(guó)IDC圈

每一次技術(shù)革新都引領(lǐng)產(chǎn)業(yè)進(jìn)入全新的時(shí)代，互聯(lián)網(wǎng)的出現(xiàn)實(shí)現(xiàn)了全球的互聯(lián)互通，云計(jì)算普及讓萬(wàn)物“上云”，而今，生成式AI的浪潮，正帶來(lái)下一場(chǎng)顛覆性變革：智能算力需求持續(xù)增長(zhǎng)，芯片與服務(wù)器呈現(xiàn)更高功率、更高算效，傳統(tǒng)數(shù)據(jù)中心向智算中心轉(zhuǎn)變。

右二：中國(guó)信息與通信研究院產(chǎn)業(yè)與規(guī)劃研究所副總工程師王青;右一：京東云裸金屬產(chǎn)品研發(fā)負(fù)責(zé)人徐梓耀

日前，在中國(guó)IDC圈與京東云聯(lián)合主辦的“京東云直播活動(dòng)——智算專場(chǎng)”迎來(lái)第二場(chǎng)直播：【大模型時(shí)代，我們需要什么樣的智算中心?】，中國(guó)信息與通信研究院產(chǎn)業(yè)與規(guī)劃研究所副總工程師王青與京東云裸金屬產(chǎn)品研發(fā)負(fù)責(zé)人徐梓耀兩位嘉賓，帶來(lái)大模型時(shí)代的算力新需求、智算中心特點(diǎn)、軟硬件及運(yùn)維新需求等分享。

大模型時(shí)代算力新需求

圖文生成、無(wú)人駕駛……ChatGPT橫空出世至今不到兩年的時(shí)間，大模型已經(jīng)從實(shí)驗(yàn)室走到產(chǎn)業(yè)化，背后離不開(kāi)算力支持。

業(yè)界戲言“無(wú)算力不模型”。在直播中，中國(guó)信息與通信研究院產(chǎn)業(yè)與規(guī)劃研究所副總工程師王青分析，大模型帶來(lái)的算力需求變化主要體現(xiàn)在規(guī)模、性能和異構(gòu)性等方面。

首先，大模型的參數(shù)規(guī)模與對(duì)算力的消耗成正比，參數(shù)規(guī)模越大，對(duì)算力的需求越大，隨著大模型參數(shù)量從千億邁向萬(wàn)億，未來(lái)萬(wàn)卡集群成為新一輪大模型基建賽道競(jìng)爭(zhēng)的配置。

其次，大模型對(duì)算力性能的提升需求迫切，包括：①加速芯片和微架構(gòu)創(chuàng)新等使得芯片能支撐更高精度的計(jì)算和更復(fù)雜的算法，提升大模型訓(xùn)練效率。②智算中心部署層級(jí)分為芯片級(jí)、單服務(wù)器節(jié)點(diǎn)級(jí)、多服務(wù)器集群級(jí)，大模型發(fā)展對(duì)智能算力擴(kuò)展性提出高要求，多以服務(wù)器單點(diǎn)或集群模式部署以提供并行計(jì)算能力。③軟件優(yōu)化，通過(guò)強(qiáng)化大模型加速庫(kù)能力建設(shè)，向用戶提供高效編程接口、優(yōu)化編譯器等工具，提升算力效率和性能。

最后，隨著大模型應(yīng)用不斷拓展，對(duì)異構(gòu)算力的需求也日益增加，并且涵蓋GPU、CPU、NPU等多種芯片類型、多種算力類型，以及國(guó)內(nèi)外芯片結(jié)合等多樣化算力需求。

京東云裸金屬產(chǎn)品研發(fā)負(fù)責(zé)人徐梓耀通過(guò)對(duì)芯片、服務(wù)器、多服務(wù)器集群三個(gè)層級(jí)的分析，指出：智算服務(wù)的本質(zhì)是利用IDC中的“分布式智能計(jì)算”環(huán)境，通過(guò)“互聯(lián)網(wǎng)”為客戶提供“本地化體驗(yàn)”的“智能計(jì)算服務(wù)”能力。

從傳統(tǒng)數(shù)據(jù)中心到智算中心大不同

大模型帶來(lái)算力需求變化的背景下，以通用算力為主的算力格局迎來(lái)改變，智能算力成為增長(zhǎng)主力，作為算力的物理承載，傳統(tǒng)數(shù)據(jù)中心也向智算中心演變。

與傳統(tǒng)數(shù)據(jù)中心相比，智算中心有何不同?

王青與徐梓耀兩位嘉賓一致認(rèn)為，主要集中在計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)三方面。

王青認(rèn)為，大模型參數(shù)量和訓(xùn)練數(shù)據(jù)復(fù)雜性快速增長(zhǎng)，對(duì)AI算力平臺(tái)的建設(shè)提出了新的要求，即需要從數(shù)據(jù)中心規(guī)?；懔Σ渴鸬慕嵌龋y(tǒng)籌考慮大模型分布式訓(xùn)練對(duì)于計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)的需求特點(diǎn)，并集成平臺(tái)軟件、結(jié)合應(yīng)用實(shí)踐，充分關(guān)注數(shù)據(jù)傳輸、任務(wù)調(diào)度、并行優(yōu)化、資源利用率等，設(shè)計(jì)和構(gòu)建高性能、高速互聯(lián)、存算平衡可擴(kuò)展集群系統(tǒng)，以滿足AI大模型的訓(xùn)練需求。整體來(lái)看，智算基礎(chǔ)設(shè)施的部署涉及計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)三大維度的橫向協(xié)同，也需要兼顧軟件平臺(tái)與硬件資源的縱向協(xié)同。

徐梓耀表示，對(duì)于智算在計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)三方面的變化，京東云都有相應(yīng)產(chǎn)品與解決方案滿足。

第一，在計(jì)算方面，智算服務(wù)對(duì)IDC機(jī)柜的配電要求更高，需要進(jìn)行定制改造滿足不同AI服務(wù)器的需求。

“阿爾法”T系列(風(fēng)液型)智能算力模塊

為此，京東云推出 “阿爾法”T系列(風(fēng)液型)與L系列(液冷型)兩種智能算力模塊，分別可滿足算力密度20-50kW/柜與20-100kW/柜以上數(shù)據(jù)中心部署需求。智能算力模塊均采用預(yù)制化模式，最快45天交付，支持47U-60U。其中L系列采用全預(yù)制化+冷板液冷系統(tǒng)，液冷機(jī)柜、CDU及室外冷卻設(shè)備等配置完善，可支持最高100KW/機(jī)柜功率密度。

第二，在網(wǎng)絡(luò)方面，智算服務(wù)要支持百億、千億甚至萬(wàn)億參數(shù)的深度學(xué)習(xí)大模型，對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)提出更高定制要求，除以太網(wǎng)外，支持RDMA能力的高速無(wú)損IB網(wǎng)絡(luò)或RoCE網(wǎng)絡(luò)是強(qiáng)需。

他介紹，京東提供算力網(wǎng)絡(luò)定制服務(wù)能力，H100/H800卡建議使用400G IB網(wǎng)絡(luò)，機(jī)器8張400G IB網(wǎng)絡(luò)滿配;A100/A800 卡建議使用200G網(wǎng)絡(luò)，IB或者RoCe都可以。

第三，在存儲(chǔ)方面，智算服務(wù)需要海量的訓(xùn)練數(shù)據(jù)，對(duì)數(shù)據(jù)中心的存儲(chǔ)系統(tǒng)也提出定制需求，高性能的共享存儲(chǔ)也成為標(biāo)配。

京東自研的存算分離的分布式存儲(chǔ)系統(tǒng)——云海，屏蔽底層存儲(chǔ)的異構(gòu)(支持國(guó)產(chǎn))，實(shí)現(xiàn)數(shù)據(jù)的同意存儲(chǔ)與管理，EB級(jí)存儲(chǔ)容量、萬(wàn)億級(jí)可管理的文件數(shù)量，適配國(guó)產(chǎn)服務(wù)器。云海有兩種產(chǎn)品形態(tài)，公有云上為云海統(tǒng)一平臺(tái)，也提供私有化部署云海存儲(chǔ)一體機(jī)。

此外，徐梓耀還介紹了京東云融合智算服務(wù)，以及滿足智算中心綠色節(jié)能低碳運(yùn)維需求的智能精維平臺(tái)。平臺(tái)分硬件節(jié)能與運(yùn)維節(jié)能兩個(gè)層面，其中運(yùn)維節(jié)能的相關(guān)產(chǎn)品——節(jié)能寶，能將傳統(tǒng)數(shù)據(jù)中心能耗降低15%左右，節(jié)能效果十分客觀。

當(dāng)天直播中，王青與徐梓耀兩位嘉賓還圍繞智算中心主要用戶與應(yīng)用場(chǎng)景、智算格局與未來(lái)發(fā)展、通用數(shù)據(jù)中心的改造等話題，帶來(lái)了深入分析與內(nèi)容分享。

數(shù)據(jù)中心