作為全面升級的新一代GPU云服務(wù)器,T4采用了最新的Turing架構(gòu),單卡提供8.1 TFLOPS的單精浮點計算能力和65 TFLOPS的混合精度(FP16/FP32)矩陣計算能力。Tesla T4相比于上一代產(chǎn)品Tesla P4,其整體性能有了較大的提升,在給定場景下,T4的推理性能提升超過350%。
震撼的多精度推理性能為AI全面加速
Tesla T4基于Turing架構(gòu),提供了更加強大的訓(xùn)練和推理能力,在原有對FP32和FP16支持的基礎(chǔ)上,Turing架構(gòu)中的Tensor Core新增了對INT8和INT4的支持,并探索性地推出了INT1精度模式。通過對多種精度模式的支持,T4能夠有效縮短在線預(yù)測和離線訓(xùn)練時長。根據(jù)Nvidia公布的測試數(shù)據(jù),在語言推理的場景中(NLP: GNMT Model),T4相對于P4,其性能提升超過350%。
Tesla T4使用TU104核心,搭載136億個晶體管,共40個SM(stream multiprocessor),每個SM單元中有64個CUDA Core和8個混合精度的矩陣運算單元Tensor Core,共2560個CUDA core和320個Tensor core,提供8.1 TFLOPS的單精度性能和65 TFLOPS的混合精度(FP16/FP32)性能。此外,T4中還集成了Turing架構(gòu)首次引入的RT Core,可實現(xiàn)高效的光線追蹤(Ray Tracing)功能,在圖形圖像渲染方面有著廣泛的應(yīng)用。目前,金山云基于T4的GPU加速計算服務(wù)已全面商用,為諸多客戶提供著高性能的計算支撐。
優(yōu)異的機器學(xué)習(xí)能力讓技術(shù)更智能
T4針對深度學(xué)習(xí)應(yīng)用場景,進行了全方位的優(yōu)化。首先,T4卡配備了320個Tensor Core。Tensor Core作為專門用于執(zhí)行張量/矩陣運算的計算單元,能夠為訓(xùn)練和推理場景中的矩陣運算提供極大的加速,被廣泛用于各種深度學(xué)習(xí)的場景中。Turing Tensor Core相對于先前的Volta版,強化了推理的功能,支持了INT8和INT4兩種精度模式,算力分別高達130TOPS和260TOPS。其次,T4繼承了Volta架構(gòu)中首次引入的Multi-Process Service(MPS)功能,優(yōu)化了對batch較小時推理的性能,減少啟動延遲,從而能夠支持更多的并發(fā)請求。
及時響應(yīng)是提升用戶參與度的關(guān)鍵,隨著模型準(zhǔn)確性和復(fù)雜性的提高,快速交付正確答案所需的計算能力也在呈指數(shù)級提升。T4擁有先進的實時推理性能,在會話式人工智能、推薦系統(tǒng)和可視化搜索等場景的處理上,可提供低延時、高吞吐量的計算能力,進而實時滿足更多的處理請求。T4通過優(yōu)異的機器學(xué)習(xí)推理能力讓技術(shù)應(yīng)用更為智能。除了深度學(xué)習(xí)外,T4在視頻轉(zhuǎn)碼和虛擬桌面等諸多場景中都能夠發(fā)揮重要的作用。
作為中國領(lǐng)先的云計算服務(wù)提供商,金山云始終致力于通過最前沿的技術(shù)、最高效的產(chǎn)品為客戶提供更加安全、穩(wěn)定、便捷的云服務(wù)。目前基于T4的 GPU云服務(wù)器已經(jīng)開放商用,卓越的深度學(xué)習(xí)推理性能,讓用戶能夠更加快速、高效地構(gòu)建AI業(yè)務(wù),運行大規(guī)模模型推理應(yīng)用。同時,基于Tesla T4的實例具備易擴展和高性價比的特性,能夠為用戶節(jié)省大量計算成本,有效提升AI產(chǎn)品迭代的速度,提高企業(yè)AI競爭力。