FPGA技術具有可定制性、低延遲和高性能功耗比等優(yōu)勢,已成為諸多AI用戶部署推理應用的選擇。但FPGA技術進入到大規(guī)模AI業(yè)務部署仍舊存在軟件編寫門檻高、性能優(yōu)化受限、功耗難以控制等諸多挑戰(zhàn)。為了應對這些挑戰(zhàn),浪潮推出了開源的TF2框架。
TF2是全球首個完整方案的FPGA高效AI計算開源框架,可對模型進行壓縮、裁剪、量化等優(yōu)化轉換以減少模型計算量,將模型文件自動轉化為FPGA目標運行文件,降低FPGA的AI軟件實現(xiàn)門檻,通過創(chuàng)新的DNN移位計算技術大幅提升FPGA做推理計算的性能,并有效降低其實際運行功耗,幫助用戶快速實現(xiàn)FPGA線上推理。在浪潮F10A FPGA卡上采用FaceNet模型對TF2進行的測試(BatchSize=1)表明,運行TF2后單張圖片的計算耗時為0.612ms,提速12.8倍。目前,TF2開源社區(qū)已吸引第四范式、快手、上海大學、華大智造、遠鑒科技、睿視智覺、華展匯元等多家領先公司或機構加入。
TF2計算加速流程
為了推動TF2社區(qū)建設,浪潮推出了可重構AI計算發(fā)展計劃,為參與者提供F10A、F37X等最新FPGA加速卡支持,鼓勵參與者將創(chuàng)新性成果反饋至社區(qū),共同促進FPGA技術的開源開放合作發(fā)展,降低高性能AI計算技術門檻,加速AI應用落地。浪潮F10A是目前業(yè)界支持OpenCL的最高性能密度的FPGA加速卡,每瓦特性能達到42GFlops,已實現(xiàn)大規(guī)模應用部署,適用于數(shù)據(jù)中心AI推理、邊緣高密計算及桌面端應用加速等多種計算環(huán)境;浪潮F37X是全球首款集成HBM2的FPGA加速卡,可在75W典型功耗條件下,提供28.1TOPS INT8計算性能。此外,浪潮還將提供針對性的技術培訓和服務支持,并定期舉行開發(fā)者會議和線上公開課,分享最新技術進展和經(jīng)驗成果。
浪潮AI&HPC總經(jīng)理劉軍表示:“視覺、語音識別以及文本、語義理解等人工智能技術正在與各行業(yè)融合,以FPGA為代表的可重構計算將在各類線上推理場景中得到更廣泛的應用。浪潮希望通過可重構AI計算發(fā)展計劃促進TF2開源社區(qū)發(fā)展,同時增進開發(fā)者對最新FPGA計算加速技術的熟悉和了解,最大化釋放FPGA的計算潛力,加速產(chǎn)業(yè)AI化進程。”
浪潮是人工智能計算的領導品牌,AI服務器中國市場份額保持50%以上。并與人工智能領先科技公司保持在系統(tǒng)與應用方面的深入緊密合作,幫助AI客戶在語音、語義、圖像、視頻、搜索、網(wǎng)絡等方面取得數(shù)量級的應用性能提升。