今年早些時候,英特爾展示了其在神經(jīng)網(wǎng)絡(luò)處理器(NPU)研發(fā)上的最新進展。新設(shè)計的芯片,其在機器學(xué)習(xí)和人工智能性能上遠超通用型處理器,且會努力推向市場。英特爾人工智能產(chǎn)品事業(yè)部副總裁 Carey Kloss 對 Nervana 架構(gòu)的改進進行了解釋,首先是理解一個神經(jīng)網(wǎng)絡(luò)(NNP)必須做些什么。使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練一臺機器,需要大量的內(nèi)存和算數(shù)運算,才能產(chǎn)生有效的輸出。
擴展性、能耗、最大負荷,也是 Nervana 空間架構(gòu)的主要考慮因素。為了最大限度地節(jié)省能源,除非絕對必要,否則數(shù)據(jù)不應(yīng)在系統(tǒng)內(nèi)移動;矢量數(shù)據(jù)可以在內(nèi)存模塊之間進行分割,讓數(shù)據(jù)總是接近最需要它的地方。
隨著高帶寬內(nèi)存(HBM)的部署,片上和外埠內(nèi)存之間的帶寬可以超過 1TB/s 。盡管這是一個令人印象深刻的數(shù)字,內(nèi)存帶寬仍然是深度學(xué)習(xí)工作負載的一個限制因素。
鑒于英特爾無法等到新式內(nèi)存技術(shù)的到來,于是只能在其它方面運用一些創(chuàng)造性的開發(fā)方法。比如使用軟件控制內(nèi)存,允許在內(nèi)存從一次加載來自外存的信息,然后在本地內(nèi)存模塊之間轉(zhuǎn)移數(shù)據(jù)。
每個模塊大約有 2MB 空間,每個 Nervana 芯片合計約 30MB 。減少讀取外部內(nèi)存的操作,有助于防止內(nèi)存帶寬飽和、且允許對下一操作所需數(shù)據(jù)集進行預(yù)取。
Flexpoint 數(shù)據(jù)類型的一項更新,可在僅 16-bit 的存儲上,實現(xiàn)近似于 32-bit 浮點操作的性能。位寬開銷減半之后,有效內(nèi)存帶寬可輕松翻倍。當(dāng)然 Flexpoint 也是模塊化的,因此未來的 Nervana 能夠進一步減少操作所需的 bit 數(shù)。
最后,芯片和外部組件之間的通信,也得到了雙向(Tbit 級)的極大改善。在高速通信的保障下,一簇 Nervana 芯片可被當(dāng)做一個整體,用于單項任務(wù)工作。
[編譯自:TechSpot]