數(shù)據(jù)量小
諸如谷歌和Facebook這樣的互聯(lián)網(wǎng)巨頭每天都定期收集和分析大量數(shù)據(jù)。他們使用這些數(shù)據(jù)來創(chuàng)建具有可接受性能的人工智能模型。在這種情況下,用于訓(xùn)練模型的硬件與用于運(yùn)行模型的硬件有著很大的區(qū)別。
另一方面,在硬件行業(yè)中,大數(shù)據(jù)的可用性受到更多限制,導(dǎo)致成熟的人工智能模型并不成熟。因此,組織需要收集更多數(shù)據(jù)并運(yùn)行在線模型,其中在部署的硬件上進(jìn)行訓(xùn)練和推理,以不斷提高準(zhǔn)確性。
為了解決這個(gè)問題,例如經(jīng)過驗(yàn)證的現(xiàn)場(chǎng)可編程門陣列(FPGA)和自適應(yīng)片上系統(tǒng)(SoC)設(shè)備的自適應(yīng)計(jì)算可以運(yùn)行推理和訓(xùn)練,以不斷地更新新捕獲的數(shù)據(jù)。傳統(tǒng)的人工智能訓(xùn)練需要在云平臺(tái)或大型數(shù)據(jù)中心進(jìn)行,并且需要花費(fèi)數(shù)天甚至數(shù)周的時(shí)間才能完成。另一方面,實(shí)際數(shù)據(jù)主要在邊緣生成。在同一邊緣設(shè)備上運(yùn)行人工智能推理和訓(xùn)練,不僅可以降低總體擁有成本(TCO),而且可以減少延遲和安全隱患。
“不完美”輸入
以X射線圖像為例,采用人工智能模型概念驗(yàn)證(PoC)來更精確檢測(cè)冠狀病毒變得越來越容易,但這些概念驗(yàn)證(PoC)幾乎總是基于經(jīng)過良好處理的輸入圖片和信息。在現(xiàn)實(shí)生活中,來自醫(yī)療設(shè)備、機(jī)器人和移動(dòng)汽車的攝像頭和傳感器輸入會(huì)產(chǎn)生隨機(jī)失真,例如更暗圖像和角度不當(dāng)?shù)奈矬w。這些輸入數(shù)據(jù)首先需要經(jīng)過復(fù)雜的預(yù)處理來清理和重新格式化,然后才能輸入到人工智能模型中。預(yù)處理對(duì)于理解人工智能模型的輸出和計(jì)算正確的決策非常重要。
確實(shí),某些芯片可能非常擅長人工智能推理加速,但是它們幾乎只是加速某一部分應(yīng)用程序。以智能零售行業(yè)為例,預(yù)處理包括多流視頻解碼,然后采用常規(guī)的計(jì)算機(jī)視覺算法,對(duì)視頻進(jìn)行調(diào)整大小、變形和格式化。預(yù)處理還包括對(duì)象跟蹤和數(shù)據(jù)庫查找。最終客戶不太在乎人工智能推理的運(yùn)行速度,而是在乎是否能夠滿足整個(gè)應(yīng)用程序管道的視頻流性能和/或?qū)崟r(shí)響應(yīng)能力。FPGA和自適應(yīng)概念驗(yàn)證(PoC)具有使用特定領(lǐng)域架構(gòu)(DSA)加速這些預(yù)處理的良好記錄。另外,添加人工智能推理概念驗(yàn)證(PoC)將使整個(gè)系統(tǒng)得以優(yōu)化,以滿足端到端的產(chǎn)品需求。
不斷變化的“最新技術(shù)”模型
人工智能研究社區(qū)如今越來越活躍,世界各地的研究人員每天都在開發(fā)新的人工智能模型。這些模型提高了準(zhǔn)確性,減少了計(jì)算需求,并處理新型的人工智能應(yīng)用程序。這些快速的創(chuàng)新為現(xiàn)有的半導(dǎo)體硬件設(shè)備帶來了壓力,需要更新的架構(gòu)來有效地支持現(xiàn)代算法。MLPerf等標(biāo)準(zhǔn)基準(zhǔn)測(cè)試證明,在運(yùn)行實(shí)際的人工智能工作負(fù)載時(shí),最先進(jìn)的CPU、GPU和人工智能 ASIC芯片的性能低于廠商宣稱的性能的30%。這種情況一直在推動(dòng)對(duì)特定領(lǐng)域架構(gòu)(DSA)新的需求,以跟上創(chuàng)新的步伐。
最近一些趨勢(shì)推動(dòng)了對(duì)新的特定領(lǐng)域架構(gòu)(DSA)的需求。深度卷積是一個(gè)新興的層,需要更大的內(nèi)存帶寬和特殊的內(nèi)存緩存才能有效。典型的人工智能芯片和GPU具有固定的L1/L2/L3緩存架構(gòu),并且內(nèi)部內(nèi)存帶寬有限,導(dǎo)致效率非常低。
研究人員正在不斷開發(fā)新的自定義層,而如今的芯片本身并不能支持這些新的自定義層。因此,它們需要在沒有加速的情況下在服務(wù)器的CPU上運(yùn)行,這常常成為性能瓶頸。
稀疏神經(jīng)網(wǎng)絡(luò)是另一種很有前途的優(yōu)化方法,它通過修剪網(wǎng)絡(luò)邊緣、去除卷積中的細(xì)粒度矩陣值等方法對(duì)網(wǎng)絡(luò)進(jìn)行大量修剪,有時(shí)修剪率高達(dá)99%。然而,要在硬件中高效運(yùn)行,需要專門的稀疏架構(gòu),大多數(shù)芯片根本沒有用于這些操作的編碼器和解碼器。
二進(jìn)制/三進(jìn)制是極限的優(yōu)化,可以將所有數(shù)學(xué)運(yùn)算轉(zhuǎn)換為位運(yùn)算。大多數(shù)人工智能芯片和GPU僅具有8位、16位或浮點(diǎn)計(jì)算單元,因此通過執(zhí)行極低的精度將不會(huì)獲得任何性能或功效。FPGA和可適應(yīng)的SoC非常完美,因?yàn)殚_發(fā)人員可以開發(fā)出完美的DSA,并為工作量非常大的現(xiàn)有設(shè)備進(jìn)行重新編程。作為證明,最新的MLPerf包括Xilinx與Mipsology合作提交的文件,該文件使用ResNet-50標(biāo)準(zhǔn)基準(zhǔn)測(cè)試實(shí)現(xiàn)了100%的硬件數(shù)據(jù)表性能。
沒有硬件專業(yè)知識(shí)?不要擔(dān)心
從歷史上看,F(xiàn)PGA和自適應(yīng)SoC的最大挑戰(zhàn)是需要硬件專家來實(shí)施和部署DSA。好消息是,現(xiàn)在有一些工具(例如Vitis統(tǒng)一軟件平臺(tái))支持C ++、Python和流行的人工智能框架(如TensorFlow和PyTorch),從而縮小了軟件和人工智能開發(fā)人員的差距。
除了在軟件抽象工具方面進(jìn)行更多開發(fā)之外,諸如Vitis硬件加速庫之類的開源庫也極大地促進(jìn)了開發(fā)人員社區(qū)的采用。在最近的設(shè)計(jì)競(jìng)賽中,Xilinx公司吸引了1000多名開發(fā)人員參與,并發(fā)布了許多創(chuàng)新項(xiàng)目,從手勢(shì)控制的無人機(jī)到使用二值神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)。重要的是,提交的大多數(shù)項(xiàng)目都是由以前沒有FPGA經(jīng)驗(yàn)的軟件和人工智能開發(fā)人員提供的。這證明FPGA行業(yè)正在采取正確的措施,使軟件和人工智能開發(fā)人員能夠解決現(xiàn)實(shí)世界中人工智能產(chǎn)品化的挑戰(zhàn)。
直到最近,對(duì)于軟件開發(fā)人員和人工智能科學(xué)家來說,釋放硬件適應(yīng)性的潛力是無法實(shí)現(xiàn)的。以前需要特定的硬件專業(yè)知識(shí),但是由于有了新的開源工具,軟件開發(fā)人員現(xiàn)在可以使用適應(yīng)性強(qiáng)的硬件。借助這種新的編程簡(jiǎn)便性,軟件開發(fā)人員和人工智能科學(xué)家將更易于使用FPGA和自適應(yīng)SoC,從而使這些設(shè)備成為下一代應(yīng)用程序的首選硬件解決方案。實(shí)際上,DSA將代表人工智能推理的未來,軟件開發(fā)人員和人工智能科學(xué)家將利用硬件的適應(yīng)性為其下一代應(yīng)用程序提供支持。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。