AI和機器學習以及深度學習子集可用于極大地改善芯片內(nèi)特定功能的控制和性能,它們能夠在現(xiàn)有設(shè)備之上分層,集成到新設(shè)計中,允許其應(yīng)用于更大范圍的功能中。
AI提供了許多好處。其中:
它通過更稀疏的算法或數(shù)據(jù)壓縮來改變特定功能的準確性,從而增加了粒度,提高性能并降低功耗;
它提供了將數(shù)據(jù)作為模式進行處理的能力,有效地提高了計算的抽象級別并增加了軟件的密度;
它允許處理和存儲器的讀寫作為矩陣完成,并大大加快了這些操作。
但AI還需要重新思考數(shù)據(jù)如何在芯片中運行:應(yīng)用于邊緣還是數(shù)據(jù)中心,因為無論在哪一方面,處理和存儲的數(shù)據(jù)量都是巨大的。
新的起點
從好的方面來說,AI提供了一種平衡高精度結(jié)果的方法,而不是使用更多精度更低的元素來實現(xiàn)足夠高的精度。在語音識別的情況下,精度遠不如在安全應(yīng)用中的面部識別或自動駕駛車輛中的目標識別那么重要。人工智能帶來的是在特定應(yīng)用程序需要時撥入這些結(jié)果的能力。
芯片中應(yīng)運用AI,實際是關(guān)于數(shù)據(jù)的質(zhì)量、數(shù)量和移動。這需要一種不同的方式來看待設(shè)計,包括團隊之間的協(xié)作。
“計算非常簡單,壓縮/解壓縮數(shù)據(jù)也簡單,但在內(nèi)存中存儲和加載數(shù)據(jù)并不簡單,”Arm研究員 Jem Davies說,“要構(gòu)建這些系統(tǒng),你需要特定領(lǐng)域的專家,比如機器學習專家和一些優(yōu)化以及性能方面的專家。”
他指出,機器學習可以影響系統(tǒng)中的所有內(nèi)容,其中大部分都隱藏在視圖之外。
“有些是用戶看不見的,”Davies說,“它被用來改善電池壽命。在相機內(nèi)也有運用的機器學習方法。“
人工智能最適用于神經(jīng)形態(tài)方法和不同的記憶結(jié)構(gòu),其中,數(shù)據(jù)可以作為矩陣來處理。使工作最佳化需要遠遠超出處理器的架構(gòu)。它需要在內(nèi)存中來回傳輸大量數(shù)據(jù),并且需要更改內(nèi)存,以便可以從左到右和上下左右寫入和讀取數(shù)據(jù)。
“許多架構(gòu)改進是軟件和硬件的結(jié)合,”Cadence音頻和語音IP產(chǎn)品營銷總監(jiān)Gerard Andrews說,“這并不一定能提高各個處理器的整體性能,但它確實增加了功耗和內(nèi)存效率。”
實際上,這使得軟件方面的設(shè)計具有更高的密度,并且加速了數(shù)據(jù)在內(nèi)存中的移動。“我們看到的問題是內(nèi)存不會有效縮小,而且識別錯誤率正在上升,”Andrews說,“我們正在探索算法的稀疏性,以降低功耗并提高性能。”
這只是觸及正在發(fā)生變化的表面,而這些變化正在迅速發(fā)生。
“內(nèi)存子系統(tǒng)中發(fā)生的事情是不連續(xù)的,而且是和突然的,”Achronix的系統(tǒng)架構(gòu)師Kent Orthner說,“由于需要大量數(shù)據(jù)管道,因此其開發(fā)了許多關(guān)于如何移動數(shù)據(jù)的架構(gòu)。對于相對較淺的內(nèi)存使用來說,這是一個巨大的障礙。“
正在探索減少數(shù)據(jù)流量的新方法之一是尖峰神經(jīng)網(wǎng)絡(luò)。因此,它們不是一致地發(fā)射信號,而是像人腦中的信號一樣飆升。
AI風險和混亂
但是,AI也存在一定程度的風險,具體取決于應(yīng)用和精確度。
過去電子系統(tǒng)的設(shè)計基于邏輯的完全可預測性,其中大部分都是硬連線的。AI將計算精度替換為可接受行為的分布。目前尚不清楚現(xiàn)有工具或方法是否會提供與設(shè)備在該分布范圍內(nèi)相同的置信度,特別是在系統(tǒng)出現(xiàn)損壞或退化的情況下,以及檢測到任何異常行為的速度。
對于如何應(yīng)用人工智能也存在一些困惑。目前,很多芯片并不是專門為人工智能開發(fā)的,它們都經(jīng)過了修改和覆蓋,以更有效地利用人工智能。
總的來說,這符合人工智能的初衷,這項技術(shù)是在全行業(yè)競爭的背景下出現(xiàn)的,用以提高相同或更低功率的性能。
對于針對AI培訓或推理的芯片,或者針對利用AI功能的芯片內(nèi)的處理器和加速器的芯片,一般的共識是使用不同的芯片架構(gòu)可以實現(xiàn)幾個數(shù)量級。但它并不適用于所有情況,并且有許多變量,例如訓練數(shù)據(jù)的大小和值,可以使AI對某些應(yīng)用程序無用。在其他情況下,性能提升100倍被認為是保守的。
Synopsys的戰(zhàn)略營銷經(jīng)理Ron Lowman說:“應(yīng)用程序和算法都存在挑戰(zhàn),處理器和存儲器芯片也面臨著挑戰(zhàn)。這使得探索對于AI架構(gòu)更為重要,而且這也是CCIX(加速器的高速緩存一致性互連)變得如此受歡迎的原因之一。越來越多的客戶正在尋求架構(gòu)的探索。每個人都在努力建立新的架構(gòu)來模仿大腦。”
此外,還有一種小型處理器,其與各種針對不同數(shù)據(jù)類型定制的新型加速器相關(guān)聯(lián)。并且,還存在很多關(guān)于數(shù)據(jù)壓縮和量化的工作。
“正在進行從32位浮點移動到8位浮點的工作,”Lowman說,“現(xiàn)在的問題是你是否可以采用單比特進行量化。”
量化涉及將大量輸入值映射到較小的輸出值集合,并且最大的擔憂是可接受的精度損失。通過足夠的傳感器或數(shù)據(jù)輸入,理論上可以最小化該錯誤率的影響,但這非常依賴于應(yīng)用程序。
沿著這些方向的另一種方法涉及源同步,特別是對于數(shù)據(jù)中心中的AI芯片,這促使片上網(wǎng)絡(luò)拓撲發(fā)生變化。網(wǎng)絡(luò)中的所有目標都接收相同的數(shù)據(jù),使用多播方法可以更有針對性地利用數(shù)據(jù)。
“通過多播,您可以對多個目的地進行一次寫入,”Arteris IP營銷副總裁Kurt Shuler說。
AI芯片的一個問題是它們往往非常大。“最大的問題是時鐘樹,”Shuler說,“這需要同步通信,因為如果你以異步方式處理通信,會占用很多區(qū)域。此外,更有可能在大芯片上出現(xiàn)路由擁塞。解決這個問題的方法是創(chuàng)建虛擬通道鏈接,這樣可以減少連線數(shù)量并通過一組線路共享通信。”
計劃過時
另一個部分涉及能夠與定期更新的算法保持同步,并影響將哪種處理器添加到使用AI的芯片中。其中每一個都會影響芯片內(nèi)數(shù)據(jù)的移動以及用于該數(shù)據(jù)的處理器類型。
CPU和GPU主要通過軟件提供一些可編程性。 DSP和FPGA提供固件/硬件的可編程性。嵌入式FPGA將可編程性直接添加到SoC或多芯片封裝中。
選擇處理器類型也取決于終端市場應(yīng)用。例如,對于汽車或工業(yè)環(huán)境中的安全關(guān)鍵應(yīng)用,該技術(shù)將保持最新狀態(tài),并且響應(yīng)足以與道路上的其他車輛或工廠中的其他設(shè)備兼容。
eSilicon創(chuàng)新高級主管CarlosMacián表示,“當我們討論面向未來的問題時,問題不在于它是否有效。作為開拓者的TPU表明,可以實現(xiàn)數(shù)量級的改進。但是對于新的工作負載,如果沒有優(yōu)化ASIC,你可能只會提高3倍。“
提高數(shù)據(jù)質(zhì)量有助于解釋為什么算法變化如此之快以及為什么現(xiàn)場可升級性對于某些設(shè)備而言至關(guān)重要。但是這些更改也會對性能產(chǎn)生影響,如果不在硬件中添加一些可編程性,就無法對其進行說明。問題是可編程性有多大,因為可編程邏輯比調(diào)整到軟件的硬件慢得多。
結(jié)論
與許多其他半導體增長市場不同,AI是一種橫向技術(shù)。它可以應(yīng)用于各種垂直市領(lǐng)域,并可用于為這些市場開發(fā)芯片。它還可用于使現(xiàn)有芯片更高效。
這僅僅是人工智能革命的開始,其影響已經(jīng)非常顯著。隨著設(shè)計團隊越來越精通這項技術(shù),將對他們?nèi)绾卧O(shè)計芯片、這些芯片如何與其他芯片交互產(chǎn)生重大影響,并將為工具、硬件、軟件的開發(fā)人員創(chuàng)造新的機會,甚至可能提供全新的市場。