一位谷歌的工程經(jīng)理呼吁采用新的人工智能架構(gòu),包括一種保護(hù)數(shù)據(jù)隱私的分布式方法。在他的演講之后,在ISSCC(國(guó)際固態(tài)電路會(huì)議)上,有超過六篇學(xué)術(shù)論文描述了機(jī)器學(xué)習(xí)的新方法。
幾篇ISSCC論文將計(jì)算和存儲(chǔ)合并起來,這是一種長(zhǎng)期以來追求的研究思想,一些人認(rèn)為機(jī)器學(xué)習(xí)最終可以帶來廣泛的商業(yè)用途。就谷歌而言,該公司正在探索一種混合方法,讓最終用戶保留他們的數(shù)據(jù),只是將神經(jīng)網(wǎng)絡(luò)權(quán)重發(fā)送到云中的參數(shù)服務(wù)器進(jìn)行處理。
最終,谷歌及其同行需要在計(jì)算能力方面實(shí)現(xiàn)巨大突破,才能實(shí)現(xiàn)人工智能在其數(shù)據(jù)中心的前景。Olivier Temam是這家搜索巨頭一項(xiàng)未指明的人工智能計(jì)劃的經(jīng)理,Temam表示,機(jī)器學(xué)習(xí)支持的谷歌圖片搜索完成一個(gè)任務(wù)的一個(gè)循環(huán)就需要110億次/秒的操作
Temam呼吁采用分布式的方法,這樣邊緣設(shè)備和云服務(wù)可以協(xié)作訓(xùn)練神經(jīng)網(wǎng)絡(luò)。設(shè)備在本地使用原始數(shù)據(jù)進(jìn)行一些訓(xùn)練,然后將他稱為語(yǔ)義數(shù)據(jù)的更改或神經(jīng)網(wǎng)絡(luò)權(quán)重發(fā)送到云端,神經(jīng)網(wǎng)絡(luò)模型在其中會(huì)進(jìn)一步訓(xùn)練和完善。
Temam表示:“出于非常容易理解的原因,人們或公司不想將他們的數(shù)據(jù)發(fā)送到云端,所以我們已經(jīng)表明可以創(chuàng)建聯(lián)合學(xué)習(xí)的模型。”
一位觀察者指出,這種方法可能會(huì)吸引黑客試圖從語(yǔ)義數(shù)據(jù)中推斷出原始數(shù)據(jù)。
谷歌呼吁邊緣設(shè)備和云服務(wù)合作進(jìn)行神經(jīng)網(wǎng)絡(luò)培訓(xùn)
谷歌同意在這里向數(shù)百名芯片設(shè)計(jì)師發(fā)表演講,希望能為更強(qiáng)大的人工智能加速器產(chǎn)生新的點(diǎn)子。設(shè)計(jì)這種芯片的一個(gè)挑戰(zhàn)是處理器和神經(jīng)網(wǎng)絡(luò)需要的大量?jī)?nèi)存之間的瓶頸。
搜索巨頭需要的內(nèi)存帶寬在100TB/秒的范圍。Temam表示,今天的高帶寬存儲(chǔ)器堆棧的速度慢了兩個(gè)數(shù)量級(jí),而SRAM則太過昂貴而且非常耗電。
一些學(xué)者描述了將計(jì)算嵌入到內(nèi)存中的方法。由于各種專用存儲(chǔ)器——包括記憶電阻、ReRAM等——的興起,以及有時(shí)會(huì)使用大容量存儲(chǔ)器或者模擬陣列的、受到大腦啟發(fā)的計(jì)算機(jī)設(shè)計(jì)的影響,這一領(lǐng)域目前非常熱門。
麻省理工學(xué)院副教授Vivienne Sze在2016年與人合著了一篇關(guān)于Eyeriss架構(gòu)的論文,該架構(gòu)可以解決這個(gè)問題。Vivienne Sze表示:“我們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)絕大部分能量都耗費(fèi)在數(shù)據(jù)移動(dòng)之中。”她表示:“你需要管理大量的數(shù)據(jù)和權(quán)重,所以數(shù)據(jù)移動(dòng)消耗掉的能源比計(jì)算還要多。”
她在麻省理工學(xué)院的小組現(xiàn)在正在研究的靈活架構(gòu)可以運(yùn)行越來越多種類的神經(jīng)網(wǎng)絡(luò),包括開始出現(xiàn)的許多簡(jiǎn)化。他們還在探索在機(jī)器人和無(wú)人機(jī)相機(jī)等應(yīng)用上單位功率可以完成多少神經(jīng)網(wǎng)絡(luò)加速。
谷歌的Temam表示,只要實(shí)用而且成本低廉,該公司就可以接受所有新想法。Temam表示:“我們希望不斷降低成本,以便更大規(guī)模地部署,并最終實(shí)現(xiàn)最佳性能。”
后面的幾頁(yè)扼要介紹了六篇關(guān)于人工智能加速器的ISSCC論文。其中大部分論文的目標(biāo)都是降低推理工作的能耗,其中有一些支持一些培訓(xùn)工作。
使用TSV和電感耦合來堆疊SRAM
來自日本兩所大學(xué)的Quest處理器使用通孔過孔和電感耦合將八個(gè)層中的96 MB SRAM堆疊起來。另外,它的24個(gè)內(nèi)核每一個(gè)都有自己專用的4Mb的SRAM緩存。
韓國(guó)加速1到16位的CNN和RNNs
KAIST的研究人員為卷積和遞歸網(wǎng)絡(luò)設(shè)計(jì)了一種加速器,分辨率為1至16位。它使用了均衡功能加載器(AFL),最大限度地減少了對(duì)片外存儲(chǔ)訪問的需求。
神經(jīng)網(wǎng)絡(luò)分類器采用了SRAM陣列
斯坦福大學(xué)和Imec的研究人員描述了一款28-nm分類器,芯片上包含了所有必需的存儲(chǔ)器。它能夠以中等的準(zhǔn)確度,以每個(gè)任務(wù)3.79微焦的能耗處理任務(wù),能做到這一點(diǎn),部分的原因是針對(duì)卷積網(wǎng)絡(luò)使用了約束BinaryNet算法。
SRAMs 存儲(chǔ)權(quán)重,而ADCs負(fù)責(zé)計(jì)算它們
麻省理工學(xué)院的研究人員將神經(jīng)網(wǎng)絡(luò)權(quán)重存儲(chǔ)在SRAM陣列中,以消除外部存儲(chǔ)器非常耗電的讀取操作。每個(gè)陣列上的模數(shù)轉(zhuǎn)換器計(jì)算部分卷積。
低功耗陣列處理推理,培訓(xùn)
伊利諾斯大學(xué)的內(nèi)存中分類器達(dá)到了42皮焦耳/決定。其SRAM陣列具有推理和訓(xùn)練模式。
碳納米管遇到電阻式RAM單元
伯克利、麻省理工學(xué)院和斯坦福大學(xué)的一批資深研究人員使盡渾身解數(shù),采用整體3D工藝創(chuàng)造了一種基于1952個(gè)碳納米管FET和224個(gè)電阻式RAM單元的新型器件。這個(gè)所謂的超維計(jì)算納米系統(tǒng)處理語(yǔ)言翻譯任務(wù)的準(zhǔn)確率達(dá)到了98%。