盡管所謂“深度神經(jīng)網(wǎng)絡(luò)”已經(jīng)幫助機(jī)器學(xué)會(huì)如何利用自然語言進(jìn)行交談、駕駛汽車、游玩電子游戲并奪取圍棋賽冠軍,甚至繪制夢(mèng)境、畫畫并推動(dòng)科學(xué)發(fā)現(xiàn),但其同時(shí)亦給創(chuàng)造者們帶來新的挑戰(zhàn)——因?yàn)檠芯咳藛T從未想到深度學(xué)習(xí)技術(shù)能夠擁有如此出色的運(yùn)作效果。除了從人類大腦架構(gòu)中得出的模糊靈感之外,時(shí)至今日,我們?nèi)圆磺宄降资窃鯓拥幕驹瓌t指導(dǎo)著這些學(xué)習(xí)系統(tǒng)的實(shí)際設(shè)計(jì)(也沒人能夠真正理解其運(yùn)作原理)。
與大腦一樣,深度神經(jīng)網(wǎng)絡(luò)擁有大量神經(jīng)元——人工神經(jīng)元正是計(jì)算機(jī)記憶的象征。當(dāng)某一神經(jīng)元被激活時(shí),其會(huì)將信號(hào)發(fā)送至上層與之連接的另一神經(jīng)元。而在深度學(xué)習(xí)過程中,網(wǎng)絡(luò)中的連接會(huì)根據(jù)需要進(jìn)行加強(qiáng)與減弱,從而使得系統(tǒng)能夠更好地發(fā)送來自輸入數(shù)據(jù)(例如一張小狗圖片中的各像素)的信號(hào),并經(jīng)由各層最終通過神經(jīng)元將內(nèi)容關(guān)聯(lián)至正確的高級(jí)概念處——例如“狗”。在深度神經(jīng)網(wǎng)絡(luò)對(duì)成千上萬張小狗圖片樣本進(jìn)行“學(xué)習(xí)”之后,其即可像人類一樣準(zhǔn)確從新圖片中發(fā)現(xiàn)狗這一對(duì)象。在學(xué)習(xí)過程中,這種由特殊情況到一般性概念的奇跡般認(rèn)知提升正是深度神經(jīng)網(wǎng)絡(luò)的力量所在,這意味著其真正在與人類一樣憑借著推理、創(chuàng)造力以及其它被統(tǒng)稱為“智力”的能力得以解決實(shí)際問題。專家們現(xiàn)在很想知道深度學(xué)習(xí)到底是什么,而大腦又是否在以同樣的方式理解現(xiàn)實(shí)事物。
上個(gè)月,在柏林舉辦的一場(chǎng)YouTube視頻會(huì)議也許能夠?yàn)槿斯ぶ悄苎芯咳藛T帶來潛在的答案。講座當(dāng)中,耶路撒冷希伯來大學(xué)計(jì)算機(jī)科學(xué)家兼神經(jīng)科學(xué)家Naftali Tishby提出了證據(jù)以支持一面新的理論,希望能夠借此對(duì)深度學(xué)習(xí)的工作原理作出解釋。Tishby認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)是根據(jù)一種所謂“信息瓶頸”的流程來進(jìn)行學(xué)習(xí)的,而他早在1999年就曾與兩位合作者利用純理論術(shù)語首次描述了這一概念。其想法在于,神經(jīng)網(wǎng)絡(luò)會(huì)從輸入數(shù)據(jù)中排除無關(guān)細(xì)節(jié)與干擾信息,類似于擠壓信息以通過瓶頸,最終僅保留與一般性概念相關(guān)性最強(qiáng)的特征。Tishby和他的學(xué)生Ravid Shwart-Ziv設(shè)計(jì)出新的計(jì)算機(jī)實(shí)驗(yàn),希望至少立足其實(shí)驗(yàn)環(huán)境展示這一擠壓過程究竟是如何在深度學(xué)習(xí)過程當(dāng)中實(shí)現(xiàn)的。
耶路撒冷希伯來大學(xué)計(jì)算機(jī)科學(xué)家兼神經(jīng)科學(xué)家Naftali Tishby
Tishby的發(fā)現(xiàn)很快在人工智能領(lǐng)域引起轟動(dòng)。谷歌公司的Alex ALemi表示:“我認(rèn)為信息瓶頸這一概念在未來的深度神經(jīng)網(wǎng)絡(luò)研究中可能將扮演非常重要的角色。”他開發(fā)出多種新的近似方法,旨在對(duì)大型深層神經(jīng)網(wǎng)絡(luò)進(jìn)行信息瓶頸分析。Alemi解釋稱:“這一瓶頸不僅能夠作為理解神經(jīng)網(wǎng)絡(luò)實(shí)際工作原理的理論性工具,同時(shí)也可作為構(gòu)建新型網(wǎng)絡(luò)與架構(gòu)的輔助方案。”
一部分研究人員仍然懷疑該理論究竟是否能夠解釋深度學(xué)習(xí)所獲得的成功,不過曾利用機(jī)器學(xué)習(xí)技術(shù)分析大型繩子對(duì)撞機(jī)內(nèi)粒子碰撞狀態(tài)的紐約大學(xué)粒子物理學(xué)家Kyle Cranmer認(rèn)為,單純從學(xué)習(xí)的一般性原則角度來看,這一理論“聽起來挺有道理”。
同時(shí)在谷歌公司與多倫多大學(xué)任職的深度學(xué)習(xí)技術(shù)先驅(qū)Geoffrey Hinton在觀看了此次柏林演講之后向Tishby發(fā)出一封電子郵件。他寫道“這非常有趣,我必須重聽一遍才能真正理解其中的內(nèi)容?,F(xiàn)在我們終于聽到了真正具有原創(chuàng)性的思維,這很可能代表著一個(gè)重大難題迎來了正確答案——可喜可賀!”
根據(jù)Tishby的觀點(diǎn),信息瓶頸為機(jī)器學(xué)習(xí)背后的一項(xiàng)基本原則——無論是對(duì)于算法、昆蟲抑或是任何其它有意識(shí)的存在,甚至包括對(duì)緊急行為的物理計(jì)算,我們長(zhǎng)久以來所期盼的答案應(yīng)該是“學(xué)習(xí)當(dāng)中最重要的部分其實(shí)在于遺忘”。
瓶頸
Tishby最初投身于信息瓶頸研究工作時(shí),其他研究人員才剛剛開始鉆研深層神經(jīng)網(wǎng)絡(luò)——不過當(dāng)時(shí)這兩項(xiàng)技術(shù)概念還沒有被正式定名。那時(shí)候是上世紀(jì)八十年代,Tishby正在考慮人類在語音識(shí)別方面的實(shí)際表現(xiàn)——這對(duì)當(dāng)時(shí)的人工智能還是一項(xiàng)巨大的挑戰(zhàn)。Tishby意識(shí)到,這個(gè)問題的核心在于相關(guān)性——語音詞匯中相關(guān)性最高的特征究竟是什么?我們?nèi)绾螐呐c之相關(guān)的變量當(dāng)中剔除某些特征,例如噪音、雜音以及語調(diào)?一般來講,在面對(duì)現(xiàn)實(shí)世界中的數(shù)據(jù)海洋時(shí),我們應(yīng)選擇保留哪些信號(hào)?
Tishby在上個(gè)月接受采訪時(shí)表示,“這種與信息相關(guān)的概念曾在歷史上被多次提及,但從來沒能得到正確的表述。多年以來,人們一直認(rèn)為信息理論并不是解讀相關(guān)性的正確途徑,而只是Shannon本人長(zhǎng)久以來一廂情愿的想法。”
信息理念的締造者Claude Shannon在某種意義上解放了信息研究工作的力量。從上世紀(jì)四十年代開始,信息理論開始將信息視為純抽象產(chǎn)物——類似于數(shù)學(xué)意義上的0和1。Shannon認(rèn)為,“信息與語義無關(guān)”。不過Tishby對(duì)此抱不同看法。利用信息理論,他意識(shí)到“我們可以精確地對(duì)‘相關(guān)性’作出定義。”
我們首先想象X是一套復(fù)雜的數(shù)據(jù)集,例如小狗圖片中的全部像素,而Y則是一個(gè)能夠代表這些數(shù)據(jù)的簡(jiǎn)單變量,例如單詞“狗”。我們可以盡可能地壓縮X,同時(shí)保證不失去預(yù)測(cè)Y的能力,這樣即可在X中捕捉到全部“相關(guān)性”信息。在1999年發(fā)表的論文當(dāng)中,Tishby與聯(lián)合作者Fernando Pereira(現(xiàn)效力于谷歌公司)以及William Bialek(現(xiàn)任職于普林斯頓大學(xué))將其描述為一個(gè)數(shù)學(xué)優(yōu)化問題。很明顯,這只是一種理論性思想,無法支持有力的現(xiàn)實(shí)應(yīng)用。
Tishby指出,“我已經(jīng)在各種背景之下對(duì)這個(gè)問題思考了三十年。幸運(yùn)的是,如今深層神經(jīng)網(wǎng)絡(luò)開始變得如此重要。”
場(chǎng)景中的人,人的臉,以及臉上的眼睛
雖然深度神經(jīng)網(wǎng)絡(luò)的基本概念早在數(shù)十年前就已經(jīng)誕生,但隨著訓(xùn)練方案的逐步改進(jìn)與計(jì)算機(jī)處理器的日益強(qiáng)大,其在語音與圖像識(shí)別領(lǐng)域的表現(xiàn)直到2010年才嶄露頭角。Tishby在閱讀了物理學(xué)家David Schwab與Pankaj Mehta于2014年發(fā)表的一篇令人驚訝的論文之后,最終意識(shí)到其與信息瓶頸原理之間存在著潛在聯(lián)系。
兩位作者發(fā)現(xiàn),Hinton所發(fā)明的所謂“深度信念網(wǎng)絡(luò)”這一深度學(xué)習(xí)算法能夠在特定情況下(特別是重整化)被應(yīng)用于物理系統(tǒng),即通過對(duì)細(xì)節(jié)進(jìn)行粗粒度轉(zhuǎn)化來放大物理系統(tǒng),從而計(jì)算其整體狀態(tài)。當(dāng)Schwab與Mehta將深層信念網(wǎng)絡(luò)應(yīng)用到磁體模型的“臨界點(diǎn)”場(chǎng)景中時(shí),系統(tǒng)在各個(gè)衡量尺度之上皆存在分形性或自相似特征,而該網(wǎng)絡(luò)會(huì)自動(dòng)利用類似于重整化的過程來識(shí)別模型狀態(tài)。正如生物物理學(xué)家Ilya Nemenman當(dāng)時(shí)所言,這是一種驚人的跡象,“在統(tǒng)計(jì)物理這一背景之下提取相關(guān)特征,與在深度學(xué)習(xí)背景下提取相關(guān)特征已經(jīng)成為同一類操作。”
不過唯一的問題在于,一般來講現(xiàn)實(shí)世界中的分形性較為罕見。Cranmer表示,“自然世界大多不會(huì)體現(xiàn)出類似重重疊疊的狀態(tài),而更多體現(xiàn)為場(chǎng)景、人、臉、眼睛這樣的差異化排布。因此我無法斷言重整化程序就是深度學(xué)習(xí)技術(shù)在自然圖像識(shí)別方面表現(xiàn)良好的原因。”不過當(dāng)時(shí)正在接受胰腺癌化療治療的Tishby認(rèn)識(shí)到,深度學(xué)習(xí)與粗粒度轉(zhuǎn)化程序應(yīng)可被納入更為廣泛的思路當(dāng)中。他指出,“思考科學(xué)以及思考我舊有思維的作用,是幫助我實(shí)現(xiàn)康復(fù)的重要支柱。”
2015年,他和他的學(xué)生Noga Zaslavsky將深度學(xué)習(xí)假設(shè)為一種信息瓶頸流程,其會(huì)盡可能地壓縮干擾數(shù)據(jù),同時(shí)保留關(guān)于數(shù)據(jù)的代表性信息。Tishby與Schwartz-Ziv利用深度神經(jīng)網(wǎng)絡(luò)建立的新實(shí)驗(yàn),提示了瓶頸程序如何實(shí)際發(fā)揮作用。在其中一個(gè)案例中,研究人員利用可訓(xùn)練的小型網(wǎng)絡(luò)通過1或0(代表有狗或無狗)標(biāo)記輸入數(shù)據(jù),并給出282個(gè)神經(jīng)連接隨機(jī)初始優(yōu)勢(shì)。在此之后,他們開始持續(xù)追蹤深度學(xué)習(xí)網(wǎng)絡(luò)如何利用一套包含3000份樣本的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練。
Noga Zaslavsky(左)、Schwartz-Ziv(右)
在大多數(shù)深度學(xué)習(xí)程序當(dāng)中,用于調(diào)整神經(jīng)連接以響應(yīng)數(shù)據(jù)內(nèi)容的基本算法被稱為“隨機(jī)梯度下降”:每當(dāng)訓(xùn)練數(shù)據(jù)被饋送至網(wǎng)絡(luò)當(dāng)中時(shí),即有一連串激活活動(dòng)向上經(jīng)過各人工神經(jīng)元層。當(dāng)信號(hào)到達(dá)頂層時(shí),最終的激活模式將能夠與圖像的正確標(biāo)簽進(jìn)行比較——即1或0,有狗或無狗。這種激活模式與正確模式之間的任何差異都都會(huì)以“反向傳播”形式被發(fā)往下層,這意味著類似于老師批改試卷一樣,該算法能夠增強(qiáng)或減弱每條連接,使得網(wǎng)絡(luò)層能夠更好地產(chǎn)生正確的輸出信號(hào)。在訓(xùn)練雨刮器 ,訓(xùn)練數(shù)據(jù)中的常見模式將反映在連接的強(qiáng)度之上,且網(wǎng)絡(luò)本身也將通過訓(xùn)練提升數(shù)據(jù)標(biāo)記的正確率——包括識(shí)別小狗對(duì)象、單詞或者1。
在實(shí)驗(yàn)當(dāng)中,Tishby與Shwartz-Ziv追蹤了深度神經(jīng)網(wǎng)絡(luò)中每一層的輸入數(shù)據(jù)信息量,以及各輸入數(shù)據(jù)中有多少信息得到保留??茖W(xué)家們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)會(huì)逐層向信息瓶頸理論界限收斂:Tishby、Pereira與Bialek的原始論文中設(shè)定了一個(gè)理論上限,其代表著系統(tǒng)能夠在進(jìn)行相關(guān)性信息提取時(shí)獲得的最佳結(jié)果。在這一臨界點(diǎn)上,神經(jīng)網(wǎng)絡(luò)能夠盡可能壓縮輸入數(shù)據(jù),同時(shí)不會(huì)影響到其作出準(zhǔn)確預(yù)測(cè)的能力。
階段:一個(gè)簡(jiǎn)短的“擬合”階段,在此階段中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)對(duì)其訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記; 接下來為更長(zhǎng)的壓縮階段,在此階段中其獲得更強(qiáng)大的泛化能力,且這種能力實(shí)際體現(xiàn)在對(duì)新測(cè)試數(shù)據(jù)的標(biāo)記效果上。
當(dāng)深度神經(jīng)網(wǎng)絡(luò)通過隨機(jī)梯度下降來調(diào)整其連接時(shí),首先其存儲(chǔ)的關(guān)于輸入數(shù)據(jù)的比特?cái)?shù)字會(huì)保持大致恒定或略微增加,與此同時(shí)連接調(diào)整以對(duì)輸入中的模型進(jìn)行編碼,神經(jīng)網(wǎng)絡(luò)本身也將更好地與正確標(biāo)簽相契合。部分專家將這一階段比喻為人類的記憶過程。
接下來學(xué)習(xí)過程切換至壓縮階段。神經(jīng)網(wǎng)絡(luò)開始丟棄與輸入數(shù)據(jù)有關(guān)的信息,而追蹤其中最強(qiáng)大的特征——包括與輸出標(biāo)簽相關(guān)性最高的特征。之所以會(huì)發(fā)生這種情況,是因?yàn)殡S機(jī)梯度下降的每一次迭代當(dāng)中,訓(xùn)練數(shù)據(jù)中都或多或少存在意外的相關(guān)性告知神經(jīng)網(wǎng)絡(luò)做出不同的判斷,這將隨機(jī)引發(fā)上下層調(diào)用以調(diào)整神經(jīng)連接的強(qiáng)度。這種隨機(jī)化與壓縮系統(tǒng)輸入數(shù)據(jù)的表現(xiàn)效果完全一致。舉例來說,某些小狗照片中可能存在背景房屋,而某些則并不包含。當(dāng)一套神經(jīng)網(wǎng)絡(luò)循環(huán)播放這些訓(xùn)練照片時(shí),可能會(huì)“遺忘”某些照片中房屋與狗之間的相關(guān)性,這是因?yàn)槠渌掌械牟幌嚓P(guān)性會(huì)抵消這種關(guān)聯(lián)。Tishby與Shwartz-Ziv認(rèn)為,正是這種對(duì)細(xì)節(jié)信息的遺忘操作使系統(tǒng)形成一般性概念。事實(shí)上,他們的實(shí)驗(yàn)結(jié)果表明,深層神經(jīng)網(wǎng)絡(luò)在壓縮階段提高了泛化能力,從而改善其在測(cè)試數(shù)據(jù)標(biāo)記方面的成效(一套經(jīng)過訓(xùn)練的小狗圖像識(shí)別深層神經(jīng)網(wǎng)絡(luò)將能夠利用新照片進(jìn)行測(cè)試,并準(zhǔn)確判斷其中是否包含狗這一對(duì)象)。
信息瓶頸究竟是否適用于所有深度學(xué)習(xí)機(jī)制,以及除壓縮之外還存在著哪些其它泛化途徑,目前仍有待觀察。一部分人工智能專家認(rèn)為,Tishby的理論是近期出現(xiàn)的與深度學(xué)習(xí)相關(guān)的眾多極為重要的指導(dǎo)性原則之一。哈佛大學(xué)AI研究員兼理論神經(jīng)科學(xué)家Andrew Saxe指出,某些規(guī)模非常龐大的深度神經(jīng)網(wǎng)絡(luò)似乎并不需要經(jīng)歷這樣的壓縮階段。相反,研究人員立足所謂“早期停止”方法進(jìn)行編程,這樣能夠有效減少訓(xùn)練時(shí)間并防止網(wǎng)絡(luò)編碼中存在過多相關(guān)性。
Tishby認(rèn)為,Saxe和他的同事所分析的網(wǎng)絡(luò)模型不同于標(biāo)準(zhǔn)深度神經(jīng)網(wǎng)絡(luò)架構(gòu),而且無論如何,信息瓶頸提出的理論界限決定了此類網(wǎng)絡(luò)的泛化效能要比其它方法更好。Tishby與Shwartz-Ziv的最新實(shí)驗(yàn)在一定程度上解釋了瓶頸是否適用于較大規(guī)模神經(jīng)網(wǎng)線的問題。盡管相關(guān)結(jié)果未被納入原始論文當(dāng)中,但他們?cè)谶@些實(shí)驗(yàn)雖訓(xùn)練了規(guī)模更為可觀的包含33萬個(gè)連接的深度神經(jīng)網(wǎng)絡(luò),用以識(shí)別來自國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院的6萬幅手寫數(shù)字圖像——這套數(shù)據(jù)集正是衡量深度學(xué)習(xí)算法性能的著名基準(zhǔn)素材??茖W(xué)家們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)的實(shí)際表現(xiàn)與信息瓶頸的理論界限存在趨同性; 他們還發(fā)現(xiàn)與小型網(wǎng)絡(luò)相比,這套大規(guī)模深度學(xué)習(xí)網(wǎng)絡(luò)的兩個(gè)階段更加清晰。Tishby指出,“我現(xiàn)在完全相信信息瓶頸屬于一種普遍現(xiàn)象。”
人類與機(jī)器
大腦是如何從我們的感官當(dāng)中篩選信號(hào)的?又如何將其納入我們自覺的意識(shí)水平當(dāng)中?這一神秘課題推動(dòng)了人工智能先驅(qū)們研究深層神經(jīng)網(wǎng)絡(luò)的早期興趣,即以逆向方式設(shè)計(jì)出大腦的學(xué)習(xí)規(guī)則。人工智能從業(yè)者在很大程度上已經(jīng)放棄了這條鉆研之路,轉(zhuǎn)而開始利用其它途徑小幅提升效能表現(xiàn)。盡管如此,隨著智能機(jī)器所取得的成就日益升級(jí)——甚至讓某些人開始擔(dān)憂人工智能終有一天將構(gòu)成嚴(yán)重威脅,許多研究人員希望此類探索能夠揭示出關(guān)于機(jī)器學(xué)習(xí)與智能實(shí)現(xiàn)的一般性結(jié)論。
紐約大學(xué)心理學(xué)與數(shù)據(jù)利潤(rùn)總額助理教授Brenden Lake在研究人類與機(jī)器學(xué)習(xí)間的異同時(shí)表示,Tishby的發(fā)現(xiàn)代表著“打開神經(jīng)網(wǎng)絡(luò)黑匣的重要一步”,但他同時(shí)強(qiáng)調(diào)大腦代表著一個(gè)更大、更黑的黑匣子。我們成年人的大腦擁有860億個(gè)神經(jīng)元,其彼此間的連接更是多達(dá)數(shù)百萬億條,這一切可能都需要憑借某些技巧來增強(qiáng)泛化能力,從而實(shí)現(xiàn)超越嬰兒期的基本圖像與聲音識(shí)別學(xué)習(xí)過程。在這方面,其很可能與目前的深度學(xué)習(xí)技術(shù)相當(dāng)類似。
舉例來說,Lake認(rèn)為Tishby所發(fā)現(xiàn)的擬合與壓縮階段似乎與兒童的手寫字母學(xué)習(xí)過程并不相似。孩子們并不需要觀察成千上萬個(gè)字母并利用很長(zhǎng)時(shí)間對(duì)其表征進(jìn)行壓縮; 相反,他們能夠快速識(shí)別出同一字母的其它實(shí)例并學(xué)習(xí)如何書寫。實(shí)際上,人類甚至能夠利用單一例子進(jìn)行學(xué)習(xí)。Lake和他同事們的模型表明,大腦能夠?qū)⑿伦帜附鈽?gòu)成一系列筆畫——即以往 已經(jīng)存在的心理結(jié)構(gòu),從而立足原有認(rèn)知建立字母概念。Lake解釋稱:“我不會(huì)把信件上的圖像想象成一個(gè)個(gè)像素,并像標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)算法那樣對(duì)這些特征加以映射。我的目標(biāo)在于建立一套更為簡(jiǎn)單的因果模型,”即實(shí)現(xiàn)一條更短的泛化路徑。
這樣的智能實(shí)現(xiàn)方式可能會(huì)給AI行業(yè)帶來指導(dǎo),并促使兩個(gè)領(lǐng)域?qū)崿F(xiàn)相互往來。Tishby認(rèn)為,盡管人類學(xué)習(xí)比人工智能學(xué)習(xí)更為普遍,但他的信息瓶頸理論最終將在兩大學(xué)科當(dāng)中發(fā)揮作用。從理論層面可以得出的直接見解,能夠幫助人們更好地理解哪些問題類型能夠?yàn)樯窠?jīng)網(wǎng)絡(luò)業(yè)解決,而哪些需要人工介入。Tishby表示:“其對(duì)于可學(xué)習(xí)的問題作出了完整的描述。這些都屬于‘我可以消除輸入數(shù)據(jù)中的干擾信息而不損害分類能力’的問題。這一點(diǎn)體現(xiàn)在自然視覺與語音識(shí)別當(dāng)中,也同樣屬于我們的大腦能夠解決的實(shí)際任務(wù)。”
與此同時(shí),真實(shí)與人工神經(jīng)網(wǎng)絡(luò)也都面臨著同樣的挑戰(zhàn),即每個(gè)問題的細(xì)節(jié)與微波差別都可能影響最終綶。舉例來說,大多數(shù)人無法快速完成兩個(gè)大數(shù)字的相加計(jì)算。Tishby指出,“這類問題長(zhǎng)期困擾著我們,事實(shí)上邏輯問題很容易受到某一變量的影響。分類、離散乃至密碼問題皆是如此。我認(rèn)為深度學(xué)習(xí)無法幫助我破解密碼。”