要理解人工智能的歷史,我們得先回到1995年。
彼時,一名年輕的法國人Yann Lecun花了10多年時間做一件事:模仿大腦的某些功能來打造人工智能機器。這件事在許多計算機科學(xué)家看來是一個壞主意,但Lecun的研究已經(jīng)表明,這種做法可以造出智能而且真正有用的產(chǎn)品。
在貝爾實驗室工作期間,他開發(fā)出了一些模擬神經(jīng)元的軟件,通過讀取不同的例子來辨識手寫文本。而貝爾實驗室的母公司——AT&T,也用利用這門技術(shù),開發(fā)出了第一臺可以讀取支票和書寫筆跡的機器。對于Lecun和人工神經(jīng)網(wǎng)絡(luò)的信徒們來說,這似乎是一個新時代的開始,標(biāo)志著機器可以學(xué)習(xí)以前僅屬于人類的技能。
只是對于Lecun而言,這項成果取得成功之時也是這個項目走向盡頭的時候。為了開拓不同的市場,AT&T宣布分拆成三家不同的公司。他們打算讓 Lecun做一些其他的研究,于是他離職去了紐約大學(xué)任教職。與此同時,其他地方的研究人員也發(fā)現(xiàn),他們無法把Lecun的突破應(yīng)用于計算問題,隨后人們對于將大腦模擬的方法應(yīng)用于AI研究的熱情也逐漸開始減退。
雖然對于現(xiàn)在已經(jīng)55歲的Lecun而言,他從來沒有停止探索人工智能的步伐。在被無情拒絕了20年有余后,Lecun等人終于在人臉和語音識別等領(lǐng)域取得了驚人的成就。如今在科技領(lǐng)域人盡皆知的深度學(xué)習(xí),已經(jīng)成為Google等科技公司新的戰(zhàn)場,他們急不可耐地想將其應(yīng)用于商業(yè)服務(wù)。Facebook在2013年聘用了Lecun,讓其管理由50多人組成的人工智能研究團隊——FAIR。對于Facebook而言,Lecun的團隊是其第一筆基礎(chǔ)研究投資,可能讓公司從社交網(wǎng)絡(luò)的定位中走出來,并且很可能會讓我們對機器能做的事情有重新的認識。
雷鋒網(wǎng)多次報道,F(xiàn)acebook等公司在近幾年急不可耐地投身于這一領(lǐng)域,主要是因為在計算機識圖等領(lǐng)域,深度學(xué)習(xí)技術(shù)比之前的AI技術(shù)要先進得多。在以前,研究人員需要編寫大量的程序來賦予機器能力,例如偵測出圖片中的線條和直角。但深度學(xué)習(xí)軟件則能自己理解和利用數(shù)據(jù),不需要借助這種程序?;谶@一理論開發(fā)出的一些程序,精確度已經(jīng)可以和人類相媲美。
現(xiàn)在Lecun在研究更加有力的東西,他打算賦予軟件完成基礎(chǔ)對話的語言能力和常識。在進行搜索時,我們可以直接告訴機器我們想要的是什么,就像和人交流一樣,而不用小心思考要輸入檢索的內(nèi)容。深度學(xué)習(xí)讓機器擁有了理解和交流的能力,能辨明和回答問題并且給予我們建議。其應(yīng)用之一就是可以理解我們的要求并代替我們預(yù)定餐館,并且很有可能對游戲行業(yè)產(chǎn)生變革。
在Lecun看來,這些系統(tǒng)不僅要能幫人類完成任務(wù),還需要知道為什么?,F(xiàn)今的搜索引擎、反垃圾系統(tǒng)以及虛擬助手還做不到這一點,他們大多數(shù)只是通過關(guān)鍵詞匹配等技術(shù)來完成任務(wù),而忽略了詞語出現(xiàn)的順序。以Siri為例,它只是在幾類應(yīng)答庫中搜索符合你所提要求的內(nèi)容,但實際上它并不能理解你說的到底是什么意思。而像此前在 Jeopardy游戲中戰(zhàn)勝了人類的IBM大型機Watson,則是通過高度程序化的規(guī)則來掌握語言能力,但其無法應(yīng)用于其他情境。
相反地,深度學(xué)習(xí)的軟件可以像人類一樣掌握理解語言的能力。研究人員試圖讓機器擁有理解詞匯的能力,Lecun等人開發(fā)出的系統(tǒng),可以在閱讀一些簡單的故事后回答問題,進行邏輯推理等。
但是Lecun等人深知,人工智能領(lǐng)域總是雷聲大雨點小,人們起初認為可能取得巨大的突破,到最后可能只是小小的一步。要想讓機器處理復(fù)雜的語言問題可比圖像識別要復(fù)雜得多,毫無疑問,深度學(xué)習(xí)在這一領(lǐng)域大有作為,但它們是否能真正掌握語言并改變我們的生活,還是一個未知數(shù)。
深度的歷史
如果要追溯起來,深度學(xué)習(xí)的歷史遠早于Lecun在貝爾實驗室的工作的年代,他和其他人實際上只是復(fù)活了一個長眠已久的想法。
時間回到20世紀50年代,為了探討智力和學(xué)習(xí)是如何產(chǎn)生,以及信號在大腦的神經(jīng)元之間是怎樣傳遞的,生物學(xué)家們提出了一些簡單的理論。其中核心的觀點就是,如果細胞間總是頻繁地交流,那么神經(jīng)元間的聯(lián)系會加強。在有新的經(jīng)驗產(chǎn)生時,這種傳遞會調(diào)整大腦的結(jié)構(gòu),以便在下一次經(jīng)歷相似的事情時讓人產(chǎn)生更好地理解。
心理學(xué)家Frank Rosenblatt 在1956年使用這一理論,結(jié)合軟件和硬件對神經(jīng)元進行了模擬,他開發(fā)出的一套“感知器”可以對圖片進行簡單的分類。雖然他是在笨拙的大型機上實現(xiàn)的這一想法,但他奠定了如今人工神經(jīng)網(wǎng)絡(luò)的基石。
他造的這臺計算機由大量的馬達和光學(xué)監(jiān)測器相連,一共擁有8個虛擬的神經(jīng)元。首先,監(jiān)測器會偵測圖片的光學(xué)信號,并將信號傳遞給神經(jīng)元。這些神經(jīng)元在獲取到監(jiān)測器傳遞的信號后,會對其進行加工并返回出一個值。借由這些值,機器能 “描繪”出其“看到”的東西。一開始的測試結(jié)果很糟糕,但是Rosenblatt 使用了一種高級學(xué)習(xí)的方法,使得及其可以正確區(qū)分出不同的形狀。他在向機器展示圖片的同時,也會告訴其正確答案,之后機器會對輸入的信號進行判別,計算出如果要得到正確答案,各個神經(jīng)元的信號權(quán)重是多少,并進行再分配和糾正。在重復(fù)了大量例子之后,機器可以識別出從來沒有見過的圖片?,F(xiàn)今的深度學(xué)習(xí)網(wǎng)絡(luò)使用了更加高級的算法,并且擁有數(shù)百萬個模擬神經(jīng)元,但訓(xùn)練方式和之前是一樣的。
Rosenblatt 預(yù)言,他的感知器將有廣泛的應(yīng)用,比如可以讓機器用名字和人問候。如果人們能實現(xiàn)在神經(jīng)網(wǎng)絡(luò)的多個層間傳遞圖片和信號,則可以讓感知器解決更加復(fù)雜的問題。不幸的是,他的學(xué)習(xí)算法在多層領(lǐng)域并不奏效。1969年,AI領(lǐng)域的先驅(qū)Marvin Minsky更是出版了一本書,把人們對神經(jīng)網(wǎng)絡(luò)的興趣扼殺在了搖籃里。Minsky聲稱多層面并不會讓感知器更加有用。于是AI研究人員拋棄了這一想法,取而代之的是使用邏輯操作開發(fā)人工智能產(chǎn)品,而神經(jīng)網(wǎng)絡(luò)則被推到了計算機科學(xué)的邊緣地帶。
當(dāng)1980年Lecun在巴黎念書時,他發(fā)現(xiàn)了之前人們的這些工作,并驚訝于為什么會拋棄了這一想法。他在圖書館尋找相關(guān)的論文,最后發(fā)現(xiàn)在美國有一個小組在研究神經(jīng)網(wǎng)絡(luò)。他們研究的內(nèi)容是 Rosenblatt遇到的老問題,即如何訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓其堅決多層問題。這份研究有些“地下工作”的意味,為了不被審稿人拒稿,研究人員盡量避免使用 “神經(jīng)”、“學(xué)習(xí)”等字樣。
在讀到這些之后,Lecun加入了這個團隊。在那里他認識了現(xiàn)在任職于Google的Geoff Hinton,他們一致認為,只有人工神經(jīng)網(wǎng)絡(luò)才是構(gòu)建人工智能的唯一途徑。此后,他們成功開發(fā)出了應(yīng)用于多層面的神經(jīng)網(wǎng)絡(luò),但是其適用性非常有限。而貝爾實驗室的研究人員則開發(fā)出了另一套更加實用的算法,并很快被Google和Amazon等公司應(yīng)用于反垃圾和商品推薦。
在Lecun離開貝爾實驗室去了紐約大學(xué)以后,他和其他研究人員組成了一個研究小組。為了證明神經(jīng)網(wǎng)絡(luò)的作用,他們不動聲色地讓性能強大的機器學(xué)習(xí)和處理更多的數(shù)據(jù)。此前 Lecun的手寫識別系統(tǒng)由5個神經(jīng)元層構(gòu)成,現(xiàn)在則加到了10多個。到了2010年后,神經(jīng)網(wǎng)絡(luò)在圖片分類等領(lǐng)域打敗了現(xiàn)有的技術(shù),并且微軟等大公司開始將其應(yīng)用于語音識別。但對于科研人員來說,神經(jīng)網(wǎng)絡(luò)還是很邊緣化的一門技術(shù)。2012年的時候,Lecun還寫過一封匿名信對此痛斥一番,因為他們的一篇介紹神經(jīng)網(wǎng)絡(luò)新記錄的文章投稿被一場頂尖會議給拒絕了。
[page]6個月以后的一件事情,讓一切都發(fā)生了變化。
Hinton帶著兩個學(xué)生,參加了一場機器圖像識別比賽,并在大賽中取得了傲人的成績。他們在比賽中所用的網(wǎng)絡(luò)就和之前Lecun開發(fā)的支票閱讀網(wǎng)絡(luò)類似,在這場比賽中,軟件要辨識超過1000種各種各樣的物品,而他們的這套系統(tǒng)辨識率高達85%,超過第二名10個百分點。深度學(xué)習(xí)軟件的第一層對神經(jīng)元進行優(yōu)化,找到邊角等簡單的特點,而其他層則連續(xù)尋找形狀等特點。Lecun現(xiàn)在還能回想起當(dāng)時的情景,作為勝出者的他們拿出論文,仿佛對著屋子里那些曾經(jīng)無視他們研究的人臉上狠狠打了一巴掌,而他們只能說:“OK,我們承認,你們贏了。”
經(jīng)此一役,計算機視覺領(lǐng)域的風(fēng)向很快就變了,人們迅速拋棄舊的方法,而深度學(xué)習(xí)很快變成了人工智能領(lǐng)域的主流。Google買下了Hinton成立的公司,開發(fā)Google Brain。微軟也開始立項研究這一技術(shù),F(xiàn)acebook的CEO 扎克伯格甚至也出現(xiàn)在神經(jīng)網(wǎng)絡(luò)的研究會議上,宣布Lecun在紐約大學(xué)擔(dān)任教職的同時,加入到他們的FAIR團隊中。
1993年Lecun在貝爾實驗室,它旁邊的電腦能識別支票上的手寫數(shù)字
語言學(xué)習(xí)
Facebook 的新辦公地離Lecun教書的地方只有3分鐘車程,在這里他和研究人員一道,嘗試讓神經(jīng)網(wǎng)絡(luò)能更好地理解語言。具體做法就是,神經(jīng)網(wǎng)絡(luò)來回檢索文檔,當(dāng)遇到一個詞時,預(yù)言該詞前后的內(nèi)容,再和實際情況進行判別。通過這樣,軟件把每一個詞解構(gòu)成了一組和其他詞的關(guān)系向量。
例如,在神經(jīng)網(wǎng)絡(luò)看來,“國王”和“女王”這組詞的向量關(guān)系,就和“丈夫”和“妻子”一樣。對于一整句話來說,這種方法也可以奏效。一些研究成果表明,使用向量技術(shù)的機器在同義、反義詞等理解測試上,甚至超過了人類。
而 Lecun的團隊還走得更遠,他們認為,語言本身其實并不復(fù)雜,真正復(fù)雜的是對語言要有一個深入的理解,并對其擁有常識般的認知。舉個例子,“小明拿著瓶子走出了房間”,這句話隱含的意思就是,瓶子在小明身上。鑒于此,在他們開發(fā)的神經(jīng)網(wǎng)絡(luò)上搭載有一個記憶網(wǎng)絡(luò),用來存儲一些它已經(jīng)學(xué)會的事實,每次有新的數(shù)據(jù)輸入時,它也不會被清除。
Facebook的AI研究人員開發(fā)出了一套可以回答簡單問題的系統(tǒng),哪怕其中有些內(nèi)容是它之前沒有遇到過的。例如,研究人員給記憶網(wǎng)絡(luò)一篇魔戒的梗概,讓它回答一些簡單的問題,如“魔戒在哪?”,雖然它可能在之前并沒有遇到過“魔戒”這個詞,但還是能夠回答上來。如果它能夠理解一些更加復(fù)雜的句子的話,那么將會有很大的應(yīng)用。
然而,打造一套能夠完成有限對話的系統(tǒng)已經(jīng)耗費巨大的精力,更何況神經(jīng)網(wǎng)絡(luò)的推理能力很差,更不論制定計劃。盡管研究人員還沒有找到更高效的解決方法,但Lecun等研究人員對此仍充滿了信心。
不過并不是每個人都如此樂觀,西雅圖一家研究機構(gòu)的CEO Oren Etzioni就認為,深度學(xué)習(xí)軟件現(xiàn)在只是展現(xiàn)出了語言識別最簡單的那部分能力,他們?nèi)匀狈壿嬐评砟芰?,這和現(xiàn)在神經(jīng)網(wǎng)絡(luò)做的圖形分類以及聲波解析都有著天壤之別。此外,掌握語言也不是那么簡單的事,因為在文本中句子的意思可能會發(fā)生改變。要讓軟件擁有語言能力,則需要它們像嬰兒那樣,沒有明確的指示也能掌握句子的意思。
深度的信仰
在Facebook的CTO Mike Schroepfer 看來,未來他們希望能看到Facebook的系統(tǒng)與你進行交流,就像和一個人類管家一樣。這套系統(tǒng)能夠在更高的層面上理解語言和概念:比如你可以要求它展示一張朋友的照片,而不是他的動態(tài)。隨著Lecun的系統(tǒng)掌握更高的推理和規(guī)劃能力,這在短期內(nèi)還是很可能實現(xiàn)的。此外,F(xiàn)acebook可能還會提供一些他們覺得你會感興趣的東西,并且詢問你的看法,最終讓這個超級管家沉浸于信息的海洋之中。
不僅如此,這種交流算法的改進也可以提高Facebook過濾信息和廣告的能力,這對Facebook想要超越社交網(wǎng)絡(luò)的定位至關(guān)重要。隨著Faebook開始以媒體的身份發(fā)布信息,人們就需要更好的信息管理方式,這套虛擬助手可以幫助Facebook實現(xiàn)這一野心。
如果深度學(xué)習(xí)再重蹈以前人工智能的覆轍,那這些可能永遠都不會發(fā)生了。但是Lecun對此充滿了信心,他認為有足夠多的證據(jù)站在他這邊,表明深度學(xué)習(xí)終將會帶來巨大的匯報。讓機器處理語言需要新的想法,但是隨著越來越多的公司和大學(xué)加入到這個領(lǐng)域,原來小小的一片天開始擁有無限可能,這將大大加快整個進程。
究竟深度學(xué)習(xí)能不能實現(xiàn)Facebook預(yù)想的管家還不得而知,就算是真正能實現(xiàn),人們能獲益多少現(xiàn)在也還難以想象。但可能我們并不需要等太久了,他堅信那些懷疑機器深度學(xué)習(xí)語言能力的人們終會后悔。這和2012年以前一樣,雖然事情出現(xiàn)了一些改變,但用老方法的人仍然頑固不化。也許再過個幾年,人們就不會這么看了。