下一代人工智能的發(fā)展方向 (上)

責(zé)任編輯:cres

作者:蒙光偉編譯

2020-10-30 14:28:07

摘自:千家網(wǎng)

本文重點(diǎn)介紹了AI中的三個(gè)新興領(lǐng)域,這些領(lǐng)域?qū)⒃谖磥淼膸啄曛兄匦露x人工智能領(lǐng)域和社會(huì)。

盡管人工智能的誕生已經(jīng)超過半個(gè)世紀(jì),但近十年來人工智能領(lǐng)域發(fā)展非常迅速。自2012年ImageNet競賽開始深度學(xué)習(xí)的現(xiàn)代時(shí)代以來,只有8年的時(shí)間。自那時(shí)以來,人工智能領(lǐng)域的進(jìn)步令人震驚,現(xiàn)在人工智能已經(jīng)深入我們?nèi)粘9ぷ魃畹姆椒矫婷妗?
 
有專家表示,這個(gè)驚人的步伐只會(huì)越來越快。從現(xiàn)在開始的五年后,人工智能領(lǐng)域?qū)⑴c今天大不相同。當(dāng)前被認(rèn)為是最先進(jìn)的方法將已經(jīng)過時(shí);今天剛剛出現(xiàn)或處于邊緣的方法將成為主流。
 
下一代人工智能將是什么樣子?哪種新穎的AI方法將釋放當(dāng)前在技術(shù)和業(yè)務(wù)方面難以想象的可能性?本文重點(diǎn)介紹了AI中的三個(gè)新興領(lǐng)域,這些領(lǐng)域?qū)⒃谖磥淼膸啄曛兄匦露x人工智能領(lǐng)域和社會(huì)。
 
1、無監(jiān)督學(xué)習(xí)
 
當(dāng)今AI世界中最主要的范例是有監(jiān)督的學(xué)習(xí)。在監(jiān)督學(xué)習(xí)中,AI模型從數(shù)據(jù)集中學(xué)習(xí)人類根據(jù)預(yù)定義類別進(jìn)行策劃和標(biāo)記的過程。(術(shù)語“監(jiān)督學(xué)習(xí)”源于人類“監(jiān)督者”預(yù)先準(zhǔn)備數(shù)據(jù)的事實(shí)。)
 
在過去的十年中,盡管從無人駕駛汽車到語音助手,有監(jiān)督的學(xué)習(xí)已經(jīng)推動(dòng)了AI的顯著進(jìn)步,但它仍然存在嚴(yán)重的局限性。
 
手動(dòng)標(biāo)記成千上萬個(gè)數(shù)據(jù)點(diǎn)的過程可能非常昂貴且繁瑣。在機(jī)器學(xué)習(xí)模型提取數(shù)據(jù)之前,人們必須手動(dòng)標(biāo)記數(shù)據(jù)這一事實(shí)已成為AI的主要瓶頸。
 
在更深層次上,有監(jiān)督的學(xué)習(xí)代表了一種狹窄的、受限制的學(xué)習(xí)形式。受監(jiān)督的算法不僅無法探索和吸收給定數(shù)據(jù)集中的所有潛在信息、關(guān)系和含義,而且僅針對(duì)研究人員提前確定的概念和類別。
 
相反,無監(jiān)督學(xué)習(xí)是一種AI方法,其中算法無需人工提供標(biāo)簽或指導(dǎo)即可從數(shù)據(jù)中學(xué)習(xí)。
 
許多AI領(lǐng)導(dǎo)者將無監(jiān)督學(xué)習(xí)視為人工智能的下一個(gè)前沿領(lǐng)域。用AI傳奇人物Yann LeCun的話說:“下一場AI革命將不會(huì)受到監(jiān)督。”加州大學(xué)伯克利分校的教授Jitenda Malik更加生動(dòng)地說:“標(biāo)簽是機(jī)器學(xué)習(xí)研究人員的鴉片。”
 
無監(jiān)督學(xué)習(xí)如何工作?簡而言之,系統(tǒng)會(huì)根據(jù)世界的其他部分來了解世界的某些部分。通過觀察實(shí)體的行為,實(shí)體之間的模式以及實(shí)體之間的關(guān)系(例如,上下文中的單詞或視頻中的人物),系統(tǒng)引導(dǎo)了對(duì)其環(huán)境的整體理解。一些研究人員用“從其他事物中預(yù)測所有事物”來概括這一點(diǎn)。
 
無監(jiān)督學(xué)習(xí)更緊密地反映了人類學(xué)習(xí)世界的方式:通過開放式探索和推理,不需要監(jiān)督學(xué)習(xí)的“訓(xùn)練輪”。它的基本優(yōu)點(diǎn)之一是,世界上總是會(huì)有比已標(biāo)記數(shù)據(jù)多得多的未標(biāo)記數(shù)據(jù)(前者更容易獲得)。
 
用LeCun的話來說,他喜歡密切相關(guān)的術(shù)語“自我監(jiān)督學(xué)習(xí)”:“在自我監(jiān)督學(xué)習(xí)中,輸入的一部分用作監(jiān)視信號(hào),以預(yù)測輸入的其余部分。可以通過自我監(jiān)督學(xué)習(xí)而不是[其他AI范式]來學(xué)習(xí)有關(guān)世界結(jié)構(gòu)的知識(shí),因?yàn)閿?shù)據(jù)是無限的,每個(gè)示例提供的反饋量很大。”
 
無監(jiān)督學(xué)習(xí)已經(jīng)在自然語言處理中產(chǎn)生了變革性的影響。 NLP得益于一種新的無監(jiān)督的學(xué)習(xí)架構(gòu),即Transformer,最近取得了令人難以置信的進(jìn)步,該架構(gòu)始于Google大約三年前。
 
將無監(jiān)督學(xué)習(xí)應(yīng)用于AI的其他領(lǐng)域的努力仍處于早期階段,但是正在取得快速進(jìn)展。舉個(gè)例子,一家名為Helm.ai的初創(chuàng)公司正在尋求利用無監(jiān)督學(xué)習(xí)來超越自動(dòng)駕駛汽車行業(yè)的領(lǐng)導(dǎo)者。
 
許多研究人員將無監(jiān)督學(xué)習(xí)視為開發(fā)人類級(jí)AI的關(guān)鍵。 LeCun認(rèn)為,掌握無監(jiān)督學(xué)習(xí)是“未來幾年ML和AI面臨的最大挑戰(zhàn)。”
 
2、聯(lián)合學(xué)習(xí)
 
數(shù)字時(shí)代的主要挑戰(zhàn)之一是數(shù)據(jù)隱私。由于數(shù)據(jù)是現(xiàn)代人工智能的命脈,因此數(shù)據(jù)隱私問題在AI的發(fā)展軌跡中扮演著重要的角色(并且常常是限制性的)。
 
保持隱私的人工智能(使AI模型能夠從數(shù)據(jù)集中學(xué)習(xí)而不損害其隱私的方法)正變得日益重要。保持隱私的AI的最有前途的方法也許是聯(lián)合學(xué)習(xí)。
 
聯(lián)合學(xué)習(xí)的概念最早由Google的研究人員于2017年初提出。在過去的一年中,對(duì)聯(lián)合學(xué)習(xí)的興趣激增:到2020年的前六個(gè)月,發(fā)表了超過1,000篇有關(guān)聯(lián)合學(xué)習(xí)的研究論文,而在2018年只有180篇。
 
如今,構(gòu)建機(jī)器學(xué)習(xí)模型的標(biāo)準(zhǔn)方法是將所有訓(xùn)練數(shù)據(jù)收集到一個(gè)地方(通常在云中),然后在數(shù)據(jù)上訓(xùn)練模型。但是,這種方法對(duì)全球大部分?jǐn)?shù)據(jù)都不可行,出于隱私和安全原因,這些數(shù)據(jù)無法移至中央數(shù)據(jù)存儲(chǔ)庫。這使其成為傳統(tǒng)AI技術(shù)的禁區(qū)。
 
聯(lián)合學(xué)習(xí)通過顛覆傳統(tǒng)的AI方法解決了這個(gè)問題。
 
聯(lián)合學(xué)習(xí)并不需要一個(gè)統(tǒng)一的數(shù)據(jù)集來訓(xùn)練模型,而是將數(shù)據(jù)保留在原處,并分布在邊緣的眾多設(shè)備和服務(wù)器上。取而代之的是,將模型的許多版本發(fā)送到一個(gè)帶有訓(xùn)練數(shù)據(jù)的設(shè)備,每個(gè)模型都在每個(gè)數(shù)據(jù)子集上進(jìn)行本地訓(xùn)練。然后將生成的模型參數(shù)(而不是訓(xùn)練數(shù)據(jù)本身)發(fā)送回云。當(dāng)所有這些“微型模型”匯總在一起時(shí),結(jié)果就是一個(gè)整體模型,其功能就像是一次在整個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練一樣。
 
最初的聯(lián)合學(xué)習(xí)用例是針對(duì)分布在數(shù)十億移動(dòng)設(shè)備上的個(gè)人數(shù)據(jù)訓(xùn)練AI模型。正如這些研究人員總結(jié)的那樣:“現(xiàn)代移動(dòng)設(shè)備可以訪問大量適用于機(jī)器學(xué)習(xí)模型的數(shù)據(jù)...。但是,這些豐富的數(shù)據(jù)通常對(duì)隱私敏感,數(shù)量龐大或兩者兼而有之,因此可能無法登錄到數(shù)據(jù)中心....我們提倡一種替代方案,將訓(xùn)練數(shù)據(jù)保留在移動(dòng)設(shè)備上,并通過匯總本地計(jì)算的更新來學(xué)習(xí)共享模型。”
 
最近,醫(yī)療保健已成為聯(lián)合學(xué)習(xí)應(yīng)用中特別有前途的領(lǐng)域。
 
不難理解原因。一方面,醫(yī)療保健中有大量有價(jià)值的AI用例。另一方面,醫(yī)療保健數(shù)據(jù),尤其是患者的個(gè)人身份信息,非常敏感;像HIPAA這樣的法規(guī)叢書限制了它的使用和移動(dòng)。聯(lián)合學(xué)習(xí)可以使研究人員能夠開發(fā)挽救生命的醫(yī)療保健AI工具,而無需從源頭轉(zhuǎn)移敏感的健康記錄或使它們暴露于隱私泄露中。
 
涌現(xiàn)了許多初創(chuàng)公司,以追求醫(yī)療保健領(lǐng)域的聯(lián)合學(xué)習(xí)。最有名的是總部位于巴黎的Owkin;早期階段的參與者包括Lynx.MD、Ferrum Health和Secure AI Labs。
 
除醫(yī)療保健外,聯(lián)合學(xué)習(xí)有一天可能會(huì)在任何涉及敏感數(shù)據(jù)的AI應(yīng)用的開發(fā)中發(fā)揮中心作用:從金融服務(wù)到自動(dòng)駕駛汽車,從政府用例到各種消費(fèi)產(chǎn)品。與差分隱私和同態(tài)加密之類的其他隱私保護(hù)技術(shù)結(jié)合使用,聯(lián)合學(xué)習(xí)可以提供釋放AI巨大潛力的關(guān)鍵,同時(shí)減輕對(duì)數(shù)據(jù)隱私的棘手挑戰(zhàn)。
 
如今,全球范圍內(nèi)頒布的數(shù)據(jù)隱私立法浪潮(從GDPR和CCPA開始,即將推出許多類似的法律)只會(huì)加速對(duì)這些隱私保護(hù)技術(shù)的需求。期望聯(lián)合學(xué)習(xí)在未來幾年中將成為AI技術(shù)堆棧的重要組成部分。
 
3、Transformer
 
我們已經(jīng)進(jìn)入了自然語言處理的黃金時(shí)代。
 
OpenAI發(fā)布的GPT-3是有史以來功能最強(qiáng)大的語言模型,今年夏天吸引了整個(gè)技術(shù)界。它為NLP設(shè)定了新的標(biāo)準(zhǔn):它可以編寫令人印象深刻的詩歌,生成有效的代碼,撰寫周到的業(yè)務(wù)備忘錄,撰寫有關(guān)自身的文章等等。
 
GPT-3只是一系列類似架構(gòu)的NLP模型(Google的BERT、OpenAI的GPT-2、Facebook的RoBERTa等)中最新的(也是最大的),它們正在重新定義NLP的功能。
 
推動(dòng)語言AI革命的關(guān)鍵技術(shù)突破是Transformer。
 
在2017年具有里程碑意義的研究論文中介紹了Transformer。以前,最新的NLP方法都基于循環(huán)神經(jīng)網(wǎng)絡(luò)(例如LSTM)。根據(jù)定義,遞歸神經(jīng)網(wǎng)絡(luò)按順序顯示數(shù)據(jù),即按單詞出現(xiàn)的順序一次處理一個(gè)單詞。
 
Transformer的一項(xiàng)偉大創(chuàng)新是使語言處理并行化:給定文本主體中的所有標(biāo)記都是同時(shí)而不是按順序分析的。為了支持這種并行化,Transformer嚴(yán)重依賴于稱為注意力的AI機(jī)制。注意使模型能夠考慮單詞之間的關(guān)系,而不論它們之間有多遠(yuǎn),并確定段落中的哪些單詞和短語對(duì)于“注意”最為重要。
 
為什么并行化如此有價(jià)值?因?yàn)樗筎ransformers的計(jì)算效率大大高于RNN,這意味著可以在更大的數(shù)據(jù)集上對(duì)它們進(jìn)行訓(xùn)練。 GPT-3訓(xùn)練了大約5000億個(gè)單詞,由1750億個(gè)參數(shù)組成,這使現(xiàn)有的RNN顯得相形見絀。
 
迄今為止,由于GPT-3等的成功應(yīng)用,Transformer幾乎只與NLP相關(guān)聯(lián)。但是就在本月,發(fā)布了一篇突破性的新論文,該論文成功地將Transformer應(yīng)用于計(jì)算機(jī)視覺。許多AI研究人員認(rèn)為,這項(xiàng)工作可以預(yù)示計(jì)算機(jī)視覺的新時(shí)代。 (正如著名的ML研究人員Oriol Vinyals所說的那樣,“我的觀點(diǎn)是:告別卷積。”)
 
盡管像Google和Facebook這樣的領(lǐng)先AI公司已經(jīng)開始將基于Transformer的模型投入生產(chǎn),但大多數(shù)組織仍處于將該技術(shù)產(chǎn)品化和商業(yè)化的初期階段。 OpenAI已宣布計(jì)劃通過API將GPT-3進(jìn)行商業(yè)訪問,這可能會(huì)為在其上構(gòu)建應(yīng)用的整個(gè)初創(chuàng)企業(yè)生態(tài)系統(tǒng)注入種子。
 
從自然語言開始,期望Transformers在未來的幾年中將成為整個(gè)新一代AI功能的基礎(chǔ)。過去十年在人工智能領(lǐng)域令人興奮,但事實(shí)證明,這僅僅是未來十年的序幕。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)