雷鋒網(wǎng)按:人工智能能夠?qū)崿F(xiàn)什么?毫無疑問它可以幫助我們實現(xiàn)很多事情,但微軟最近開發(fā)的一項人工智能技術(shù)刷新了我們對于人工智能的認(rèn)知?;谟嬎銠C識別和自然語言處理,微軟開發(fā)出一種可以根據(jù)用戶描述來繪圖的機器人,它甚至可以幫助用戶補全未必描述的細(xì)節(jié)。目前微軟已經(jīng)通過官方博客公布了這一成果,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))對這篇博客進行了不改變原意的編譯。
試想一下,你手中拿著稿紙和畫筆,被要求畫一幅關(guān)于鳥的照片,這只鳥要有黃色的身體,黑色的翅膀和短短的鳥喙。你大概會先畫出鳥的大概輪廓,之后檢查修改一下,繼續(xù)想想黃色的身體部分,然后用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀,最終檢查一下,畫上短短的有些發(fā)亮的鳥喙。為了使之更生動形象,你或許會畫上鳥所棲息的樹干。
如今,機器人也可以如你一樣做到這一點了!
微軟研究實驗室正在開發(fā)的新型人工智能技術(shù)能夠從字幕式的文本描述中截取單個的詞語生成圖像。網(wǎng)站 arXiv.org 上發(fā)表的一篇研究報告稱,根據(jù)行業(yè)標(biāo)準(zhǔn)測試的結(jié)果,這項技術(shù)產(chǎn)生的圖像質(zhì)量與之前的文本到圖像生成技術(shù)相比,提高了將近三倍。
研究人員簡單地稱之為繪圖機器人,該技術(shù)可以生成從普通的田園風(fēng)光(如放牧家畜)到荒謬無意義的(如浮動的雙層巴士)所有圖像。每幅圖像都包含了文字描述中沒有提及的細(xì)節(jié),表明該人工智能技術(shù)擁有一種人造的想象力。
“如果你用 Bing 搜索一只鳥,你會得到一張鳥的圖片。但是在這里,圖片是由計算機逐個像素地從頭開始創(chuàng)建的,”位于微軟在華盛頓州雷蒙德市的研究實驗室,深度學(xué)習(xí)技術(shù)中心的首席研究員和研究主管 Xiaodong He表示。“這些鳥在現(xiàn)實世界中可能不會存在——它們只是表明了計算機對鳥類想像力的一個方面”。
這項繪圖機器人技術(shù)完成了他和他的同事在過去五年中,探索過的計算機視覺和自然語言處理的交叉學(xué)科研究。他們從自動編寫照片字幕 —— CaptionBot ——的技術(shù)開始,然后轉(zhuǎn)向另外一種技術(shù),回答人類對圖像提出的問題,例如對象的位置或?qū)傩裕@點對盲人特別有用。
這些研究工作需要訓(xùn)練機器學(xué)習(xí)模型來識別對象,完成行為和自然語言間的交互。
“現(xiàn)在我們要用文字來生成圖像,”該組織的博士后研究員,論文合著者 Qiuyuan Huang 表示, “所以,這就是一個循環(huán)。”
圖像生成是一個比圖像字幕更具挑戰(zhàn)性的任務(wù),團隊中的副研究員 Pengchuan Zhang 補充說,因為這個過程需要繪圖機器人想像沒有包含在標(biāo)題中的細(xì)節(jié)。他說:“這意味著你需要運行人工智能的機器學(xué)習(xí)算法來想象一些圖像中的缺失部分。”
細(xì)致的圖像生成
微軟繪圖機器人的核心是一種被稱為“生成對抗網(wǎng)絡(luò)”(Generative Adversarial Network,GAN)的技術(shù)。網(wǎng)絡(luò)由兩個機器學(xué)習(xí)模型組成,一個從文本描述生成圖像,另一個稱為鑒別器,使用文本描述來判斷生成圖像的真實性。發(fā)生器試圖通過假照片騙過鑒別器,同時鑒別器進行判斷。二者一同作用,將發(fā)生器不斷完美。
微軟的繪圖機器人在包含對應(yīng)圖像和標(biāo)題的數(shù)據(jù)集上進行了訓(xùn)練,這些允許模型學(xué)習(xí)如何將單詞與這些單詞的可視化圖片表示相匹配。例如, GAN 學(xué)會在標(biāo)題說鳥的時候生成鳥的圖像,并且同樣學(xué)習(xí)鳥的圖像應(yīng)該是什么樣的。他說:
這是我們相信機器可以學(xué)習(xí)的根本原因。
當(dāng)從簡單的文字描述(例如藍鳥或常青樹)產(chǎn)生圖像時, GAN 可以很好地工作,但在更復(fù)雜的文本描述中效果不佳,例如具有綠色的冠,黃色的翅膀和紅色腹部的鳥。這是因為整個句子作為發(fā)生器的單一輸入。其中詳細(xì)的信息發(fā)生了丟失。因此,生成的圖像是一種模糊的帶綠色和微黃色的鳥,而不是與描述中緊密匹配。
在人類的繪畫過程中,我們反復(fù)提到文本,并密切關(guān)注描述我們正在繪制的圖像區(qū)域和單詞描述。為了捕捉這種人的特質(zhì),研究人員創(chuàng)建了他們所謂的 attentional GAN或 AttnGAN,它們在數(shù)學(xué)上模擬了人類關(guān)注的概念。它是通過將輸入文本分解為單個單詞并將這些單詞與圖像的特定區(qū)域相匹配來實現(xiàn)的。
“注意是一個人的概念,我們用數(shù)學(xué)來進行計算。”他解釋說。
該模型還從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到人類稱為常識的東西,并且利用這個學(xué)習(xí)的概念來填充留在想象中圖像的細(xì)節(jié)。例如,由于訓(xùn)練數(shù)據(jù)中的許多鳥類圖像顯示了坐在樹枝上的鳥, AttnGAN 通常使鳥棲息在樹枝上,除非文本另有規(guī)定。
“從數(shù)據(jù)來看,機器學(xué)習(xí)算法學(xué)習(xí)鳥站在樹枝上應(yīng)該屬于這類常識,”Zhang 說。作為一項測試,該團隊為漫畫圖像提供了繪圖機器人所需的字幕,例如“一輛紅色的雙層巴士漂浮在湖面上”。它生成了一個模糊的,飄逸的雙層巴士圖像,類似于兩層甲板船或雙層甲板船,漂浮在群山環(huán)繞的湖上。該圖像表明,關(guān)于船只能漂浮在湖泊上和公共汽車的文本描述之間,機器人內(nèi)部有一個爭斗。
“我們可以控制我們描述的東西,看看機器如何作出反應(yīng)。” 他解釋說,“我們可以干涉和測試機器到底學(xué)到了什么東西。這臺機器已經(jīng)具有一些背景常識,但它仍然可以按照你所要求的運行,有時候,這似乎有點荒謬可笑。”
實際應(yīng)用方面
這項文本到圖像的生成技術(shù)可以運用到實際應(yīng)用中,可以作為畫家和室內(nèi)設(shè)計師的草圖助手,或作為語音控制的照片美化工具。伴隨更強大的計算能力,他想象這項技術(shù)可以生成基于電影劇本的動畫電影,為電影制作人減少一些需要人工的成本。
但就目前來看,這項技術(shù)還不完善。對圖像進行仔細(xì)檢查后,幾乎總能發(fā)現(xiàn)瑕疵,例如藍鳥喙,而不是黑色的,水果和基因突變的香蕉長在一起。這些缺陷清楚地表明,是電腦而不是人類創(chuàng)造了這些圖像。盡管如此, AttnGAN 圖像的質(zhì)量比以前最好的 GAN 圖像質(zhì)量提高了近 3 倍,并且這是通往增強人類自身能力的類人工智能道路上的一個里程碑 。
“因為人工智能和人類生活在同一個世界,他們之間必須找到一種互相交流的方式。”他解釋道,“語言和視覺是人類與機器交流的兩個最重要的途徑。”
除了微軟的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang,合作者還包括前微軟實習(xí)生利理海大學(xué)的Tao Xu和杜克大學(xué)的 Zhe Gan,羅格斯大學(xué)的 Han Zhang,理海大學(xué)的 Xiaolei Huang。