亚洲AⅤ一区二区三区入口,好男人社区神马在线观看www ,久久精品精品无码一区三区

人工智能的想象力在哪里？微軟的這個機器人畫家告訴你答案

責(zé)任編輯：editor007

作者：石松

2018-01-19 19:55:55

摘自：雷鋒網(wǎng)

微軟研究實驗室正在開發(fā)的新型人工智能技術(shù)能夠從字幕式的文本描述中截取單個的詞語生成圖像?！艾F(xiàn)在我們要用文字來生成圖像，”該組織的博士后研究員，論文合著者 Qiuyuan Huang 表示， “所以，這就是一個循環(huán)。

雷鋒網(wǎng)按：人工智能能夠?qū)崿F(xiàn)什么？毫無疑問它可以幫助我們實現(xiàn)很多事情，但微軟最近開發(fā)的一項人工智能技術(shù)刷新了我們對于人工智能的認(rèn)知?；谟嬎銠C識別和自然語言處理，微軟開發(fā)出一種可以根據(jù)用戶描述來繪圖的機器人，它甚至可以幫助用戶補全未必描述的細(xì)節(jié)。目前微軟已經(jīng)通過官方博客公布了這一成果，雷鋒網(wǎng)(公眾號：雷鋒網(wǎng))對這篇博客進行了不改變原意的編譯。

人工智能的想象力在哪里？微軟的這個機器人畫家告訴你答案

試想一下，你手中拿著稿紙和畫筆，被要求畫一幅關(guān)于鳥的照片，這只鳥要有黃色的身體，黑色的翅膀和短短的鳥喙。你大概會先畫出鳥的大概輪廓，之后檢查修改一下，繼續(xù)想想黃色的身體部分，然后用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀，最終檢查一下，畫上短短的有些發(fā)亮的鳥喙。為了使之更生動形象，你或許會畫上鳥所棲息的樹干。

如今，機器人也可以如你一樣做到這一點了！

微軟研究實驗室正在開發(fā)的新型人工智能技術(shù)能夠從字幕式的文本描述中截取單個的詞語生成圖像。網(wǎng)站 arXiv.org 上發(fā)表的一篇研究報告稱，根據(jù)行業(yè)標(biāo)準(zhǔn)測試的結(jié)果，這項技術(shù)產(chǎn)生的圖像質(zhì)量與之前的文本到圖像生成技術(shù)相比，提高了將近三倍。

研究人員簡單地稱之為繪圖機器人，該技術(shù)可以生成從普通的田園風(fēng)光（如放牧家畜）到荒謬無意義的（如浮動的雙層巴士）所有圖像。每幅圖像都包含了文字描述中沒有提及的細(xì)節(jié)，表明該人工智能技術(shù)擁有一種人造的想象力。

“如果你用 Bing 搜索一只鳥，你會得到一張鳥的圖片。但是在這里，圖片是由計算機逐個像素地從頭開始創(chuàng)建的，”位于微軟在華盛頓州雷蒙德市的研究實驗室，深度學(xué)習(xí)技術(shù)中心的首席研究員和研究主管 Xiaodong He表示。“這些鳥在現(xiàn)實世界中可能不會存在——它們只是表明了計算機對鳥類想像力的一個方面”。

這項繪圖機器人技術(shù)完成了他和他的同事在過去五年中，探索過的計算機視覺和自然語言處理的交叉學(xué)科研究。他們從自動編寫照片字幕 —— CaptionBot ——的技術(shù)開始，然后轉(zhuǎn)向另外一種技術(shù)，回答人類對圖像提出的問題，例如對象的位置或?qū)傩裕@點對盲人特別有用。

這些研究工作需要訓(xùn)練機器學(xué)習(xí)模型來識別對象，完成行為和自然語言間的交互。

“現(xiàn)在我們要用文字來生成圖像，”該組織的博士后研究員，論文合著者 Qiuyuan Huang 表示， “所以，這就是一個循環(huán)。”

圖像生成是一個比圖像字幕更具挑戰(zhàn)性的任務(wù)，團隊中的副研究員 Pengchuan Zhang 補充說，因為這個過程需要繪圖機器人想像沒有包含在標(biāo)題中的細(xì)節(jié)。他說：“這意味著你需要運行人工智能的機器學(xué)習(xí)算法來想象一些圖像中的缺失部分。”

細(xì)致的圖像生成

微軟繪圖機器人的核心是一種被稱為“生成對抗網(wǎng)絡(luò)”（Generative Adversarial Network，GAN）的技術(shù)。網(wǎng)絡(luò)由兩個機器學(xué)習(xí)模型組成，一個從文本描述生成圖像，另一個稱為鑒別器，使用文本描述來判斷生成圖像的真實性。發(fā)生器試圖通過假照片騙過鑒別器，同時鑒別器進行判斷。二者一同作用，將發(fā)生器不斷完美。

微軟的繪圖機器人在包含對應(yīng)圖像和標(biāo)題的數(shù)據(jù)集上進行了訓(xùn)練，這些允許模型學(xué)習(xí)如何將單詞與這些單詞的可視化圖片表示相匹配。例如， GAN 學(xué)會在標(biāo)題說鳥的時候生成鳥的圖像，并且同樣學(xué)習(xí)鳥的圖像應(yīng)該是什么樣的。他說：

這是我們相信機器可以學(xué)習(xí)的根本原因。

當(dāng)從簡單的文字描述（例如藍鳥或常青樹）產(chǎn)生圖像時， GAN 可以很好地工作，但在更復(fù)雜的文本描述中效果不佳，例如具有綠色的冠，黃色的翅膀和紅色腹部的鳥。這是因為整個句子作為發(fā)生器的單一輸入。其中詳細(xì)的信息發(fā)生了丟失。因此，生成的圖像是一種模糊的帶綠色和微黃色的鳥，而不是與描述中緊密匹配。

在人類的繪畫過程中，我們反復(fù)提到文本，并密切關(guān)注描述我們正在繪制的圖像區(qū)域和單詞描述。為了捕捉這種人的特質(zhì)，研究人員創(chuàng)建了他們所謂的 attentional GAN或 AttnGAN，它們在數(shù)學(xué)上模擬了人類關(guān)注的概念。它是通過將輸入文本分解為單個單詞并將這些單詞與圖像的特定區(qū)域相匹配來實現(xiàn)的。

“注意是一個人的概念，我們用數(shù)學(xué)來進行計算。”他解釋說。

該模型還從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到人類稱為常識的東西，并且利用這個學(xué)習(xí)的概念來填充留在想象中圖像的細(xì)節(jié)。例如，由于訓(xùn)練數(shù)據(jù)中的許多鳥類圖像顯示了坐在樹枝上的鳥， AttnGAN 通常使鳥棲息在樹枝上，除非文本另有規(guī)定。

“從數(shù)據(jù)來看，機器學(xué)習(xí)算法學(xué)習(xí)鳥站在樹枝上應(yīng)該屬于這類常識，”Zhang 說。作為一項測試，該團隊為漫畫圖像提供了繪圖機器人所需的字幕，例如“一輛紅色的雙層巴士漂浮在湖面上”。它生成了一個模糊的，飄逸的雙層巴士圖像，類似于兩層甲板船或雙層甲板船，漂浮在群山環(huán)繞的湖上。該圖像表明，關(guān)于船只能漂浮在湖泊上和公共汽車的文本描述之間，機器人內(nèi)部有一個爭斗。

“我們可以控制我們描述的東西，看看機器如何作出反應(yīng)。” 他解釋說，“我們可以干涉和測試機器到底學(xué)到了什么東西。這臺機器已經(jīng)具有一些背景常識，但它仍然可以按照你所要求的運行，有時候，這似乎有點荒謬可笑。”

實際應(yīng)用方面

這項文本到圖像的生成技術(shù)可以運用到實際應(yīng)用中，可以作為畫家和室內(nèi)設(shè)計師的草圖助手，或作為語音控制的照片美化工具。伴隨更強大的計算能力，他想象這項技術(shù)可以生成基于電影劇本的動畫電影，為電影制作人減少一些需要人工的成本。

但就目前來看，這項技術(shù)還不完善。對圖像進行仔細(xì)檢查后，幾乎總能發(fā)現(xiàn)瑕疵，例如藍鳥喙，而不是黑色的，水果和基因突變的香蕉長在一起。這些缺陷清楚地表明，是電腦而不是人類創(chuàng)造了這些圖像。盡管如此， AttnGAN 圖像的質(zhì)量比以前最好的 GAN 圖像質(zhì)量提高了近 3 倍，并且這是通往增強人類自身能力的類人工智能道路上的一個里程碑。

“因為人工智能和人類生活在同一個世界，他們之間必須找到一種互相交流的方式。”他解釋道，“語言和視覺是人類與機器交流的兩個最重要的途徑。”

除了微軟的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang，合作者還包括前微軟實習(xí)生利理海大學(xué)的Tao Xu和杜克大學(xué)的 Zhe Gan，羅格斯大學(xué)的 Han Zhang，理海大學(xué)的 Xiaolei Huang。

微軟論文合著放牧家畜