8mav在线免费观看,亚洲精品无码精品MV在线观看,7799天天电影院网站

谷歌開源深度學(xué)習(xí)系統(tǒng)TensorFlow 的圖片文字說明模型

責(zé)任編輯：editor007

作者：aiko

2016-09-23 22:27:27

摘自：36kr

今天，谷歌宣布開源圖片文字說明模型 Show and Tell，該模型具有自動(dòng)生成圖片文字說明的功能，準(zhǔn)確率達(dá) 93 9%。

今天，谷歌宣布開源圖片文字說明模型 Show and Tell，該模型具有自動(dòng)生成圖片文字說明的功能，準(zhǔn)確率達(dá) 93.9%。

谷歌于 2014 年發(fā)表論文首次介紹了 Show and Tell 這一系統(tǒng)模型，在 2015 年又對(duì)其進(jìn)行了內(nèi)容更新，對(duì)相關(guān)技術(shù)做了更加準(zhǔn)確的改進(jìn)。之后，谷歌一直在完善這一技術(shù)，最終作為谷歌 TensorFlow 深度學(xué)習(xí)框架的一部分，Show and Tell 獲得了開源 Apache 許可證，從今天開始在 GitHub 進(jìn)行托管。

Show and Tell 的優(yōu)點(diǎn)之一在于相比以前的舊系統(tǒng)來說（特別是相比谷歌之前用來自動(dòng)生成圖片文字說明的 DistBelief 系統(tǒng)來說），人們可以更加快速地對(duì)其進(jìn)行訓(xùn)練。Chris Shallue 是谷歌 Brain 團(tuán)隊(duì)的一名軟件工程師，對(duì)此他表示：“Show and Tell 能夠在保持 DistBelief 準(zhǔn)確性的前提下大大縮短訓(xùn)練時(shí)間：Show and Tell 訓(xùn)練時(shí)間只需 0.7 秒，而之前 DistBelief 在 Nvidia G20 GPU 上面進(jìn)行訓(xùn)練，訓(xùn)練時(shí)間為 3 秒鐘，也就是說 Show and Tell 總共所需訓(xùn)練時(shí)間只是之前時(shí)間的四分之一。”

谷歌團(tuán)隊(duì)訓(xùn)練 Show and Tell 的方式是利用真人制作的圖片文字說明對(duì)系統(tǒng)在視覺和語言兩種框架進(jìn)行訓(xùn)練，這有助于避免系統(tǒng)機(jī)械地命名圖像中的物體。因?yàn)?，系統(tǒng)不僅僅要辨認(rèn)出圖片中的人物、動(dòng)物或物體等，還要生成完整的描述性語句。若想創(chuàng)建一個(gè)準(zhǔn)確的模型，關(guān)鍵是要考慮好物體之間的相互關(guān)系，例如一名男子正在放風(fēng)箏，與一名男子頭頂有風(fēng)箏，這兩種表述都覆蓋了圖片中的人物與事物，但只有一種表述是對(duì)圖片的最準(zhǔn)確描述。

此外，谷歌Brain團(tuán)隊(duì)指出，Show and Tell 并不僅僅是扮演一只鸚鵡角色，機(jī)械的重復(fù)訓(xùn)練圖片庫里的詞條內(nèi)容，從下圖可以看出，該模型是如何通過訓(xùn)練庫圖像內(nèi)容合成來創(chuàng)造出新鮮內(nèi)容的圖像描述。這也表明該模型對(duì)于圖片中的物體和場景關(guān)系實(shí)現(xiàn)了更深層的理解，并且能用自然的英語詞組及語句表達(dá)出來。

谷歌并不是唯一一個(gè)借助 AI 來實(shí)現(xiàn)圖片文字說明功能的公司，在這一領(lǐng)域還有許多的競爭者，并且有相關(guān)的其它開源工具，例如斯坦福大學(xué) Andrej Karpathy 推出的 NeuralTalk2 就是一款可以對(duì)圖像內(nèi)容生成自然語言描述的模型。

谷歌圖片學(xué)習(xí)系統(tǒng)