谷歌開源深度學(xué)習(xí)系統(tǒng)TensorFlow 的圖片文字說明模型

責(zé)任編輯:editor007

作者:aiko

2016-09-23 22:27:27

摘自:36kr

今天,谷歌宣布開源圖片文字說明模型 Show and Tell,該模型具有自動(dòng)生成圖片文字說明的功能,準(zhǔn)確率達(dá) 93 9%。

 

今天,谷歌宣布開源圖片文字說明模型 Show and Tell,該模型具有自動(dòng)生成圖片文字說明的功能,準(zhǔn)確率達(dá) 93.9%。

谷歌于 2014 年發(fā)表論文首次介紹了 Show and Tell 這一系統(tǒng)模型,在 2015 年又對(duì)其進(jìn)行了內(nèi)容更新,對(duì)相關(guān)技術(shù)做了更加準(zhǔn)確的改進(jìn)。之后,谷歌一直在完善這一技術(shù),最終作為谷歌 TensorFlow 深度學(xué)習(xí)框架的一部分,Show and Tell 獲得了開源 Apache 許可證,從今天開始在 GitHub 進(jìn)行托管。

Show and Tell 的優(yōu)點(diǎn)之一在于相比以前的舊系統(tǒng)來說(特別是相比谷歌之前用來自動(dòng)生成圖片文字說明的 DistBelief 系統(tǒng)來說),人們可以更加快速地對(duì)其進(jìn)行訓(xùn)練。Chris Shallue 是谷歌 Brain 團(tuán)隊(duì)的一名軟件工程師,對(duì)此他表示:“Show and Tell 能夠在保持 DistBelief 準(zhǔn)確性的前提下大大縮短訓(xùn)練時(shí)間:Show and Tell 訓(xùn)練時(shí)間只需 0.7 秒,而之前 DistBelief 在 Nvidia G20 GPU 上面進(jìn)行訓(xùn)練,訓(xùn)練時(shí)間為 3 秒鐘,也就是說 Show and Tell 總共所需訓(xùn)練時(shí)間只是之前時(shí)間的四分之一。”

谷歌團(tuán)隊(duì)訓(xùn)練 Show and Tell 的方式是利用真人制作的圖片文字說明對(duì)系統(tǒng)在視覺和語言兩種框架進(jìn)行訓(xùn)練,這有助于避免系統(tǒng)機(jī)械地命名圖像中的物體。因?yàn)?,系統(tǒng)不僅僅要辨認(rèn)出圖片中的人物、動(dòng)物或物體等,還要生成完整的描述性語句。若想創(chuàng)建一個(gè)準(zhǔn)確的模型,關(guān)鍵是要考慮好物體之間的相互關(guān)系,例如一名男子正在放風(fēng)箏,與一名男子頭頂有風(fēng)箏,這兩種表述都覆蓋了圖片中的人物與事物,但只有一種表述是對(duì)圖片的最準(zhǔn)確描述。

此外,谷歌Brain團(tuán)隊(duì)指出,Show and Tell 并不僅僅是扮演一只鸚鵡角色,機(jī)械的重復(fù)訓(xùn)練圖片庫里的詞條內(nèi)容,從下圖可以看出,該模型是如何通過訓(xùn)練庫圖像內(nèi)容合成來創(chuàng)造出新鮮內(nèi)容的圖像描述。這也表明該模型對(duì)于圖片中的物體和場景關(guān)系實(shí)現(xiàn)了更深層的理解,并且能用自然的英語詞組及語句表達(dá)出來。

谷歌開源深度學(xué)習(xí)系統(tǒng) TensorFlow 的圖片文字說明模型,可深層次理解圖片

谷歌并不是唯一一個(gè)借助 AI 來實(shí)現(xiàn)圖片文字說明功能的公司,在這一領(lǐng)域還有許多的競爭者,并且有相關(guān)的其它開源工具,例如斯坦福大學(xué) Andrej Karpathy 推出的 NeuralTalk2 就是一款可以對(duì)圖像內(nèi)容生成自然語言描述的模型。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)