Google新一代圖片技術(shù):讓圖片自己說話

責(zé)任編輯:editor04

2014-11-19 17:26:44

摘自:愛范兒

未來五年消費(fèi)者使用語音、圖像來表達(dá)需求的比例將超過 50%。

未來五年消費(fèi)者使用語音、圖像來表達(dá)需求的比例將超過 50%。

百度董事長(zhǎng)兼 CEO 李彥宏如是說。單純的文字搜索時(shí)代已經(jīng)漸行漸遠(yuǎn)了,如今的搜索引擎,可以直接搜索語音和圖片,這也催生了他們?cè)陔娮由虅?wù)中的應(yīng)用,比如依圖搜索商品。

圖片搜索引擎中,我們較為熟悉的有 Google,上傳圖片或輸入 URL 地址,Google 就會(huì)按圖索驥,給你圖片來源、相似圖片等搜索結(jié)果。這一切,都基于 Google 復(fù)雜的圖像識(shí)別算法,對(duì)圖像“指紋掃描”,包括像素、顏色,亮度,從而進(jìn)行圖片的特征提取,繼而找出相似結(jié)果。

而 Google 又要在這個(gè)領(lǐng)域更進(jìn)一步了。據(jù)《紐約時(shí)報(bào)》報(bào)道,Google 和斯坦福大學(xué)的科學(xué)家團(tuán)隊(duì)研發(fā)了新一代的圖片識(shí)別技術(shù):給圖片做文字描述。識(shí)別的范圍也不僅僅是圖片,也包括視頻畫面。

目前的圖片識(shí)別技術(shù)只識(shí)別出圖像中的單個(gè)物體,而這項(xiàng)新技術(shù)識(shí)別的是整幅畫面,并進(jìn)行標(biāo)記,用自然語言(英語)進(jìn)行描述。比如,“草原上的大象”、“玩飛盤的年輕人”這樣的字句。圖片被如此“翻譯”過后,就能夠更容易、更準(zhǔn)確的分類,在被搜索時(shí)能提供更精確的結(jié)果。

用“文字搜索”協(xié)助“圖片搜索”的好處顯而易見:這項(xiàng)技術(shù)也可以幫助視障人士,或者應(yīng)用在公共監(jiān)控的安全系統(tǒng)上——監(jiān)控?cái)z像頭所捕捉到的不僅是“面部”和單個(gè)個(gè)體,它可以識(shí)別整個(gè)畫面,包括其中的運(yùn)動(dòng)、行為,自動(dòng)報(bào)警。

也就是說,它為機(jī)器的認(rèn)知和自我學(xué)習(xí)提供了新的技術(shù)基礎(chǔ)。研究人員的靈感來自人類大腦的神經(jīng)元網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)讓大腦可以自我“訓(xùn)練”,看到新事物時(shí)可以發(fā)現(xiàn)記憶中相似的事物。Google 要做的就是這樣的一個(gè)大腦,可以認(rèn)知、可以理解圖片的內(nèi)容。

認(rèn)知是人類所具備的一種重要的能力,我們的大腦能夠通過認(rèn)知,也就是綜合大量信息,來確定一個(gè)人的身份,一個(gè)物品的種類,這是人類智力的基礎(chǔ)。計(jì)算機(jī)如果能做到這一點(diǎn)并不容易,Google X 曾動(dòng)用了 1000 臺(tái)電腦,一共 16000 顆處理器,創(chuàng)造一個(gè)多達(dá) 10 億個(gè)連接的神經(jīng)網(wǎng)絡(luò),在 1000 萬張略縮圖中,找到包含“可愛小貓”的圖片。

當(dāng)然,這項(xiàng)技術(shù)最主要的障礙在于識(shí)別的準(zhǔn)確性,一些圖像識(shí)別專家并不看好它,認(rèn)為它只是復(fù)制了人類的視覺能力,反而在理解圖像時(shí)更模棱兩可。

盡管如此,讓計(jì)算機(jī)識(shí)別“真相”需要計(jì)算機(jī)科學(xué)開創(chuàng)新的圖形搜索技術(shù)。“我認(rèn)為圖片和視頻中的像素?cái)?shù)據(jù)是互聯(lián)網(wǎng)的暗物質(zhì)(Dark matter),我們希望照亮它。”項(xiàng)目的領(lǐng)隊(duì)、斯坦福大學(xué)人工智能實(shí)驗(yàn)室的李飛飛(Fei-Fei Li)說。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)