ImageNet數(shù)據(jù)庫中的iPod圖片
北京時(shí)間12月11日消息,據(jù)科技博客VentureBeat報(bào)道,在第六屆ImageNet年度圖像識(shí)別測(cè)試中,微軟研究院的計(jì)算機(jī)圖像識(shí)別系統(tǒng)在幾個(gè)類別的測(cè)試中拔得頭籌,擊敗了谷歌、英特爾、高通、騰訊以及一些創(chuàng)業(yè)公司和學(xué)術(shù)實(shí)驗(yàn)室的系統(tǒng)。ImageNet是全球最大的圖像識(shí)別數(shù)據(jù)庫。
微軟的獲勝系統(tǒng)名為“圖像識(shí)別的深度殘差學(xué)習(xí)”(Deep Residual Learning for Image Recognition),由微軟研究員何愷明、張祥雨、任少卿和孫劍組成的團(tuán)隊(duì)開發(fā)。微軟稱,公司將在未來發(fā)表的論文中詳細(xì)介紹這一系統(tǒng)。
考慮到這項(xiàng)技術(shù)的復(fù)雜性,它可以稱得上一項(xiàng)了不起的成就。“我們對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練深度超過了150層,”該團(tuán)隊(duì)稱,“我們提出了一個(gè)‘深度殘差學(xué)習(xí)’框架,它能夠減少優(yōu)化,整合極深度網(wǎng)絡(luò)。當(dāng)網(wǎng)絡(luò)的深度在之前基礎(chǔ)上顯著加深時(shí),我們的’深度殘差網(wǎng)絡(luò)’的準(zhǔn)確率就會(huì)提升。這種準(zhǔn)確率的提升是很多普通網(wǎng)絡(luò)在加深時(shí)無法達(dá)到的。”
科技公司現(xiàn)在十分熱衷于深度學(xué)習(xí)領(lǐng)域的研究,他們希望借此改進(jìn)自主內(nèi)部系統(tǒng)及其消費(fèi)級(jí)產(chǎn)品。深度學(xué)習(xí)是高性能網(wǎng)絡(luò)的核心,涉及在照片等大數(shù)據(jù)基礎(chǔ)上訓(xùn)練人工智能神經(jīng)網(wǎng)絡(luò),然后向它們提供新數(shù)據(jù),獲得推斷結(jié)果。
微軟已經(jīng)通過幾款有趣的應(yīng)用展示了公司在人工智能領(lǐng)域的實(shí)力,比如“我看起來有多大”(How Old Do I Look?)、“我的胡子怎么樣”(How’s My Moustache Doing?)。微軟還建立了Project Oxford項(xiàng)目,以實(shí)現(xiàn)圖像識(shí)別技術(shù)的商業(yè)化。
ImageNet要求參賽系統(tǒng)對(duì)來自圖片分享網(wǎng)站Flickr和搜索引擎的10萬張照片進(jìn)行精確定位,然后盡可能準(zhǔn)確地將他們劃分到1000種目標(biāo)類別下,包括狼蛛、iPod、清真寺、玩具店、調(diào)制解調(diào)器等。
微軟獲勝系統(tǒng)的分類錯(cuò)誤率為3.5%,定位錯(cuò)誤率為9%。過去幾年,谷歌、創(chuàng)業(yè)公司larifai、NEC一直在圖像分類準(zhǔn)確率上占先。
微軟的系統(tǒng)今年還在ImageNet的目標(biāo)偵測(cè)測(cè)試中占據(jù)第一位。“甚至連我們自己都不相信這種單一想法能夠取得這么好的效果,”孫劍稱。
百度并未參與今年的ImageNet測(cè)試。去年,百度的測(cè)試存在違規(guī)行為,采用了密集測(cè)試的方法以提高成績(jī)。百度隨后道歉,并解雇了團(tuán)隊(duì)負(fù)責(zé)人。百度因此被禁止提交測(cè)試成績(jī)1年。
在這次測(cè)試中,IBM提供了SoftLayer公有云服務(wù)供參賽團(tuán)隊(duì)使用,使用的是英偉達(dá)的圖形處理器。