計(jì)算機(jī)視覺研究突飛猛進(jìn),走向?qū)嵱萌匀沃氐肋h(yuǎn)

責(zé)任編輯:editor005

作者:陳思

2017-05-25 11:51:07

摘自:INFOQ

計(jì)算機(jī)視覺,人工智能的分支領(lǐng)域之一,計(jì)算機(jī)視覺既是工程領(lǐng)域,也是科學(xué)領(lǐng)域中的一個富有挑戰(zhàn)性重要研究領(lǐng)域。“事實(shí)上,深度學(xué)習(xí)本身就是一種大數(shù)據(jù)分析模型,而且在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)得到很好的應(yīng)用。

計(jì)算機(jī)視覺,人工智能的分支領(lǐng)域之一,計(jì)算機(jī)視覺既是工程領(lǐng)域,也是科學(xué)領(lǐng)域中的一個富有挑戰(zhàn)性重要研究領(lǐng)域。計(jì)算機(jī)視覺是一門綜合性的學(xué)科,它已經(jīng)吸引了來自各個學(xué)科的研究者參加到對它的研究之中。

2017年6月2日-4日,中國圖像圖形學(xué)會主辦的高端學(xué)術(shù)交流活動:“CSIG圖像圖形學(xué)科前沿講習(xí)班”(Advanced Lectures on Image and Graphics,簡稱IGAL)將在北京舉行。講習(xí)班邀請了各大高校的知名專家學(xué)者,他們從各自研究的角度深入解讀計(jì)算機(jī)視覺領(lǐng)域的前沿技術(shù)和應(yīng)用。

我們借此機(jī)會采訪到本次講習(xí)班的學(xué)術(shù)主任王亮博士,來為我們針對目前計(jì)算機(jī)視覺的發(fā)展現(xiàn)狀做一些簡單的分析。如果讀者想要更加深入了解學(xué)習(xí)計(jì)算機(jī)視覺方面的知識,可以報名參加CSIG圖像圖形學(xué)科前沿講習(xí)班(活動鏈接:www.csig.org.cn/igal),與專家老師們做進(jìn)一步交流。

現(xiàn)在計(jì)算機(jī)視覺也成為了人工智能科技公司研究的重要方向,而人臉識別成了重要的一個研究分支,但似乎得到過度關(guān)注的人臉識別是否是未來計(jì)算機(jī)視覺的發(fā)展方向?而在學(xué)術(shù)界的技術(shù)專家也在向工業(yè)界轉(zhuǎn)型,學(xué)界與業(yè)界的關(guān)注點(diǎn)到底有什么區(qū)別?新技術(shù)不斷涌現(xiàn),身在技術(shù)圈的技術(shù)人如何看待這些新興技術(shù),想要投身于人工智能研究的年輕學(xué)者們應(yīng)該從什么方向開始努力?

王亮博士將從他專業(yè)的角度來為我們解答。

視頻監(jiān)控技術(shù)目前還不成熟

王亮博士做過不少關(guān)于動作識別、步態(tài)識別的研究,這些技術(shù)大量應(yīng)用在視頻監(jiān)控上。雖然研究者們在這些方面已經(jīng)做了大量工作,近期也取得了較大的進(jìn)展,但是在王亮博士看來,目前還遠(yuǎn)不能說當(dāng)前的視頻監(jiān)控技術(shù)已經(jīng)成熟。王亮博士做出了如下分析:

“事實(shí)上,我們算法所做的實(shí)驗(yàn)大多是基于受限環(huán)境下所采集的視頻數(shù)據(jù),這種數(shù)據(jù)一般來說是比較容易的,即背景簡單、個體單一,而且沒有較大的遮擋。

但是對于實(shí)際視頻監(jiān)控而言,視頻中個體尺度各異、視頻分辨率低、個體部分遮擋、拍攝視角變化等問題都會影響到算法的實(shí)際應(yīng)用效果。此外,除了上面提到的個體識別以外,還有許多類型的群體識別,比如打架等異常行為檢測、群體事件識別、人群密度估計(jì)、人群流向預(yù)測等。這些群體識別比個體識別更加復(fù)雜,存在的挑戰(zhàn)和困難也更多。綜上所述,現(xiàn)在視頻監(jiān)控技術(shù)還遠(yuǎn)遠(yuǎn)沒有達(dá)到成熟的水平。”

圖像數(shù)據(jù)集仍有不足

在圖像識別方面,李飛飛團(tuán)隊(duì)做的數(shù)據(jù)集ImageNet已經(jīng)存在了很久,雖然如此,王亮博士認(rèn)為它仍舊是比較權(quán)威、被廣泛應(yīng)用的數(shù)據(jù)集,尤其是在目標(biāo)識別模型的性能評估方面。該數(shù)據(jù)集至少在很長一段時間還會被繼續(xù)大量使用,因?yàn)槌藨?yīng)用在目標(biāo)識別任務(wù)上,它還被廣泛用于其它視覺任務(wù),例如使用ImageNet數(shù)據(jù)集進(jìn)行模型預(yù)訓(xùn)練。

在近幾年,李飛飛團(tuán)隊(duì)又做出了新的圖像與語言結(jié)合的數(shù)據(jù)集Visual Genome,香港中文大學(xué)唐曉鷗團(tuán)隊(duì)也做出了專注人臉識別的數(shù)據(jù)集WIDERFACE。這些數(shù)據(jù)集都是最近公開的新數(shù)據(jù)集。

客觀來說,任何一個數(shù)據(jù)集的建立都會存在一定的不足,這取決實(shí)際任務(wù)需求和客觀資源限制等諸多因素,例如一個可能的問題就是樣本類別不均衡。當(dāng)然,在客觀世界中,可能實(shí)際樣本分布原本就是很不均衡的,但是從模型訓(xùn)練的角度來說,我們通常希望樣本能均衡一些,這樣訓(xùn)練出來的模型不會偏向某些類別,進(jìn)而不同類別的識別性能不會相差太多。

王亮博士舉了一個有趣的例子:“ImageNet數(shù)據(jù)集中屬于人這個類別的樣本特別多,但關(guān)于鴕鳥類別的樣本就比較少,這樣訓(xùn)練出來的模型對于人的分類性能就比鴕鳥要高很多,這就是樣本不均衡所導(dǎo)致結(jié)果。”樣本不均衡的情況甚至?xí)幸恍O端的體現(xiàn),“再比如,LFW數(shù)據(jù)集也存在比較嚴(yán)重的類別不均衡問題,屬于一個類別的樣本最多幾百,而最少只有一個。”

無論是Visual Genome還是WIDERFACE,它們都是在特定的任務(wù)情況下把數(shù)據(jù)集做得規(guī)模更大、細(xì)節(jié)更多、潛在用途更多一些。

以Visual Genome為例,王亮博士為我們進(jìn)行了講解:

“Visual Genome數(shù)據(jù)集其實(shí)是對目標(biāo)識別數(shù)據(jù)集進(jìn)行了擴(kuò)充,在原有只提供目標(biāo)類別的基礎(chǔ)上,增加多種其它標(biāo)注信息,包括目標(biāo)屬性、目標(biāo)位置、目標(biāo)與目標(biāo)之間關(guān)系、目標(biāo)文字描述等。

這樣的數(shù)據(jù)集除了可以應(yīng)用于目標(biāo)識別任務(wù)之外,還可以用于圖像描述生成、目標(biāo)關(guān)系預(yù)測、視覺問答等其它任務(wù)。所以,數(shù)據(jù)集這個方面肯定會越做越好,或許在未來一些規(guī)模更大、更普適的數(shù)據(jù)集會被提出。

但是,值得注意的是,現(xiàn)在做得較多的都是圖像數(shù)據(jù)集,隨著視頻技術(shù)的快速發(fā)展,會對相關(guān)視頻數(shù)據(jù)庫產(chǎn)生較大的需求,所以希望以后會有更多視頻數(shù)據(jù)集。”

純無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)難度大,GAN未來很有潛力

標(biāo)記數(shù)據(jù)的成本較高,而生活中大部分?jǐn)?shù)據(jù)都是無標(biāo)記的,要想充分利用這種無標(biāo)記數(shù)據(jù),需要應(yīng)用無監(jiān)督學(xué)習(xí)算法。

早期的玻爾茲曼機(jī)和自編碼機(jī)都是自深度學(xué)習(xí)流行起來,無監(jiān)督學(xué)習(xí)的應(yīng)用成果。它們是以重構(gòu)數(shù)據(jù)自身的方式或者生成數(shù)據(jù)的方式來對無標(biāo)記數(shù)據(jù)的潛在真實(shí)分布進(jìn)行建模。

王亮博士指出,無監(jiān)督學(xué)習(xí)存在一個問題是,通過它學(xué)習(xí)得到的模型性能通常要比監(jiān)督學(xué)習(xí)低許多。因?yàn)樗鄬ΡO(jiān)督學(xué)習(xí)來說,畢竟缺少大量標(biāo)記信息,目前無法學(xué)習(xí)到非常具有判別力的特征表示。事實(shí)上,當(dāng)前要做純粹的無監(jiān)督學(xué)習(xí)可能并不是特別現(xiàn)實(shí),但如果能夠利用少量的有標(biāo)記數(shù)據(jù)輔助來做半監(jiān)督學(xué)習(xí),可能會比較可行一些。

對抗生成網(wǎng)絡(luò)(GAN)是最近熱度較高的一種模型。它的基本原理是它有兩個模型:一個生成器,一個判別器。判別器的任務(wù)是判斷給定圖像是否看起來“自然”,換句話說,是否像是人為(機(jī)器)生成的。而生成器的任務(wù)是,顧名思義,生成看起來‘自然’的圖像,要求與原始數(shù)據(jù)分布盡可能一致。

對于GAN,王亮博士說:“它的難點(diǎn)可能在于訓(xùn)練一個好的生成器比較困難,其訓(xùn)練過程通常并不是特別穩(wěn)定。盡管WGAN的提出可以緩解這一問題,但是我們在一些實(shí)驗(yàn)上發(fā)現(xiàn),其效果并沒有原始的GAN好。當(dāng)然,GAN及其相關(guān)模型才剛剛起步,潛力很大,其應(yīng)用范圍有待進(jìn)一步拓寬。”

計(jì)算機(jī)視覺發(fā)展歷程中的關(guān)鍵技術(shù)節(jié)點(diǎn)

從CNN到GAN,神經(jīng)網(wǎng)絡(luò)模型在不斷的進(jìn)步,同時也影響到了計(jì)算機(jī)視覺的發(fā)展,王亮博士從視頻技術(shù)的角度為我們分析了計(jì)算機(jī)視覺發(fā)展過程中的關(guān)鍵技術(shù)節(jié)點(diǎn):

“2012年ImageNet競賽上,使用了CNN的模型性能比傳統(tǒng)方法提升了大概11個百分點(diǎn)。自此以后,CNN強(qiáng)大的特征學(xué)習(xí)能力在不同視覺任務(wù)中都得到了證明,而且刷新了當(dāng)時很多任務(wù)的最好結(jié)果。

當(dāng)時的基于CNN模型叫做AlexNet,這個網(wǎng)絡(luò)只有幾層,后來出現(xiàn)的CNN模型包括VGGNet、GoogleNet、ResNet等網(wǎng)絡(luò)層數(shù)變得越來越深,從當(dāng)時幾層到幾十層,進(jìn)而發(fā)展到現(xiàn)在的幾百層。事實(shí)證明,網(wǎng)絡(luò)越深其學(xué)習(xí)到的特征判別力越強(qiáng),所以每一個新型深度網(wǎng)絡(luò)的提出都階梯式地推動了視覺領(lǐng)域快速發(fā)展。

從CNN這方面來講,AlexNet、VGGNet、GoogleNet和ResNet都是很重要的技術(shù)結(jié)點(diǎn)。

對于視頻方面來講,2011年出現(xiàn)的3DCNN可能算是它的一個初始技術(shù)結(jié)點(diǎn),其后續(xù)被擴(kuò)展成一般化的視頻特征提取網(wǎng)絡(luò)C3D。在2014年前后RNN、LSTM這樣時序模型的大量出現(xiàn),也是處理視頻這種時序數(shù)據(jù)的非常重要的技術(shù)結(jié)點(diǎn)。”

計(jì)算機(jī)視覺的哪些分支值得關(guān)注

計(jì)算機(jī)視覺畢竟是一個比較偏實(shí)際應(yīng)用的學(xué)科,它的研究內(nèi)容大多還是由實(shí)際應(yīng)用來驅(qū)動的。有人認(rèn)為現(xiàn)在做計(jì)算機(jī)視覺的公司太多專注于研究人臉識別這樣的功能分支,為什么很多公司都在專注做人臉識別這樣一個任務(wù)呢?

王亮博士這樣分析:“個人認(rèn)為肯定還是受市場需求導(dǎo)向所致的。事實(shí)上,人臉識別在很多領(lǐng)域都有應(yīng)用需要,正是由于這些需求從而推動了很多人去做這樣一個事情。對于計(jì)算機(jī)視覺幾個核心問題例如語義分割等,也有實(shí)際需求在推動一部分人研究。比如最近無人機(jī)、無人車比較火,這些任務(wù)都需要視頻場景解析技術(shù),由此視頻語義分割技術(shù)吸引了大家越來越的多注意,相應(yīng)的研究人員數(shù)量自然而然會增加。”

而作為研究人員,王亮博士認(rèn)為應(yīng)該更多關(guān)注兩個方面:

一、更多地研究基礎(chǔ)理論

在計(jì)算機(jī)視覺算法的理論層面去做一些事情。比如,大家都知道現(xiàn)在計(jì)算機(jī)視覺的很多技術(shù)都是基于深度學(xué)習(xí)的,但是深度學(xué)習(xí)的基礎(chǔ)理論目前還不是太清楚,相關(guān)研究也非常少,這也是它經(jīng)常遭人詬病的主要原因。

二、深入挖掘一些實(shí)際應(yīng)用需求比較高的研究問題

因?yàn)榇蟛糠盅芯孔罱K還是要為實(shí)際應(yīng)用服務(wù)的。

學(xué)術(shù)界與工業(yè)界關(guān)注點(diǎn)的差異

計(jì)算機(jī)視覺領(lǐng)域越來越多的學(xué)術(shù)界的專家學(xué)者加入了工業(yè)界:香港中文大學(xué)的賈佳亞教授加入了騰訊優(yōu)圖,前幾年Yann LeCun加入了Facebook,還有谷歌的Geoff Hinton等等。中科院也成立了自己的銀河水滴科技,王亮博士作為該公司技術(shù)顧問,從自己的角度談了談學(xué)界與業(yè)界關(guān)注點(diǎn)上的區(qū)別:
學(xué)術(shù)界做研究是面向國際學(xué)科前沿,更多關(guān)注算法層面的研究問題,所以創(chuàng)新性會比較高一些。對于工業(yè)界而言,主要是以實(shí)際應(yīng)用為導(dǎo)向,例如基于當(dāng)前比較有效的一些模型算法,針對具體問題改進(jìn)以達(dá)到實(shí)用的目的。因此,相對學(xué)術(shù)界來說,工業(yè)界做的東西可能比較偏實(shí)用、更工程化一些,但同時創(chuàng)新性也相對低一些。

大數(shù)據(jù)與計(jì)算機(jī)視覺

在計(jì)算機(jī)視覺發(fā)展過程中,很多模型算法都是基于機(jī)器學(xué)習(xí)算法衍生出來的。包括大家所熟悉的深度學(xué)習(xí),其前身是深度神經(jīng)網(wǎng)絡(luò),也是機(jī)器學(xué)習(xí)算法的一種。

計(jì)算機(jī)視覺領(lǐng)域如何應(yīng)用大數(shù)據(jù)呢?

“事實(shí)上,深度學(xué)習(xí)本身就是一種大數(shù)據(jù)分析模型,而且在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)得到很好的應(yīng)用。”

王亮博士補(bǔ)充道:

“深度學(xué)習(xí)的一個最大的特點(diǎn)就是能夠利用大規(guī)模數(shù)據(jù)集來訓(xùn)練出更好的模型,并自適應(yīng)地學(xué)習(xí)用于不同任務(wù)的數(shù)據(jù)特征表示。ImageNet數(shù)據(jù)庫相對于早期的PASCAL VOC數(shù)據(jù)庫來說,它的數(shù)據(jù)集規(guī)模是非常很大的。深度學(xué)習(xí)包括CNN在該大規(guī)模數(shù)據(jù)庫上訓(xùn)練出來的模型能夠更好地進(jìn)行目標(biāo)識別,這一過程利用到了大數(shù)據(jù)規(guī)模大信息多的特性,使得模型能夠挖掘到更有用的信息。”

目前深度學(xué)習(xí)和大數(shù)據(jù)兩者的有機(jī)結(jié)合確實(shí)給計(jì)算機(jī)視覺領(lǐng)域帶來了很多紅利,但是這樣的紅利能夠持續(xù)多久呢?王亮博士認(rèn)為不好預(yù)測,但是可以肯定的是:深度學(xué)習(xí)和大數(shù)據(jù)的潛力可能還沒有被充分挖掘徹底。

王亮博士以CNN為例進(jìn)行了分析:

“深度學(xué)習(xí)中的CNN,最早是幾層的AlexNet,后來到了十幾層的VGGNet,然后到了幾十層的GoogelNet,甚至到最近幾百層的ResNet,每一次這些新模型出現(xiàn)的時候,我們都懷疑深度學(xué)習(xí)是不是已經(jīng)到了極限了?我們的模型性能是不是不可能再提升了?但是每一次又確確實(shí)實(shí)得有更深、精度更高的網(wǎng)絡(luò)被提出來了,并且每一次都不同程度地推動了計(jì)算機(jī)視覺領(lǐng)域的發(fā)展。所以,我們說深度學(xué)習(xí)和大數(shù)據(jù)應(yīng)該還是處于上升發(fā)展期,其帶來的紅利可能還會再持續(xù)較長一段時間。”

給有志加入人工智能研究的年輕學(xué)者的建議

王亮博士的建議有兩點(diǎn)

1,加入人工智能領(lǐng)域,首先要加強(qiáng)自身素質(zhì)的培養(yǎng)。

我平時無論是招生、招人,通常最關(guān)注的都是三個方面,編程、英語、數(shù)學(xué)。編程是實(shí)現(xiàn)算法的基礎(chǔ),數(shù)學(xué)是理解模型算法的基礎(chǔ),而英語是用于文獻(xiàn)閱讀、與人交流、文章寫作的基礎(chǔ)。編程、數(shù)學(xué)和英語,這三個方面缺一不可。

2,志存高遠(yuǎn),開拓創(chuàng)新

這幾年人工智能迅速發(fā)展,國內(nèi)內(nèi)容相關(guān)的高質(zhì)量期刊或者會議論文層出不窮,但是真正在國際范圍內(nèi)產(chǎn)生巨大影響的工作還是相對比較少的。不能說大部分都是跟風(fēng),但是很多情況下我們只是在別人的基礎(chǔ)上修修改改,原創(chuàng)性的工作并不多。所以,如果大家愿意加入人工智能領(lǐng)域的話,應(yīng)當(dāng)志存高遠(yuǎn),爭取做出一些原創(chuàng)有影響力的工作。

王亮博士

中國科學(xué)院自動化研究所研究員,博導(dǎo),IEEE 高級會員、國際模式識別協(xié)會會士(IAPR Fellow),模式識別國家重點(diǎn)實(shí)驗(yàn)室副主任、中國圖象圖形學(xué)學(xué)會視覺大數(shù)據(jù)專業(yè)委員會主任、圖像視頻大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟秘書長、中國計(jì)算機(jī)學(xué)會計(jì)算機(jī)視覺專委會秘書長、中國電子學(xué)會青年科學(xué)家俱樂部副主席。中科院百人計(jì)劃入選者(終期優(yōu)秀),國家杰出青年科學(xué)基金獲得者,國家青年科技獎獲得者。2004 年獲中科院自動化所工學(xué)博士學(xué)位。2004-2010 年分別在英國帝國理工學(xué)院、澳大利亞莫納什大學(xué)、墨爾本大學(xué)及英國巴斯大學(xué)工作。主要研究領(lǐng)域是模式識別,計(jì)算機(jī)視覺,大數(shù)據(jù)分析等。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號