隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其使得計(jì)算機(jī)朝著真正的人工智能邁進(jìn)了一大步,使用海量數(shù)據(jù)來(lái)自動(dòng)識(shí)別圖像和文本,并實(shí)時(shí)進(jìn)行人機(jī)間的“對(duì)話”將不再是天方夜譚。雖然目前還有很多理論和建模等方面的問(wèn)題等待探索和解決,但是深度學(xué)習(xí)已經(jīng)顯示出了它在技術(shù)上的巨大潛能。本文將簡(jiǎn)要介紹深度學(xué)習(xí)理論的起源與發(fā)展,重點(diǎn)闡述深度學(xué)習(xí)在安防領(lǐng)域的具體應(yīng)用現(xiàn)狀和存在的困難,并且介紹安防產(chǎn)品如何基于深度學(xué)習(xí)得到性能上的提升。
一、深度學(xué)習(xí)的起源與發(fā)展
人工智能(ArtificialIntelligence)是人類最美好的夢(mèng)想之一,有很多的藝術(shù)作品和科研探索對(duì)它展開(kāi)了廣泛的討論。雖然在人類和大量現(xiàn)成數(shù)據(jù)的幫助下,目前的電腦表現(xiàn)非常強(qiáng)大,可是人工智能的美好想法似乎仍然可望而不可及。不過(guò)令人感到振奮的是,除了云計(jì)算對(duì)大數(shù)據(jù)的并行處理技術(shù)手段,借助深度學(xué)習(xí)(DeepLearning)算法,人類終于找到了如何處理“抽象概念”的方法。
自2006年以來(lái),人工智能和機(jī)器學(xué)習(xí)領(lǐng)域取得了突破性進(jìn)展。近幾年深度學(xué)習(xí)的持續(xù)走紅也對(duì)這一領(lǐng)域產(chǎn)生了巨大的沖擊。“深度學(xué)習(xí)”的概念最早由多倫多大學(xué)的GeoffHinton和他的同事于2006年提出。Hinton意識(shí)到科學(xué)家們并沒(méi)有真正理解大腦——他們可以解釋電信號(hào)如何連接神經(jīng)元,但他們無(wú)法解釋這些神經(jīng)元是如何學(xué)習(xí)或計(jì)算的。他認(rèn)為這些問(wèn)題可能最終指向人工智能的終極夢(mèng)想。當(dāng)然我們也可以追溯到更早,由紐約大學(xué)的YannLeCun于上世紀(jì)90年代開(kāi)發(fā)的5層卷及神經(jīng)網(wǎng)絡(luò)(5-layercnn)進(jìn)行手寫(xiě)數(shù)字識(shí)別,不過(guò)由于當(dāng)時(shí)的計(jì)算機(jī)硬件有限,沒(méi)有得到大規(guī)模的應(yīng)用。
隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是近兩年大數(shù)據(jù)時(shí)代的來(lái)臨,深度學(xué)習(xí)得到了進(jìn)一步發(fā)展。2012年6月,《紐約時(shí)報(bào)》披露了GoogleBrain項(xiàng)目,即直接把海量數(shù)據(jù)投放到算法中,讓數(shù)據(jù)自己說(shuō)話,系統(tǒng)會(huì)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)。2012年11月,微軟在中國(guó)天津的一次活動(dòng)上公開(kāi)演示了一個(gè)基于深度學(xué)習(xí)的全自動(dòng)同聲傳譯系統(tǒng),演講者用英文進(jìn)行演講,后臺(tái)的計(jì)算機(jī)自動(dòng)實(shí)時(shí)完成語(yǔ)音識(shí)別、英中機(jī)器翻譯和中文語(yǔ)音合成,效果非常流暢。2013年,DanC.Ciresan的乳腺癌細(xì)胞有絲分裂檢測(cè)超越了人眼的識(shí)別效果。在這之后,研究機(jī)器學(xué)習(xí)與人工智能領(lǐng)域的教授都開(kāi)始發(fā)表有關(guān)深度學(xué)習(xí)的論文,以2015年的CVPR會(huì)議為例,很多論文主題和深度學(xué)習(xí)密切相關(guān)。當(dāng)然,深度學(xué)習(xí)目前仍有大量工作需要研究,目前的關(guān)注點(diǎn)還是從機(jī)器學(xué)習(xí)的領(lǐng)域借鑒一些可以在深度學(xué)習(xí)使用的方法。
應(yīng)該說(shuō),最早受到深度學(xué)習(xí)沖擊的就是互聯(lián)網(wǎng)行業(yè)自身。因此,他們更加關(guān)注如何將深度學(xué)習(xí)與具體應(yīng)用相結(jié)合?;ヂ?lián)網(wǎng)行業(yè)的大型公司,如谷歌、微軟、百度、騰訊、阿里巴巴等,都相繼成立了自己的相關(guān)研發(fā)團(tuán)隊(duì),或者成立深度學(xué)習(xí)研究院,致力于大數(shù)據(jù)驅(qū)動(dòng)的人工智能技術(shù)創(chuàng)新,在語(yǔ)音和圖像識(shí)別等具體應(yīng)用領(lǐng)域取得了一定的成果。
二、安防領(lǐng)域的深度學(xué)習(xí)應(yīng)用
隨著智能交通、智能家居的興起,安防領(lǐng)域也將成為人工智能和機(jī)器學(xué)習(xí)關(guān)注的熱點(diǎn),從而成為受到深度學(xué)習(xí)第二波沖擊的重要領(lǐng)域。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究中的一個(gè)領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像、聲音和文本等。目前,深度學(xué)習(xí)的應(yīng)用領(lǐng)域中大約有70%都在圖像識(shí)別方面,結(jié)合安防領(lǐng)域的現(xiàn)狀,這就意味著,深度學(xué)習(xí)在這一領(lǐng)域必然會(huì)有顛覆性的發(fā)展。隨著大數(shù)據(jù)與高清攝像機(jī)應(yīng)用的普及,安防大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),海量高清及以上分辨率視頻數(shù)據(jù)給安防產(chǎn)品技術(shù)帶來(lái)了大數(shù)據(jù),這也就成為深度學(xué)習(xí)在安防領(lǐng)域必將快速發(fā)展的肥沃土壤。
機(jī)器學(xué)習(xí)(MachineLearning)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。它專門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。傳統(tǒng)的機(jī)器學(xué)習(xí)方法有adboost、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、隨機(jī)森林、提升決策樹(shù)等,雖然目前在安防領(lǐng)域已經(jīng)獲得了一定的成功,但它們?cè)谀繕?biāo)的定位率和識(shí)別率的提升上已經(jīng)陷入了一定的瓶頸:很多具體應(yīng)用中的識(shí)別率無(wú)法得到提升;在大規(guī)模多場(chǎng)景應(yīng)用中,虛警問(wèn)題也給安防領(lǐng)域帶來(lái)了很大的困擾,即使是增加訓(xùn)練樣本依然不能緩解這一問(wèn)題。
以安防領(lǐng)域中最成功的車牌識(shí)別算法為例,雖然目前很多廠商都宣稱自己的車牌識(shí)別率已經(jīng)達(dá)到了99%,但這也只是在標(biāo)準(zhǔn)卡口的視頻條件下再加上一些預(yù)設(shè)條件來(lái)達(dá)到的。在針對(duì)很多簡(jiǎn)易卡口和卡口圖片進(jìn)行車牌定位識(shí)別時(shí),較好的車牌識(shí)別也很難達(dá)到90%。不過(guò)隨著采用深度學(xué)習(xí)的應(yīng)用,這一情況將會(huì)得到很大的改善。
在傳統(tǒng)的圖像處理和機(jī)器學(xué)習(xí)算法研發(fā)中,很多特征都是人為制定的,比如hog、sift特征,在目標(biāo)檢測(cè)和特征匹配中占有重要的地位,安防領(lǐng)域中的很多具體算法所使用的特征大多是這兩種特征的變種。人為設(shè)計(jì)特征和機(jī)器學(xué)習(xí)算法,從以往的經(jīng)驗(yàn)來(lái)看,由于理論分析的難度大,訓(xùn)練方法又需要很多經(jīng)驗(yàn)和技巧,一般需要5到10年的時(shí)間才會(huì)有一次突破性的發(fā)展,而且對(duì)算法工程師的知識(shí)要求也一直在提高。深度學(xué)習(xí)則不然,在進(jìn)行圖像檢測(cè)和識(shí)別時(shí),無(wú)需人為設(shè)定具體的特征,只需要準(zhǔn)備好足夠多的圖進(jìn)行訓(xùn)練即可,通過(guò)逐層的迭代就可以獲得較好的結(jié)果。從目前的應(yīng)用情況來(lái)看,只要加入新數(shù)據(jù),并且有充足的時(shí)間和計(jì)算資源,隨著深度學(xué)習(xí)網(wǎng)絡(luò)層次的增加,識(shí)別率就會(huì)相應(yīng)提升,比傳統(tǒng)方法表現(xiàn)更好。
初看之下,深度學(xué)習(xí)似乎是一種萬(wàn)能的方法,什么問(wèn)題都能夠輕松解決,然而就深度學(xué)習(xí)的具體應(yīng)用而言,目前依然存在三大主要難題:第一是大數(shù)據(jù)標(biāo)定的問(wèn)題,深度學(xué)習(xí)領(lǐng)域的一句流行語(yǔ)——“誰(shuí)掌握著數(shù)據(jù)誰(shuí)就掌握著市場(chǎng)”,就充分地說(shuō)明了這一點(diǎn);第二是計(jì)算量過(guò)大的問(wèn)題,在具體應(yīng)用中隨著數(shù)據(jù)和網(wǎng)路層次的增加,不僅訓(xùn)練花費(fèi)的時(shí)間在大幅增加,測(cè)試時(shí)間也在增加,在具體應(yīng)用中很難實(shí)現(xiàn)前端化和實(shí)時(shí)化;第三是訓(xùn)練收斂問(wèn)題,以在圖像識(shí)別中應(yīng)用最多的卷積神經(jīng)網(wǎng)絡(luò)(CNN)為例,目前已經(jīng)出現(xiàn)了幾百層的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練過(guò)程中一般采用梯度下降的方法,這一過(guò)程中如果層數(shù)過(guò)多,數(shù)據(jù)初始化不合理就很容易不收斂。
三、基于深度學(xué)習(xí)提升安防產(chǎn)品性能
雖然存在以上這些問(wèn)題,但是深度學(xué)習(xí)依然是非常有效的方法,這些問(wèn)題也必將隨著時(shí)間的推移得到妥善解決。除此之外,很多企業(yè)以及機(jī)構(gòu)的努力也正在使深度學(xué)習(xí)現(xiàn)有的一些問(wèn)題得到較大的改觀,例如面對(duì)數(shù)據(jù)問(wèn)題,目前國(guó)內(nèi)已經(jīng)出現(xiàn)了“數(shù)據(jù)堂”這樣專門(mén)整理數(shù)據(jù)的公司,安防公司只要一定的人力投入即可。關(guān)于計(jì)算量的問(wèn)題,雖然目前像“英偉達(dá)”這樣提供高性能計(jì)算顯卡的公司還不多,但更多消息顯示,Intel、高通、AMD等公司都已開(kāi)始進(jìn)行相關(guān)產(chǎn)品的研發(fā)工作。此外,中科院已經(jīng)開(kāi)始研發(fā)專門(mén)的深度學(xué)習(xí)芯片。
在可以預(yù)見(jiàn)的未來(lái),很多安防公司都會(huì)陸續(xù)推出與深度學(xué)習(xí)相關(guān)的產(chǎn)品,或是采用深度學(xué)習(xí)算法提升已有產(chǎn)品的性能。對(duì)于科達(dá)公司來(lái)說(shuō),剛過(guò)去的2015年是大規(guī)模應(yīng)用深度學(xué)習(xí)的元年。在車牌識(shí)別、車輛顏色、車輛廠商標(biāo)志識(shí)別、無(wú)牌車檢測(cè)、非機(jī)動(dòng)車檢測(cè)與分類、車頭車尾判斷、車輛檢索、人臉識(shí)別等相關(guān)的技術(shù)方面,公司都已經(jīng)開(kāi)始應(yīng)用深度學(xué)習(xí)算法,并且相關(guān)眾多產(chǎn)品的性能也在深度學(xué)習(xí)的幫助下得到了一定的提升。
以安防產(chǎn)品的具體應(yīng)用為例,在車牌識(shí)別方面,目前深度學(xué)習(xí)算法克服了傳統(tǒng)方法在各種不同條件下識(shí)別率不夠穩(wěn)定的情況,用這一方法識(shí)別的車牌識(shí)別率更穩(wěn)定,污損與模糊不清的號(hào)牌的識(shí)別情況更好,圖片模式的車牌定位率和識(shí)別率更是分別從90%和85%提升到95%和93%以上。在車輛顏色識(shí)別方面,基本上克服了由于光照條件變化、相機(jī)硬件誤差所帶來(lái)的顏色不穩(wěn)定、過(guò)曝光等一系列問(wèn)題,因此解決了圖像顏色變化導(dǎo)致的識(shí)別錯(cuò)誤問(wèn)題,卡口車輛顏色識(shí)別率從80%提升到85%,電警車輛主顏色識(shí)別率到從75%提升到80%以上。在車輛廠商標(biāo)志識(shí)別方面,使用傳統(tǒng)的HOG、LBP、SIFT、SURF等特征,采用SVM機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練一個(gè)多級(jí)聯(lián)的分類器來(lái)識(shí)別廠商標(biāo)志很容易出現(xiàn)誤判,采用大數(shù)據(jù)加深度學(xué)習(xí)技術(shù)后,車輛車標(biāo)的過(guò)曝光或者車標(biāo)被人為去掉等引起的局部特征會(huì)隨之消失,其識(shí)別率可以從89%提升到93%以上。在車輛檢索方面,車輛的圖片在不同場(chǎng)景下會(huì)出現(xiàn)曝光過(guò)度或者曝光不足,或者車輛的尺度發(fā)生很大變化,導(dǎo)致傳統(tǒng)方法提取的特征會(huì)發(fā)生變化,因此檢索率很不穩(wěn)定。深度學(xué)習(xí)能夠很好地獲取較為較穩(wěn)定的特征,搜索的相似目標(biāo)更精確,Top5的搜索率在95%以上。在人臉識(shí)別項(xiàng)目中,由于光線、姿態(tài)和表情等因素引起人臉變化,目前很多應(yīng)用都是固定場(chǎng)景、固定姿態(tài),采用深度學(xué)習(xí)算法后,不僅固定場(chǎng)景的人臉識(shí)別率從89%提升到99%,而且對(duì)姿態(tài)和光線也有了一定的放松。
結(jié)語(yǔ)
深度學(xué)習(xí)在語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等應(yīng)用中取得了顯著的成效,但是在安防行業(yè),深度學(xué)習(xí)實(shí)際上才剛剛起步。然而,它正深刻地影響和改變著安防企業(yè),影響著智能視頻分析技術(shù)?,F(xiàn)在已經(jīng)有很多安防企業(yè)開(kāi)始投入資源開(kāi)發(fā)基于深度學(xué)習(xí)技術(shù)的算法、產(chǎn)品。我們有理由相信,深度學(xué)習(xí)在安防領(lǐng)域中的前途是無(wú)限光明的。