智能安防的概念提出已經(jīng)有相當(dāng)長(zhǎng)時(shí)間了,但是道路并不平坦,受限于計(jì)算機(jī)視覺(jué)算法和前端設(shè)備處理能力,許多功能一直無(wú)法成熟應(yīng)用。但是廠商在宣傳智能水平方面往往有夸大的沖動(dòng),使得產(chǎn)品在部署使用后,實(shí)際性能與用戶期待相去甚遠(yuǎn)。雖然這種情況使得安防領(lǐng)域的智能化陷入了一段尷尬時(shí)期,同時(shí)也降低了用戶的期望值,使用戶更加理性的看待智能安防技術(shù),也使得真正優(yōu)秀的智能安防產(chǎn)品能得到機(jī)會(huì)。最近數(shù)年來(lái)深度學(xué)習(xí)算法的快速發(fā)展,在各類人工智能問(wèn)題上的優(yōu)異表現(xiàn)給智能安防領(lǐng)域帶來(lái)了新的機(jī)遇。在深度學(xué)習(xí)迅速發(fā)展的大背景下,本文就智能安防系統(tǒng)如何采用最新的技術(shù)提升產(chǎn)品性能做一些拋磚引玉的探討。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它基于試圖使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個(gè)處理層對(duì)數(shù)據(jù)進(jìn)行高層抽象的一系列算法。卷積神經(jīng)網(wǎng)絡(luò)是目前深度學(xué)習(xí)領(lǐng)域最為廣泛使用的深度學(xué)習(xí)結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)由一個(gè)或多個(gè)卷積層和頂端的全連接層(對(duì)應(yīng)經(jīng)典的神經(jīng)網(wǎng)絡(luò))組成,同時(shí)也包括關(guān)聯(lián)權(quán)重和池化層。自深度學(xué)習(xí)出現(xiàn)以來(lái),它已成為很多領(lǐng)域,尤其是在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別中,成為各種領(lǐng)先系統(tǒng)的一部分。在通用的用于檢驗(yàn)的數(shù)據(jù)集,例如語(yǔ)音識(shí)別中的TIMIT和圖像識(shí)別中的ImageNet,Cifar10上的實(shí)驗(yàn)證明,深度學(xué)習(xí)能夠大幅度提高識(shí)別的精度。深度學(xué)習(xí)算法也是最先在某些識(shí)別任務(wù)上達(dá)到和人類表現(xiàn)具備同等競(jìng)爭(zhēng)力的算法,例如人臉識(shí)別領(lǐng)域使用廣泛的測(cè)試集LFW,基于深度學(xué)習(xí)的算法基本都能達(dá)到99.5以上的性能,這已經(jīng)超過(guò)了人類的得分。
深度學(xué)習(xí)給智能安防帶來(lái)機(jī)遇的同時(shí),也帶來(lái)了挑戰(zhàn)。硬件的進(jìn)步是深度學(xué)習(xí)獲得關(guān)注的重要因素,高性能圖形處理器的出現(xiàn)極大地提高了數(shù)值和矩陣運(yùn)算的速度,使得機(jī)器學(xué)習(xí)算法的運(yùn)行時(shí)間得到了顯著的縮短。這些高性能圖像處理器目前最廣泛使用的是英偉達(dá)生產(chǎn)的支持CUDA計(jì)算的一系列高端顯卡,這些顯卡通常功耗都過(guò)百瓦,價(jià)格也從數(shù)千到上萬(wàn)不等。而對(duì)應(yīng)的前端設(shè)備上的嵌入式處理芯片必須滿足嚴(yán)格的功耗、成本約束,目前數(shù)字?jǐn)z像頭中使用的處理芯片功耗通常在瓦級(jí),價(jià)格在幾十元人民幣量級(jí),顯然這兩者之間存在巨大的鴻溝。這要求安防廠商從傳統(tǒng)的智能攝像頭向前后端復(fù)合的智能安防系統(tǒng)思路轉(zhuǎn)變。筆者認(rèn)為未來(lái)智能安防系統(tǒng)的發(fā)展將會(huì)分為兩個(gè)階段。
第一個(gè)階段是由前端智能攝像頭和后端智能分析服務(wù)器共同構(gòu)成,利用后端基于深度學(xué)習(xí)的分析服務(wù)器來(lái)提升目前智能安防系統(tǒng)的性能。一個(gè)簡(jiǎn)便易行的前后端協(xié)作方式是前端負(fù)責(zé)尋找可能剛興趣的關(guān)鍵幀并發(fā)送到后端,后端負(fù)責(zé)對(duì)該幀進(jìn)行深入分析,判斷是否發(fā)生了感興趣的事件。
目前我們?cè)谥悄馨卜乐械男枨笾袑?shí)際上有相當(dāng)一部分是不需要對(duì)視頻進(jìn)行分析的,通過(guò)單幅圖像進(jìn)行分析就可以完成,只是傳統(tǒng)圖像算法不足夠強(qiáng)大,必須依賴連續(xù)視頻才能抽取需要的信息。比如廣場(chǎng)人員密度分析,如果是人工進(jìn)行分析,只需要單張圖片就可以判斷當(dāng)前畫面中的人員密度,是否達(dá)到預(yù)警的條件,而不需要對(duì)連續(xù)視頻進(jìn)行分析。但是許多做這方面工作的傳統(tǒng)算法通常都依賴于對(duì)連續(xù)視頻的處理,需要通過(guò)連續(xù)視頻做一些前景提取的工作。由于依賴連續(xù)視頻,這些算法還很容易受到環(huán)境光照變化的影響。在深度學(xué)習(xí)出現(xiàn)以后,基于卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的算法通常都是針對(duì)單張圖片進(jìn)行的,并且在人員密度分析上精確度大幅度上升。雖然基于深度學(xué)習(xí)的算法可以僅僅依靠單張圖片就可以分析,但是如果我們不加區(qū)分的每幀或是間隔數(shù)幀持續(xù)傳回截圖,對(duì)網(wǎng)絡(luò)帶寬和后端處理能力都會(huì)造成很大的負(fù)擔(dān)。我們可以要求前端設(shè)備通過(guò)對(duì)連續(xù)視頻的分析僅僅負(fù)責(zé)尋找場(chǎng)景內(nèi)大量前景目標(biāo)時(shí),進(jìn)行截圖并發(fā)送到后端,由后端來(lái)分析該幀內(nèi)的人員分布密度,這樣可以在前端充分利用連續(xù)視頻的信息,降低系統(tǒng)對(duì)網(wǎng)絡(luò)帶寬和后端處理能力的需求。
在構(gòu)建類似系統(tǒng)的硬件平臺(tái)方面,目前國(guó)內(nèi)前端數(shù)字?jǐn)z像頭主流芯片為海思和德州電器兩家廠商生產(chǎn),這兩家廠商的部分芯片都支持用戶進(jìn)行智能圖像處理算法的開(kāi)發(fā),只是方案略有不同。海思通過(guò)SOC內(nèi)置的IVE硬件智能算法加速引擎來(lái)支持傳統(tǒng)智能算法的設(shè)計(jì),該加速引擎可以支持一些在傳統(tǒng)計(jì)算機(jī)算法中常用的算子,開(kāi)發(fā)人員通過(guò)調(diào)用這些算子來(lái)構(gòu)成應(yīng)用級(jí)算法。而德州電器的達(dá)芬奇系列處理器則通過(guò)ARM和DSP的異構(gòu)多核策略來(lái)提供對(duì)算法設(shè)計(jì)的支持,圖像處理算法主要運(yùn)行SOC內(nèi)集成的高性能DSP上。這些芯片雖然無(wú)法執(zhí)行復(fù)雜的深度學(xué)習(xí)算法,但是用來(lái)執(zhí)行一些針對(duì)連續(xù)視頻處理的相對(duì)簡(jiǎn)單的算法,例如前景提取、人臉檢測(cè)等,性能是足夠的。所以目前基于現(xiàn)有的成熟芯片開(kāi)發(fā)具備一定智能的前端數(shù)字?jǐn)z像頭是有很成熟方案的,由于是成熟芯片,所以成本也可控。后端設(shè)備采用基于英偉達(dá)顯卡的服務(wù)器即可,面向深度學(xué)習(xí)的各類軟件框架也比較成熟,所以當(dāng)前階段構(gòu)建基于前后端混合的智能安防系統(tǒng)在軟硬件條件上都是具備的,可以迅速完成產(chǎn)品研發(fā)投入市場(chǎng)。
第二階段是隨著專用卷積神經(jīng)網(wǎng)絡(luò)加速器硬件的發(fā)展,在功耗、成本都滿足需求的前提下,將深度學(xué)習(xí)算法直接運(yùn)行在前端設(shè)備上。目前已經(jīng)有可以支持一定規(guī)模卷積神經(jīng)網(wǎng)絡(luò)的嵌入式處理芯片,最著名的是英偉達(dá)發(fā)布的TegraK1和X1。這兩塊芯片性能強(qiáng)大,同時(shí)成本高昂,并且兩者由于功耗和成本的限制,在執(zhí)行深度學(xué)習(xí)算法時(shí)與桌面顯卡相比性價(jià)比非常低。例如X1只有256個(gè)CUDA核心,GTX1060則具備1280個(gè)CUDA核心,并且前者為MAXWELL架構(gòu)頻率為1000MHZ,后者為PASCAL架構(gòu)頻率高達(dá)1708MHZ,再考慮兩者在存儲(chǔ)容量、速度上的顯著差距,兩者的性能差距是相當(dāng)大的,但是X1主芯片的售價(jià)就超過(guò)200美元,GTX10603G顯存版本的零售價(jià)只要大約1500人民幣。
除了Tegra這類具備通用計(jì)算加速單元的芯片之外,其他還有一些初創(chuàng)企業(yè)在開(kāi)發(fā)完全針對(duì)深度學(xué)習(xí)的芯片,例如國(guó)內(nèi)創(chuàng)投圈知名的寒武紀(jì)。寒武紀(jì)開(kāi)發(fā)的芯片在硬件結(jié)構(gòu)設(shè)計(jì)上,從存儲(chǔ)到計(jì)算單元的設(shè)計(jì),完全針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的需求進(jìn)行,從而最大程度的提升在執(zhí)行這類應(yīng)用時(shí)芯片的能效比,據(jù)目前透露的數(shù)據(jù)在保持低功耗的前提下,性能可以比當(dāng)前的主流顯卡高一個(gè)數(shù)量級(jí)。Intel收購(gòu)的深度學(xué)習(xí)芯片公司Nervana也推出了在性能上與當(dāng)前主流顯卡有量級(jí)提升的深度學(xué)習(xí)芯片,相信Intel收購(gòu)以后在生態(tài)、資本方面給予的大力支持,可以促進(jìn)深度學(xué)習(xí)專用加速芯片更快的進(jìn)入市場(chǎng)。
隨著未來(lái)硬件平臺(tái)的持續(xù)發(fā)展和逐漸成熟,在功耗、成本、性能都滿足要求的前提下,將整個(gè)人工智能算法全部都放在前端設(shè)備上仍然是最終的方向。在前端直接執(zhí)行可以使得整個(gè)人工智能算法獲得最完整的輸入數(shù)據(jù),而不是僅僅局限于由于前端較為簡(jiǎn)單的智能分析算法獲得的單張圖片或是部分特征,從而獲得更好的智能分析效果。