這一稱呼不無道理。在近日召開的全球科技青年論壇上,倪冰冰將其中的“簡單道理”娓娓道來,“人類每天接觸到的‘聽說讀寫’信息里有70%實(shí)際上是視覺信息。而在信息領(lǐng)域,大多數(shù)的信息也是視頻圖片數(shù)據(jù)。”
“體量之最”當(dāng)然還包括視頻智能識別的“計(jì)算量之巨”。
“全世界每秒鐘傳到Y(jié)outube的視頻要達(dá)到幾千個(gè)小時(shí)。”倪冰冰表示,即使使用現(xiàn)在流行的神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)技術(shù),加上高性能硬件設(shè)備,計(jì)算時(shí)間之久也超乎想象。
“視頻一直被視為計(jì)算機(jī)視覺里的暗物質(zhì)。”谷歌云人工智能和機(jī)器學(xué)習(xí)前首席科學(xué)家李飛飛曾如是說。即便如此,科學(xué)家及互聯(lián)網(wǎng)公司對視頻智能理解技術(shù)的“征服欲”也沒有減退之意,紛紛投入巨大的財(cái)力物力人力去攻堅(jiān)克難,IBM、谷歌都曾為視頻智能理解的深入研究發(fā)布視頻數(shù)據(jù)集,臉書CEO扎克伯格在最新一季財(cái)報(bào)分析師溝通會上透露,視頻識別已成為旗下視頻在線產(chǎn)品、VR產(chǎn)品的核心競爭力之一。
因何具有如此動力?倪冰冰一語道破其中緣由:智能視頻理解技術(shù)在安防監(jiān)控、自動駕駛,以及在社交媒體短視頻、直播里,都是最核心的技術(shù)。
而隨著視頻在人們生活中所占的分量越來越重,視頻智能理解技術(shù)有了越來越深厚的現(xiàn)實(shí)基礎(chǔ)。經(jīng)過過去數(shù)年的努力,視頻智能理解研究領(lǐng)域已經(jīng)有了一些突破式進(jìn)展,變得更具有實(shí)際應(yīng)用價(jià)值。
增加時(shí)間尺度建模
打開一些視頻網(wǎng)站,用戶經(jīng)??梢钥吹脚c自身歷史瀏覽痕跡相關(guān)的視頻推薦,或者“以視頻搜索視頻”的內(nèi)容搜索功能,這其中首先涉及到的技術(shù)其實(shí)就是視頻的行為識別。通俗而言,就是給正在運(yùn)行的程序一段視頻,讓它告訴你“里面發(fā)生了什么”。
識別智能理解技術(shù)的研發(fā)過程并不像描述起來這么簡單,其面臨的技術(shù)挑戰(zhàn)巨大。除了視頻體量,視頻的質(zhì)量、視頻內(nèi)容中有效信息的數(shù)量也都是很大的技術(shù)難題。
以安防領(lǐng)域的視頻數(shù)據(jù)為例,倪冰冰解釋道,攝像頭的視頻質(zhì)量有時(shí)候比較差,人動一下會有些模糊,使得技術(shù)對所捕捉到的動作的理解變得非常困難;另外,不同的人做同樣動作的樣式非常不同,“有人快有人慢”,這也造成智能理解的難點(diǎn);不同位置的物體在視頻中的尺寸相異,要把“大的東西、小的東西”同時(shí)“抓”出來是很有難度的。
倪冰冰所在的團(tuán)隊(duì)提出了時(shí)序金字塔算法,該算法通過對時(shí)間軸進(jìn)行分尺度建模,使不同尺度的數(shù)據(jù)特征都能得到很好的表達(dá)。
“我們又配合流行的深度學(xué)習(xí)里的LSTM(長短期記憶網(wǎng)絡(luò))、深度遞歸網(wǎng)絡(luò),使得不同尺度的信息在不同時(shí)間進(jìn)行流動,最后達(dá)到很好的識別效果。”倪冰冰進(jìn)一步闡釋道。
這一研究在由谷歌、斯坦福等國際頂尖人工智能研究機(jī)構(gòu)主辦的THUMOS行為檢測國際競賽中,獲得視頻檢測小組國際第一名。
“找人”不再是難題
“找人”是理解視頻中行為的關(guān)鍵所在。在計(jì)算機(jī)視覺領(lǐng)域中,“找人”行為的專業(yè)術(shù)語叫做“行人重識別”,專指利用計(jì)算機(jī)視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。
而在人工智能產(chǎn)業(yè)化的過程中,“找人”也恰恰是視頻智能理解可以快速投入的應(yīng)用場景的形象描述。倪冰冰講述道,“如果我們能把人和人在不同攝像頭下的影像追蹤起來的話,就可以得到這個(gè)人在整個(gè)時(shí)間軸和空間軸上的分布,這可以實(shí)現(xiàn)很多的應(yīng)用,比如找到一些非常敏感的人物。”
過去,倪冰冰團(tuán)隊(duì)在進(jìn)行視頻行為里的行人重識別時(shí),通常利用單幀信息,比如在某個(gè)時(shí)間點(diǎn)上選一幀圖像與旁邊的其他幀圖像進(jìn)行比對,但這樣的做法存在一定的問題。
“我們發(fā)現(xiàn)單幀圖像的信息是丟失的,攝像頭所拍攝的是行為人整個(gè)‘動’的過程,取得單幀的話,整個(gè)‘動’的行為就損失掉了。”倪冰冰說。
另外,利用單幀圖片信息很有可能會遇到一些特殊姿勢、遮擋、運(yùn)動的模糊等問題。對此,倪冰冰團(tuán)隊(duì)提出的一個(gè)方法使得識別技術(shù)能夠?qū)φ麄€(gè)視頻進(jìn)行時(shí)序上的個(gè)人信息加以匯總,形成定量表征,從而使行人重識別的性能達(dá)到最優(yōu)。
基于多角度攝像機(jī)的3D定位跟蹤模塊是當(dāng)前業(yè)界比較新的技術(shù)。倪冰冰表示,過去,單個(gè)相機(jī)對人在2D場景進(jìn)行定位,現(xiàn)在,技術(shù)可以在相機(jī)和相機(jī)之間形成匹配,用重識別以及跟蹤技術(shù)可以在3D空間里對人進(jìn)行追蹤,對人的動態(tài)過程進(jìn)行畫像。
“這些技術(shù)產(chǎn)生了很多應(yīng)用,新零售、智能零售系統(tǒng)就是很好的例子。”倪冰冰自豪地說道,“新零售里,無非是有多少人進(jìn)入我的商店、多少男生多少女生、什么年齡段、他們在哪個(gè)商品面前停留了多少時(shí)間,這些通過技術(shù)都可以解決。”
倪冰冰表示,抓到這些數(shù)據(jù)之后,可以反映在大數(shù)據(jù)端,有了客流分析、軌跡、略讀圖的數(shù)據(jù),店家就能夠?qū)π袖N展開布局,對行銷策略做一定的改變和優(yōu)化。
在小型終端運(yùn)行
“用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行視頻智能分析所需的網(wǎng)絡(luò)是很大的,它的參數(shù)量非常多,甚至超過幾十、幾百兆。”倪冰冰表示,以這樣大的網(wǎng)絡(luò)去做視頻分析,顯然使用時(shí)間是非常久的,但新一代人工智能希望很多智能的工作在端上進(jìn)行,比如手機(jī)、平板電腦等,而如此大的模型顯然無法在一個(gè)小的運(yùn)算設(shè)備上進(jìn)行運(yùn)算。
針對這個(gè)問題,倪冰冰團(tuán)隊(duì)對網(wǎng)絡(luò)進(jìn)行了二值殘差定量的簡化,使得過去用浮點(diǎn)數(shù)表達(dá)的網(wǎng)絡(luò),用現(xiàn)在的二進(jìn)制數(shù)據(jù)網(wǎng)絡(luò)來表達(dá),這使得整合各個(gè)模型的過程變得簡單,計(jì)算變得更加高效。
“有了這個(gè)技術(shù)之后,實(shí)際上,很多原來一定要在‘云’上、在服務(wù)端去做的一些人臉識別功能,現(xiàn)在可以在很小的手機(jī)上進(jìn)行。”倪冰冰表示,“智能刷臉閘機(jī)、智能訪客機(jī)以及智能門禁等有了這個(gè)網(wǎng)絡(luò)壓縮技術(shù),都能在小型設(shè)備上運(yùn)行。”
倪冰冰認(rèn)為,對一個(gè)公司團(tuán)隊(duì)來說,從算法到技術(shù)落地還有很長的路要走,“這里面相當(dāng)多的功夫用在了工程化的落地上”。對此,其團(tuán)隊(duì)提出的人、物檢測的算法也做了工程化的努力。
“現(xiàn)在對人的定位有輕量級的人臉檢測模塊,這樣,一個(gè)幾兆的小模塊可以在手機(jī)里運(yùn)行;也有輕量級的人體骨骼檢測模塊,實(shí)際就是抓住人的一個(gè)動作,過去它是一個(gè)體量非常大的計(jì)算,現(xiàn)在,通過一些新算法和工程實(shí)踐可以把它做到很小的手機(jī)模塊上,而且能夠達(dá)到實(shí)時(shí)運(yùn)行的效果。”倪冰冰表示。
“定位了人以后要進(jìn)行識別,現(xiàn)在在小設(shè)備上,人臉識別也能做到在百萬底庫下95%以上的通過率,這是非常難的一個(gè)過程。”倪冰冰說。