亚洲狠狠婷婷综合久久久久图片 ,亚洲女性午夜网站在线橎放,欧美中文字幕一二三四区

人工智能也可輸出視頻“觀后感”：增加時(shí)間尺度建模

責(zé)任編輯：zsheng

2018-11-08 10:20:41

摘自：中國科學(xué)報(bào)

“對視頻的智能理解是人工智能的最大戰(zhàn)場。”說出這一觀點(diǎn)的上海交通大學(xué)教授倪冰冰坦言這一說法“不會有多少人有反對意見”。作為深耕計(jì)算機(jī)視覺中智能視頻分析的專家，他甚至愿意稱之為人工智能的“體量之最”。

這一稱呼不無道理。在近日召開的全球科技青年論壇上，倪冰冰將其中的“簡單道理”娓娓道來，“人類每天接觸到的‘聽說讀寫’信息里有70%實(shí)際上是視覺信息。而在信息領(lǐng)域，大多數(shù)的信息也是視頻圖片數(shù)據(jù)。”

“體量之最”當(dāng)然還包括視頻智能識別的“計(jì)算量之巨”。

“全世界每秒鐘傳到Y(jié)outube的視頻要達(dá)到幾千個(gè)小時(shí)。”倪冰冰表示，即使使用現(xiàn)在流行的神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)技術(shù)，加上高性能硬件設(shè)備，計(jì)算時(shí)間之久也超乎想象。

“視頻一直被視為計(jì)算機(jī)視覺里的暗物質(zhì)。”谷歌云人工智能和機(jī)器學(xué)習(xí)前首席科學(xué)家李飛飛曾如是說。即便如此，科學(xué)家及互聯(lián)網(wǎng)公司對視頻智能理解技術(shù)的“征服欲”也沒有減退之意，紛紛投入巨大的財(cái)力物力人力去攻堅(jiān)克難，IBM、谷歌都曾為視頻智能理解的深入研究發(fā)布視頻數(shù)據(jù)集，臉書CEO扎克伯格在最新一季財(cái)報(bào)分析師溝通會上透露，視頻識別已成為旗下視頻在線產(chǎn)品、VR產(chǎn)品的核心競爭力之一。

因何具有如此動力?倪冰冰一語道破其中緣由：智能視頻理解技術(shù)在安防監(jiān)控、自動駕駛，以及在社交媒體短視頻、直播里，都是最核心的技術(shù)。

而隨著視頻在人們生活中所占的分量越來越重，視頻智能理解技術(shù)有了越來越深厚的現(xiàn)實(shí)基礎(chǔ)。經(jīng)過過去數(shù)年的努力，視頻智能理解研究領(lǐng)域已經(jīng)有了一些突破式進(jìn)展，變得更具有實(shí)際應(yīng)用價(jià)值。

增加時(shí)間尺度建模

打開一些視頻網(wǎng)站，用戶經(jīng)?？梢钥吹脚c自身歷史瀏覽痕跡相關(guān)的視頻推薦，或者“以視頻搜索視頻”的內(nèi)容搜索功能，這其中首先涉及到的技術(shù)其實(shí)就是視頻的行為識別。通俗而言，就是給正在運(yùn)行的程序一段視頻，讓它告訴你“里面發(fā)生了什么”。

識別智能理解技術(shù)的研發(fā)過程并不像描述起來這么簡單，其面臨的技術(shù)挑戰(zhàn)巨大。除了視頻體量，視頻的質(zhì)量、視頻內(nèi)容中有效信息的數(shù)量也都是很大的技術(shù)難題。

以安防領(lǐng)域的視頻數(shù)據(jù)為例，倪冰冰解釋道，攝像頭的視頻質(zhì)量有時(shí)候比較差，人動一下會有些模糊，使得技術(shù)對所捕捉到的動作的理解變得非常困難;另外，不同的人做同樣動作的樣式非常不同，“有人快有人慢”，這也造成智能理解的難點(diǎn);不同位置的物體在視頻中的尺寸相異，要把“大的東西、小的東西”同時(shí)“抓”出來是很有難度的。

倪冰冰所在的團(tuán)隊(duì)提出了時(shí)序金字塔算法，該算法通過對時(shí)間軸進(jìn)行分尺度建模，使不同尺度的數(shù)據(jù)特征都能得到很好的表達(dá)。

“我們又配合流行的深度學(xué)習(xí)里的LSTM(長短期記憶網(wǎng)絡(luò))、深度遞歸網(wǎng)絡(luò)，使得不同尺度的信息在不同時(shí)間進(jìn)行流動，最后達(dá)到很好的識別效果。”倪冰冰進(jìn)一步闡釋道。

這一研究在由谷歌、斯坦福等國際頂尖人工智能研究機(jī)構(gòu)主辦的THUMOS行為檢測國際競賽中，獲得視頻檢測小組國際第一名。

“找人”不再是難題

“找人”是理解視頻中行為的關(guān)鍵所在。在計(jì)算機(jī)視覺領(lǐng)域中，“找人”行為的專業(yè)術(shù)語叫做“行人重識別”，專指利用計(jì)算機(jī)視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。

而在人工智能產(chǎn)業(yè)化的過程中，“找人”也恰恰是視頻智能理解可以快速投入的應(yīng)用場景的形象描述。倪冰冰講述道，“如果我們能把人和人在不同攝像頭下的影像追蹤起來的話，就可以得到這個(gè)人在整個(gè)時(shí)間軸和空間軸上的分布，這可以實(shí)現(xiàn)很多的應(yīng)用，比如找到一些非常敏感的人物。”

過去，倪冰冰團(tuán)隊(duì)在進(jìn)行視頻行為里的行人重識別時(shí)，通常利用單幀信息，比如在某個(gè)時(shí)間點(diǎn)上選一幀圖像與旁邊的其他幀圖像進(jìn)行比對，但這樣的做法存在一定的問題。

“我們發(fā)現(xiàn)單幀圖像的信息是丟失的，攝像頭所拍攝的是行為人整個(gè)‘動’的過程，取得單幀的話，整個(gè)‘動’的行為就損失掉了。”倪冰冰說。

另外，利用單幀圖片信息很有可能會遇到一些特殊姿勢、遮擋、運(yùn)動的模糊等問題。對此，倪冰冰團(tuán)隊(duì)提出的一個(gè)方法使得識別技術(shù)能夠?qū)φ麄€(gè)視頻進(jìn)行時(shí)序上的個(gè)人信息加以匯總，形成定量表征，從而使行人重識別的性能達(dá)到最優(yōu)。

基于多角度攝像機(jī)的3D定位跟蹤模塊是當(dāng)前業(yè)界比較新的技術(shù)。倪冰冰表示，過去，單個(gè)相機(jī)對人在2D場景進(jìn)行定位，現(xiàn)在，技術(shù)可以在相機(jī)和相機(jī)之間形成匹配，用重識別以及跟蹤技術(shù)可以在3D空間里對人進(jìn)行追蹤，對人的動態(tài)過程進(jìn)行畫像。

“這些技術(shù)產(chǎn)生了很多應(yīng)用，新零售、智能零售系統(tǒng)就是很好的例子。”倪冰冰自豪地說道，“新零售里，無非是有多少人進(jìn)入我的商店、多少男生多少女生、什么年齡段、他們在哪個(gè)商品面前停留了多少時(shí)間，這些通過技術(shù)都可以解決。”

倪冰冰表示，抓到這些數(shù)據(jù)之后，可以反映在大數(shù)據(jù)端，有了客流分析、軌跡、略讀圖的數(shù)據(jù)，店家就能夠?qū)π袖N展開布局，對行銷策略做一定的改變和優(yōu)化。

在小型終端運(yùn)行

“用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行視頻智能分析所需的網(wǎng)絡(luò)是很大的，它的參數(shù)量非常多，甚至超過幾十、幾百兆。”倪冰冰表示，以這樣大的網(wǎng)絡(luò)去做視頻分析，顯然使用時(shí)間是非常久的，但新一代人工智能希望很多智能的工作在端上進(jìn)行，比如手機(jī)、平板電腦等，而如此大的模型顯然無法在一個(gè)小的運(yùn)算設(shè)備上進(jìn)行運(yùn)算。

針對這個(gè)問題，倪冰冰團(tuán)隊(duì)對網(wǎng)絡(luò)進(jìn)行了二值殘差定量的簡化，使得過去用浮點(diǎn)數(shù)表達(dá)的網(wǎng)絡(luò)，用現(xiàn)在的二進(jìn)制數(shù)據(jù)網(wǎng)絡(luò)來表達(dá)，這使得整合各個(gè)模型的過程變得簡單，計(jì)算變得更加高效。

“有了這個(gè)技術(shù)之后，實(shí)際上，很多原來一定要在‘云’上、在服務(wù)端去做的一些人臉識別功能，現(xiàn)在可以在很小的手機(jī)上進(jìn)行。”倪冰冰表示，“智能刷臉閘機(jī)、智能訪客機(jī)以及智能門禁等有了這個(gè)網(wǎng)絡(luò)壓縮技術(shù)，都能在小型設(shè)備上運(yùn)行。”

倪冰冰認(rèn)為，對一個(gè)公司團(tuán)隊(duì)來說，從算法到技術(shù)落地還有很長的路要走，“這里面相當(dāng)多的功夫用在了工程化的落地上”。對此，其團(tuán)隊(duì)提出的人、物檢測的算法也做了工程化的努力。

“現(xiàn)在對人的定位有輕量級的人臉檢測模塊，這樣，一個(gè)幾兆的小模塊可以在手機(jī)里運(yùn)行;也有輕量級的人體骨骼檢測模塊，實(shí)際就是抓住人的一個(gè)動作，過去它是一個(gè)體量非常大的計(jì)算，現(xiàn)在，通過一些新算法和工程實(shí)踐可以把它做到很小的手機(jī)模塊上，而且能夠達(dá)到實(shí)時(shí)運(yùn)行的效果。”倪冰冰表示。

“定位了人以后要進(jìn)行識別，現(xiàn)在在小設(shè)備上，人臉識別也能做到在百萬底庫下95%以上的通過率，這是非常難的一個(gè)過程。”倪冰冰說。

時(shí)間智能