在人工智能頂會(huì)拿下雙料冠軍
當(dāng)前隨著娛樂視頻、直播平臺(tái)的日漸成熟,直播視頻數(shù)量也出現(xiàn)了井噴的趨勢(shì),自動(dòng)化處理視頻的需求日益增長(zhǎng)。作為自動(dòng)化處理視頻的核心技術(shù)之一,行為檢測(cè)AI也越來越受到學(xué)術(shù)界和企業(yè)界的共同關(guān)注。
阿里安達(dá)實(shí)驗(yàn)室高級(jí)算法工程師張士偉介紹,在CVPR 2020關(guān)于行為檢測(cè)AI的兩項(xiàng)賽道任務(wù)中,阿里和華科大聯(lián)手提出的解決方案不僅獲得了雙料冠軍,并以平均均值精度(mAP)42.788%的性能一舉打破眾多頂尖科技公司、科研院校去年無法突破“40%”的瓶頸,在AI視覺領(lǐng)域帶來新的可能。
CVPR兩個(gè)賽道的數(shù)據(jù)集分別有2萬個(gè)視頻和5萬個(gè)視頻,而且后者采用的是更貼近真實(shí)生活的視頻數(shù)據(jù)。這次兩個(gè)賽道任務(wù)目標(biāo)是,給定一段無剪切的視頻,參賽AI必須檢測(cè)出目標(biāo)行為發(fā)生的時(shí)間區(qū)間并正確預(yù)測(cè)該行為對(duì)應(yīng)的類別。以一段跳水比賽視頻為例,視頻中有若干參賽選手的跳水動(dòng)作,每個(gè)跳水動(dòng)作約4秒,AI須準(zhǔn)確定位某位或者多位參賽選手的跳水動(dòng)作。
張士偉認(rèn)為,CVPR的比賽任務(wù)還面臨四大挑戰(zhàn):第一,目標(biāo)行為時(shí)常分布廣,從0.5秒到400秒不等,以賽道中一個(gè)200秒的測(cè)試視頻為例,1秒采集15幀圖像,AI必須在3000幀圖像中精確定位;第二,視頻背景復(fù)雜,通常具有很多不規(guī)則的非目標(biāo)行為嵌入在視頻中,比如一段集會(huì)場(chǎng)景的視頻中有許多參會(huì)者,AI必須從復(fù)雜的背景中精準(zhǔn)定位演講者;第三,類間差大,行為的視覺效果會(huì)因人而異,比如專業(yè)舞者和業(yè)余舞者在跳同一段舞蹈,他們的動(dòng)作必然有差異,AI要能識(shí)別這是同一段舞蹈。“此外,AI檢測(cè)人體動(dòng)作還面臨人體之間的互相遮擋、視頻分辨率不夠、光照、視角等變化多樣的其他干擾。”張士偉說。
雖然面臨上述難題,兩個(gè)賽道的數(shù)據(jù)屬性也不盡相同,阿里安達(dá)實(shí)驗(yàn)室和華中科技大學(xué)還是創(chuàng)造性地提出了兩項(xiàng)AI解決方案,出色地實(shí)現(xiàn)了比賽任務(wù)目標(biāo)。
圖片說明:阿里安達(dá)實(shí)驗(yàn)室和華科大在CVPR兩個(gè)賽道的獲獎(jiǎng)證書
技術(shù)能力得益于現(xiàn)實(shí)場(chǎng)景磨煉
技術(shù)的進(jìn)步往往得益于復(fù)雜現(xiàn)實(shí)場(chǎng)景的磨煉和沉淀。行為檢測(cè)AI經(jīng)過長(zhǎng)時(shí)間打磨,早在阿里安達(dá)實(shí)驗(yàn)室的多媒體AI和安全審核等系統(tǒng)中布局,成為安全AI的核心組件之一。阿里安達(dá)實(shí)驗(yàn)室負(fù)責(zé)人薛暉介紹,優(yōu)酷、淘寶直播視頻等早已受益于這項(xiàng)頂尖技術(shù)。
行為檢測(cè)AI不僅可以準(zhǔn)確定位、分析視頻中的違規(guī)行為,甚至還能預(yù)測(cè)一些行為的趨勢(shì)。同時(shí),它還可以自動(dòng)檢測(cè)淘寶直播中某個(gè)商品的最佳動(dòng)作展示片段,自動(dòng)剪輯出精華視頻用于櫥窗展示。
“把行為檢測(cè)AI應(yīng)用在實(shí)際業(yè)務(wù)場(chǎng)景,并在業(yè)務(wù)的打磨和考驗(yàn)中不斷成長(zhǎng),,這也是阿里安達(dá)實(shí)驗(yàn)室打造的這項(xiàng)AI技術(shù)能在CVPR2020上取得雙料冠軍的原因。”薛暉說。
圖片說明:左為時(shí)長(zhǎng)3小時(shí)的直播視頻,右為行為檢測(cè)AI識(shí)別出的某單件服裝展示視頻
打造數(shù)字基建“安全樣板間”
今年3月,阿里發(fā)布數(shù)字基建新一代安全架構(gòu)。從實(shí)戰(zhàn)出發(fā)進(jìn)行安全基建,讓安全能力和業(yè)務(wù)數(shù)字化建設(shè)實(shí)現(xiàn)同步,是新一代安全架構(gòu)的核心理念。
安全技術(shù)以往大多只應(yīng)用于安全風(fēng)控領(lǐng)域。阿里安全在20多年間的發(fā)展歷程中,始終堅(jiān)持立足于不斷創(chuàng)新的業(yè)務(wù)場(chǎng)景打造安全技術(shù)。在保障業(yè)務(wù)安全的前提下,也在為一些商業(yè)難題提供新的解決方案,為業(yè)界打造安全基建的樣板。
張士偉介紹,行為檢測(cè)AI在體育、直播、影視傳媒和安防領(lǐng)域有廣闊的應(yīng)用前景,比如精彩動(dòng)作檢測(cè)、智能集錦生成、介紹商品行為,以及通用動(dòng)作檢測(cè)識(shí)別、多模態(tài)搜索、異常動(dòng)作檢測(cè)等。在護(hù)航數(shù)字基建的同時(shí),也為多個(gè)領(lǐng)域的創(chuàng)新和提效帶來更多智能化助力。