在中國,93.4%的上網(wǎng)者都是網(wǎng)絡(luò)視頻、短視頻的受眾。隨著寬帶提速,5G 普及,用戶對網(wǎng)絡(luò)視頻播放速度和清晰度需求水漲船高。AI 技術(shù)讓音視頻有了更多玩法,例如用戶對視頻的美化與互動,商家借助智能化視頻推廣,另外,AI 技術(shù)也被用在視頻領(lǐng)域修復(fù)電影資料等。不過從技術(shù)層面來看,AI 視頻開發(fā)和應(yīng)用的新場景,讓視頻開發(fā)者面臨著新的智能化視頻技術(shù)挑戰(zhàn)。
具體來說,與以往的視頻開發(fā)鏈路有所不同,在智能音視頻開發(fā)鏈路里,包含了例如人臉識別、圖像分割等 AI 相關(guān)的新技術(shù);通過 AI、CV 逐幀處理視頻,比普通視頻處理所需資源開銷更大,對移動端性能要求也更高;而資源需求也會引起移動端硬件功耗增加,手機(jī)發(fā)熱,更損傷用戶的使用體驗。面對新的視頻應(yīng)用趨勢,開發(fā)者需要熟練地運用 AI 新技術(shù)、優(yōu)化資源和性能的更多矛盾、硬件功耗,每一件都是一個專業(yè)視頻開發(fā)者要耗費大量時間和精力才能搞定的難點。
業(yè)界目前將 AI 用于視頻處理,大多是從服務(wù)器側(cè)實現(xiàn)。隨著移動設(shè)備不斷刷新硬件高配置,以及網(wǎng)絡(luò)條件的改善,端側(cè)的智能化視頻其實蘊藏了更多的潛力有待挖掘。
針對智能化視頻開發(fā)的這些痛點,華為在2021 年 7 月推出了面向移動端開發(fā)者的多媒體開放能力體系——多媒體管線服務(wù)AV Pipeline Kit(以下簡稱為AV Pipeline)。近日,CSDN專訪了 AV Pipeline 開發(fā)團(tuán)隊的多位技術(shù)研發(fā)負(fù)責(zé)人,深度揭秘和解析了 AV Pipeline 的架構(gòu)設(shè)計,以及最核心的兩項特性:視頻超分與聲音事件檢測的核心技術(shù)。
輕量級開發(fā)框架,“拼樂高”式的插件化
音視頻開發(fā)
據(jù)介紹,AV Pipeline 里包含輕量級多媒體開發(fā)框架和多種高性能的音視頻處理插件。多媒體開發(fā)框架負(fù)責(zé)解析配置文件并將多個插件按照配置文件中的編排關(guān)系連接組成一個流水線,實現(xiàn)特定的媒體業(yè)務(wù),如播放、錄制、編輯等。音視頻處理插件負(fù)責(zé)完成特定的任務(wù),例如解封裝、解碼、濾波等。
AV Pipeline 框架旨在降低媒體應(yīng)用的開發(fā)難度,讓開發(fā)者們可以通過 AV Pipeline 自定義流水線編排,將原本需要幾千行代碼才能實現(xiàn)的 AI 視頻功能,只通過幾十行代碼,將多種高性能插件快速集成到應(yīng)用中,輕松實現(xiàn)更加豐富的多媒體功能。
詳細(xì)來說,通過定義插件的標(biāo)準(zhǔn)接口和數(shù)據(jù)流在插件之間的流轉(zhuǎn)方式,開發(fā)者只需要按照標(biāo)準(zhǔn)接口完成插件開發(fā),就可以迅速構(gòu)建出新型的媒體場景。視頻開發(fā)者如果需要在(端側(cè))視頻采集、播放、編輯等場景中加入 AI 和計算機(jī)視覺、音頻等算法,采用 AV Pipeline 框架即可。
AV Pipeline 已預(yù)置可應(yīng)用在播放場景的 Pipeline,如視頻播放、視頻超分、聲音事件檢測,提供 Java 接口,同時支持開發(fā)者通過 C++接口直接調(diào)用單個預(yù)置插件。開發(fā)者可以如樂高積木式搭建,將不同 Pipeline 插件按不同的連接關(guān)系串聯(lián)起來形成新的業(yè)務(wù)場景。另外,若預(yù)置插件或預(yù)置Pipeline 不滿足使用要求,開發(fā)者可以開發(fā)自定義插件與 Pipeline。
AV Pipeline 已支持的多種插件
揭秘視頻超分與聲音事件檢測,以深度學(xué)習(xí)實現(xiàn)“升體驗、降成本”
端側(cè)最高 3 倍超分背后,采用深度學(xué)習(xí)與 NPU 方案
手機(jī)和移動設(shè)備可以隨時隨處播放視頻,不過網(wǎng)絡(luò)質(zhì)量會因為地點條件各有不同。為了降低網(wǎng)絡(luò)差異對觀眾觀看體驗的影響,視頻 App 一般會針對網(wǎng)絡(luò)調(diào)整降低視頻碼率,減少播放卡頓。另外,用戶對畫質(zhì)要求水漲船高,視頻App 需在服務(wù)器端存儲高清視頻,大大增加了視頻網(wǎng)站服務(wù)器端的成本開支。
這種情況下,AV Pipeline 用端側(cè)超分技術(shù),提升畫質(zhì)和觀看體驗,同時降低運營成本,堪稱一舉兩得。而這背后,是AV Pipeline 采用 AI 深度學(xué)習(xí)對超分功能進(jìn)行了設(shè)計和應(yīng)用。
智能化視頻集成開發(fā)神器來了,AV Pipeline Kit 架構(gòu)解析
根據(jù)技術(shù)專家介紹,首先在模型方面 ,AV Pipeline 利用卷積神經(jīng)網(wǎng)絡(luò)的非線性擬合能力,去近似自然場景中高分辨率圖像到低分辨率圖像的復(fù)雜的退化過程,實現(xiàn)更為真實的超分效果。其次,在數(shù)據(jù)工程上,除超分素材里龐雜的真實采集的數(shù)據(jù)外,AV Pipeline 也會構(gòu)造接近真實場景的合成數(shù)據(jù),用于模型的優(yōu)化過程。最后也是非常重要的一點,為了突破手機(jī)端側(cè)的性能瓶頸,AV Pipeline 采用了多種模型小型化的方案,包括剪枝、量化、蒸餾、神經(jīng)架構(gòu)搜索等。
AV Pipeline 有 GPU 超分方案和NPU 超分兩種方案。GPU 超分方案具有較高的并行效率以及較好的通用性,對于 270P 及以下的視頻,可以實現(xiàn)最高 2 倍超分。而 NPU 超分方案則具有更好的超分體驗,可以提供 3 倍的超分能力,但是需要專有硬件的支持。這是因為 NPU 提供了直接支持視頻格式的接口,可以實現(xiàn)端到端的視頻轉(zhuǎn)化,減少了調(diào)用開銷。
另外,AV Pipeline 針對視頻超分提出特有的融合機(jī)制,對計算流水進(jìn)行重排,可以降低超分對內(nèi)存帶寬的需求,提高了推理性能,降低內(nèi)存讀寫的功耗。
現(xiàn)在,AV Pipeline 視頻超分支持 270P-720P 等多種分辨率,最高可以實現(xiàn) 3 倍效果。根據(jù)視頻分辨率的不同,AV Pipeline 視頻超分插件會靈活采用不同的增強(qiáng)策略,以達(dá)到效果和時延功耗的平衡。
聲音事件檢測:98%識別準(zhǔn)確率背后的四大設(shè)計亮點
AV Pipeline 另一個重要的插件是聲音事件檢測,聲音事件檢測采用主流的深度學(xué)習(xí) NN 網(wǎng)絡(luò)算法模型,重點關(guān)注準(zhǔn)確率和誤闖問題。在設(shè)計中,首先,根據(jù)聲音事件長短不同,AV Pipeline 采用并行計算多個不同卷積,以分析更豐富的特征。
第二,在頻譜中很難區(qū)分的易混淆聲音事件,AV Pipeline 采用注意力機(jī)制,對不同聲音特征計算貢獻(xiàn)度,以區(qū)分易混淆的聲音類別,并且可用于對誤闖聲音的抑制。第三,分類后的聲音事件,在時間維度(時域上),也使用注意力機(jī)制,為貢獻(xiàn)度打分。第四,AV Pipeline 設(shè)計了融合判決池,得分較高聲音事件直接判決,得分較低但不想遺漏的聲音事件,采用融合判決池做平滑處理。
AV Pipeline 聲音事件檢測現(xiàn)在可支持日常使用的 13 種聲音,可以用于無障礙功能、健康檢測、輔助安全駕駛、安全防盜、事故報警防剮蹭、停車啟動安全等更豐富的場景。研發(fā)團(tuán)隊針對預(yù)置聲音類別進(jìn)行了深度優(yōu)化、組合驗證,當(dāng)前識別準(zhǔn)確率平均在 98% 以上。
最后,AV Pipeline 技術(shù)專家透露,AV Pipeline 已經(jīng)在和視頻 App 大廠合作超分商用方案,目前灰度測試階段。同時,AV Pipeline 也可用于視頻編輯軟件和直播類應(yīng)用。接下來,AV Pipeline 會繼續(xù)完善框架和插件,例如預(yù)置視頻錄制、編輯等業(yè)務(wù)的 Pipeline,還會新增與人像拍攝美化相關(guān)的插件能力。
從 AV Pipeline 在視頻領(lǐng)域新的玩法和探索,可以看到華為在持續(xù)投入大量核心技術(shù),簡化底層開發(fā)繁瑣流程和難點,用以降低智能化音視頻開發(fā)的門檻,這是贏得開發(fā)者的最好契機(jī)。AV Pipeline 的設(shè)計與進(jìn)展,也讓業(yè)界看到,華為正在探索核心場景和痛點的技術(shù)方案,持續(xù)加碼技術(shù)生態(tài)實力,未來可期。