在近日舉辦的多媒體技術(shù)峰會(huì)LiveVideoStackCon2019上,金山云技術(shù)總監(jiān)蔡媛發(fā)表了《集智高清-以低帶寬成本獲取高清畫質(zhì)體驗(yàn)》的主題分享,為這一問題帶來了解決方案,能夠以低帶寬成本獲取高清畫質(zhì)體驗(yàn)的云轉(zhuǎn)碼服務(wù)——集智高清。在演講中,蔡媛深刻詮釋了金山云集智高清在碼率節(jié)省上的重大突破,并分享了多種視覺AI及編碼技術(shù),同時(shí)深入剖析集智高清的AI算法架構(gòu),包括如何使用全局去噪網(wǎng)絡(luò)及局部去噪網(wǎng)絡(luò)等深度學(xué)習(xí)算法修復(fù)并增強(qiáng)視頻畫質(zhì),并通過引出客觀評(píng)測(cè)視頻畫質(zhì)評(píng)測(cè)平臺(tái)KQoE,為與會(huì)者帶來了一場(chǎng)干貨滿滿的技術(shù)專題分享。
金山云技術(shù)總監(jiān)蔡媛在LiveVideoStackCon 2019發(fā)表演講
5G序幕開啟,AI加持構(gòu)建極致云轉(zhuǎn)碼解決方案
近年來,隨著互聯(lián)網(wǎng)技術(shù)的飛速演進(jìn),4K高清、VR視頻、直播互動(dòng)等更加多元化的音視頻形態(tài),對(duì)于網(wǎng)絡(luò)帶寬傳輸效率提出了更高挑戰(zhàn)。從1994年第一代視頻編碼標(biāo)準(zhǔn)MPEG-2推出,到2013年第三代標(biāo)準(zhǔn)HEVC/H.265 AVS2的升級(jí),雖然壓縮效率每10年增長(zhǎng)約一倍,然而帶寬的增長(zhǎng)永遠(yuǎn)趕不上業(yè)務(wù)的需要,更加高效的音視頻傳輸效率,始終是擺在音視頻行業(yè)技術(shù)從業(yè)者們面前的難題。
“金山云基于對(duì)用戶需求的深刻洞察,推出了能夠以低帶寬成本獲取高清畫質(zhì)體驗(yàn)的云轉(zhuǎn)碼服務(wù)——集智高清,通過自研算法,整合AI、編碼、圖像處理等多種技術(shù),融合深度神經(jīng)網(wǎng)絡(luò)對(duì)視頻畫面內(nèi)容進(jìn)行感知,優(yōu)化主觀體驗(yàn)和智能調(diào)節(jié)編碼,對(duì)視頻進(jìn)行畫質(zhì)增強(qiáng),提升視覺效果,適配更高清屏幕,帶來更好視覺感受的同時(shí),還可幫助客戶節(jié)省50%視頻傳輸帶寬,廣泛適用于絕大部分視頻場(chǎng)景,”蔡媛介紹到,“通過對(duì)視頻進(jìn)行內(nèi)容分類、質(zhì)量對(duì)比和內(nèi)容分割,匹配視頻處理工具包,滿足用戶對(duì)超清視頻畫質(zhì)和流暢播放體驗(yàn)的追求,同時(shí)大幅降低視頻運(yùn)營(yíng)商的帶寬成本壓力。”
金山云集智高清云轉(zhuǎn)碼服務(wù)架構(gòu)示意圖
在內(nèi)容分類方面,通過識(shí)別網(wǎng)絡(luò)對(duì)視頻場(chǎng)景和復(fù)雜度進(jìn)行兩層分類,適配更佳的畫質(zhì)提升和壓縮效果,目前已廣泛支持包括綜藝、游戲、秀場(chǎng)、影視、體育等視頻場(chǎng)景;在質(zhì)量對(duì)比方面,從色彩飽和度、對(duì)比度、噪聲、清晰度等角度,對(duì)輸入視頻的客觀質(zhì)量進(jìn)行實(shí)時(shí)監(jiān)測(cè)和分析,并輸出質(zhì)量得分,作為視頻處理工具參數(shù)調(diào)節(jié)的參考;在內(nèi)容分割方面,通過ROI區(qū)域檢測(cè),先將每幀的視頻內(nèi)容分層,再將視頻畫面的主體和背景根據(jù)人眼視覺特性做差異化處理,使得主體更加突出,背景更加純凈,將視頻內(nèi)容畫質(zhì)增強(qiáng)處理的更加精細(xì)化。最后,匹配金山云提供的AI深度學(xué)習(xí)視頻處理工具包,該工具包由超分辨率、去噪、去模糊、銳化、對(duì)比度增強(qiáng)等多個(gè)算法模塊組成,各處理工具可靈活組合,適用多種視頻損失,有效進(jìn)行視頻畫質(zhì)增強(qiáng)。
為了更加直觀地展現(xiàn)圖像、視頻轉(zhuǎn)碼前后的效果,金山云推出了KQoE平臺(tái),旨在為有圖像、視頻效果評(píng)測(cè)需求的客戶提供高效易用的評(píng)測(cè)平臺(tái),以更專業(yè)的評(píng)測(cè)平臺(tái)能力提升圖像/視頻評(píng)測(cè)效率。
創(chuàng)新算法框架,助推服務(wù)端編碼技術(shù)優(yōu)化
為了滿足多樣化的視頻種類處理需求,集智高清的算法框架,主要由視頻分析器(Video Analyzer)以及圖像處理器(Image Processor)兩個(gè)模塊組成,在處理流程上,視頻分析器以視頻種類、視頻質(zhì)量、ROI區(qū)域進(jìn)行計(jì)算,視頻處理器則會(huì)根據(jù)分析結(jié)果以及輸入的處理策略進(jìn)行視頻預(yù)處理,然后再送入編碼器進(jìn)行編碼,完成整個(gè)編碼過程。云轉(zhuǎn)碼的優(yōu)勢(shì)在于場(chǎng)景中有著足夠多的算力,相對(duì)于端上編碼,能夠很好地應(yīng)對(duì)對(duì)處理性能的需求。
云轉(zhuǎn)碼方案中,編碼目標(biāo)函數(shù)的優(yōu)化是其中的關(guān)鍵。“對(duì)于云轉(zhuǎn)碼來說,場(chǎng)景和采集端不同,其目標(biāo)函數(shù)需要進(jìn)行優(yōu)化。初級(jí)優(yōu)化即試圖利用網(wǎng)絡(luò)對(duì)失真圖像進(jìn)行處理,嘗試恢復(fù)出原始圖像,但是這樣做往往容易造成過平滑,因此需要進(jìn)一步對(duì)L2 loss進(jìn)行優(yōu)化,”蔡媛介紹到,“對(duì)此,我們改進(jìn)目標(biāo)函數(shù)的思路是,除了L2 loss外,需要加入Perceptual loss和GAN中的判別器loss,通過調(diào)整?來達(dá)到真實(shí)業(yè)務(wù)需求的最優(yōu)效果。”
編碼目標(biāo)函數(shù)效果示意圖
接下來,蔡媛重點(diǎn)介紹了圖像處理模塊中的去噪模塊,分別從針對(duì)背景大塊區(qū)域的全局去噪網(wǎng)絡(luò)和針對(duì)人臉區(qū)域的局部(人臉)去噪網(wǎng)絡(luò)兩方面展開進(jìn)行了解讀。“全局去噪網(wǎng)絡(luò)需要保證網(wǎng)絡(luò)足夠輕量級(jí),甚至達(dá)到1080p@25實(shí)時(shí)處理,考慮要讓模型適應(yīng)不同類型、不同強(qiáng)度噪聲,我們最終基于Memory Network的理念設(shè)計(jì)了網(wǎng)絡(luò)模型的主干網(wǎng)絡(luò),”蔡媛講到,“人臉在視頻中關(guān)注度很高,由于人臉的像素?cái)?shù)遠(yuǎn)小于整個(gè)視頻的分辨率,因此局部(人臉)去噪網(wǎng)絡(luò)的設(shè)計(jì)不需要為算法復(fù)雜度所限制。另外由于人臉存在很強(qiáng)的先驗(yàn)知識(shí),因此需要采用更加特殊的設(shè)計(jì)才能更完整的挖掘這些先驗(yàn)知識(shí)。我們訓(xùn)練了帶多尺度判別器的GAN版本,經(jīng)測(cè)試驗(yàn)證,在修復(fù)人臉的基礎(chǔ)上,它能對(duì)繼續(xù)對(duì)人臉進(jìn)行細(xì)節(jié)增強(qiáng),進(jìn)一步提升處理后的主觀效果。”
全維度能力升級(jí),構(gòu)建面向未來的智能視頻云平臺(tái)
金山云集智高清致力于提供專業(yè)的云轉(zhuǎn)碼服務(wù),以低帶寬成本獲取高清畫質(zhì)體驗(yàn),方案在易用性、可靠性和可擴(kuò)展性方面具備獨(dú)特優(yōu)勢(shì)。通過提供易用的轉(zhuǎn)碼控制臺(tái)以及豐富的客戶端SDK、服務(wù)可用性不低于99.9%、可快速為用戶定制優(yōu)化場(chǎng)景等服務(wù)能力,幫助客戶極大降低成本,提升用戶觀看體驗(yàn)。
圍繞人眼結(jié)構(gòu)特性,金山云的集智高清產(chǎn)品正試圖將編碼、圖像處理和AI整合,基于深度神經(jīng)網(wǎng)絡(luò)的畫質(zhì)增強(qiáng)技術(shù),對(duì)視頻內(nèi)容進(jìn)行感知,明顯提升了主觀效果和客觀指標(biāo),帶來更好的視覺感受。
“我們希望集智高清能夠成為視頻行業(yè)的加速器,為客戶的業(yè)務(wù)運(yùn)營(yíng)和行業(yè)的技術(shù)發(fā)展貢獻(xiàn)力量,”蔡媛表示,金山云作為視頻云服務(wù)的領(lǐng)軍企業(yè),將持續(xù)投入技術(shù)研發(fā),通過更加高效的產(chǎn)品和解決方案,幫助客戶更好應(yīng)對(duì)移動(dòng)視頻日益復(fù)雜多樣的場(chǎng)景和需求,給終端用戶帶來更好的視覺感受。