億聯(lián)網(wǎng)絡(luò)產(chǎn)品中心總經(jīng)理廖昀:AI技術(shù)在遠(yuǎn)程會(huì)議中的應(yīng)用

責(zé)任編輯:shjiaz

2023-07-21 15:39:57

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

億聯(lián)網(wǎng)絡(luò)IP&SIP話機(jī)的市場占有率連續(xù)5年全球第一,視頻會(huì)議系統(tǒng)出貨量位居全球前五。億聯(lián)網(wǎng)絡(luò)產(chǎn)品中心總經(jīng)理廖昀以《AI技術(shù)在遠(yuǎn)程會(huì)議中的應(yīng)用》為主題,分享了億聯(lián)網(wǎng)絡(luò)將AI技術(shù)運(yùn)用于視頻會(huì)議領(lǐng)域的探索與實(shí)踐。

由英特爾與企業(yè)網(wǎng)D1Net聯(lián)合主辦的2023英特爾智能邊緣行業(yè)應(yīng)用巡展 • 智慧協(xié)同站于2023年7月18日在北京北辰洲際酒店圓滿結(jié)束。本次活動(dòng)以“邊緣創(chuàng)新 數(shù)智向?qū)?rdquo;為主題,來自英特爾、MAXHUB、海信商顯、億聯(lián)網(wǎng)絡(luò)的企業(yè)代表與眾多大型企業(yè)CIO、信息主管等嘉賓,共同探討了智慧協(xié)同與音視頻會(huì)議的相關(guān)場景、痛點(diǎn)、需求、方案、落地實(shí)踐以及發(fā)展趨勢等熱門話題,助力企業(yè)通過數(shù)字化的智慧協(xié)同解決方案提速增效,以應(yīng)對(duì)未來發(fā)展中的不確定性。

億聯(lián)網(wǎng)絡(luò)產(chǎn)品中心總經(jīng)理 廖昀

億聯(lián)網(wǎng)絡(luò)IP&SIP話機(jī)的市場占有率連續(xù)5年全球第一,視頻會(huì)議系統(tǒng)出貨量位居全球前五。億聯(lián)網(wǎng)絡(luò)產(chǎn)品中心總經(jīng)理廖昀以《AI技術(shù)在遠(yuǎn)程會(huì)議中的應(yīng)用》為主題,分享了億聯(lián)網(wǎng)絡(luò)將AI技術(shù)運(yùn)用于視頻會(huì)議領(lǐng)域的探索與實(shí)踐。

人工智能正在重新定義未來工作,由AI驅(qū)動(dòng)的現(xiàn)代工具有望提高個(gè)人、團(tuán)隊(duì)和組織層面的生產(chǎn)力,并從根本上改變?nèi)藗兊墓ぷ鞣绞?。近年來億聯(lián)網(wǎng)絡(luò)提前布局AI,堅(jiān)持在產(chǎn)品智能化領(lǐng)域進(jìn)行投入創(chuàng)新,并提前搭建了包括算法研發(fā)、工程應(yīng)用、測試調(diào)優(yōu)在內(nèi)的完整的AI技術(shù)團(tuán)隊(duì)。2020年以來,從以人像識(shí)別和語音追蹤為代表的第三代視訊終端,到用AI技術(shù)重寫3A音頻算法,實(shí)現(xiàn)12米穩(wěn)定拾音、AI消噪、AI去混響,重構(gòu)會(huì)議音頻體驗(yàn),億聯(lián)網(wǎng)絡(luò)一直在進(jìn)行前瞻性的AI布局。接下來,億聯(lián)將運(yùn)用AI技術(shù)還原面對(duì)面會(huì)議效果,構(gòu)建沉浸式的會(huì)議體驗(yàn)。

據(jù)悉,億聯(lián)網(wǎng)絡(luò)與微軟正在聯(lián)合研發(fā)SmartVision 60終端新品,該產(chǎn)品搭載了Intel Movidius芯片,通過更強(qiáng)大的AI能力實(shí)現(xiàn)更沉浸、更智能的會(huì)議體驗(yàn)。廖昀表示:伴隨AI技術(shù)在平臺(tái)側(cè)實(shí)現(xiàn)深度應(yīng)用,以及智能終端邊緣AI能力的持續(xù)提升,人工智能技術(shù)正在重塑未來遠(yuǎn)程溝通協(xié)作的體驗(yàn)。

以下是現(xiàn)場速記。

廖昀:大家好,我是來自廈門億聯(lián)網(wǎng)絡(luò)的廖昀,我分享一下我們?cè)诩?xì)分行業(yè)里的應(yīng)用和體會(huì)。最近幾個(gè)月大家知道AI技術(shù)的發(fā)展很快,已經(jīng)在我們的生活和工作中,滲透到了方方面面。在業(yè)務(wù)層面感知到的東西比較少,但是后臺(tái)真正起到了對(duì)企業(yè)效率的提升,起到了很大的促進(jìn)技術(shù)。

人工智能技術(shù)以前是空中樓閣,現(xiàn)在已經(jīng)逐漸落實(shí)到現(xiàn)實(shí)的應(yīng)用當(dāng)中了。在開始今天的分享之前,我想通過一個(gè)視頻來讓大家直觀的感受一下接下來我們的視頻會(huì)議會(huì)發(fā)展到什么程度。

(視頻)

這是微軟前兩年做的demo視頻,還沒商用,希望在2023年,這是在2020年左右推出來的產(chǎn)品概念,現(xiàn)在已經(jīng)落地了,這些體驗(yàn)都可以實(shí)驗(yàn),當(dāng)時(shí)還沒有,只是一個(gè)demo。這是我們過去兩年跟微軟共同想追求打造的一種體驗(yàn),下一代視頻會(huì)議的體驗(yàn),馬上要都入大家會(huì)議室內(nèi)的。

我們和微軟進(jìn)行了產(chǎn)品技術(shù)的聯(lián)合開發(fā),其中包括今天的主場嘉賓英特爾在里面提供了非常多的底層運(yùn)算能力的支撐,里面包括我們用到的MimiPC、X86服務(wù)器,VPU服務(wù)器,在具體產(chǎn)品里我會(huì)介紹到,還有大容量、高并發(fā)、高清視頻帶來的編解碼、GPU卡等等,英特爾在里面發(fā)揮了非常重要的支撐的作用,非常感謝英特爾的支持。

算力的支撐非常重要,以往想做,但是受限于整個(gè)行業(yè)的發(fā)展,很多效果都達(dá)不到。但是由于英特爾在技術(shù)上,在芯片上算力的提升,給我們創(chuàng)造了很大的想象空間,目前還有很大的局限性,這里面期待著摩爾定律能夠再運(yùn)行十幾年,我相信整個(gè)體驗(yàn)會(huì)更上一個(gè)新臺(tái)階。

這是我們從2015年與微軟合作至今,在Teams上先后在云通信上做的產(chǎn)品,這個(gè)已經(jīng)是過去時(shí)了,雖然現(xiàn)在相關(guān)的產(chǎn)品還在銷售,但是它的體驗(yàn)是偏傳統(tǒng)會(huì)議的體驗(yàn),像右邊的MTR產(chǎn)品,英特爾提供的算力支撐。

這是我們即將發(fā)布的一個(gè)重磅產(chǎn)品,叫SmartVision 60,為了實(shí)現(xiàn)剛才demo視頻中演示的場景開發(fā)的產(chǎn)品,耗費(fèi)了很大的精力在這上面,看上去只是攝像頭平平無奇,這里所面臨的視頻、音頻上整個(gè)處理后的,跟原來傳統(tǒng)的視頻會(huì)議設(shè)備已經(jīng)完全不一樣了。

為了實(shí)現(xiàn)剛才視頻會(huì)議里面的體驗(yàn),做了什么?接下來想詳細(xì)分享一下。這里面包括了英特爾的支撐,最大的區(qū)別有兩個(gè)特點(diǎn),首先這是360度的攝像頭,達(dá)到了10K,30幀的分辨率,有13個(gè)麥克風(fēng),分成了兩組,6+1智能語言識(shí)別麥克風(fēng)加上6個(gè)會(huì)議的麥克風(fēng),這兩套音頻是分別處理的,還有智能人像的分割。

第二個(gè)特點(diǎn),這是一款專為承載AI應(yīng)用而做的會(huì)議產(chǎn)品,搭載了英特爾收購的一家公司里面的VPU芯片,總的算力達(dá)到了17T,相當(dāng)于半臺(tái)特斯拉了,大家知道特斯拉上面非常多的攝像頭,它里面有17個(gè)T的算力在里面,主要是為了處理10K,30幀的影像,實(shí)現(xiàn)包括自然人像分割、人像識(shí)別、說話人的識(shí)別、智能語音、實(shí)時(shí)轉(zhuǎn)寫、語音助手這些應(yīng)用,承擔(dān)了非常多的應(yīng)用功能。

畫面上我們看到的是運(yùn)用SmartVision 60實(shí)景開會(huì)的情況,推出一段時(shí)間了,真正發(fā)布會(huì)在這個(gè)月底,8月初。在畫面中我們看到每個(gè)與會(huì)者的畫面都同樣清晰的呈現(xiàn)在上面,并且自動(dòng)跟蹤,不需要導(dǎo)播,全是AI自動(dòng)導(dǎo)播,并且自然的做人像的分割裁切,會(huì)議中的每個(gè)發(fā)言者會(huì)根據(jù)嘴巴的動(dòng)作,聲音識(shí)別到,誰在講,快速切換,給他特寫的畫面。

遠(yuǎn)端入會(huì)者可以更準(zhǔn)確的分辨當(dāng)前誰在說話,有什么表情,尤其在一個(gè)會(huì)議室里有很多人的時(shí)候,傳統(tǒng)視頻會(huì)像監(jiān)控一樣,搞不清楚是哪邊來的,這里就像智能導(dǎo)播一樣,從人臉到檢測、跟蹤、識(shí)別還有其他動(dòng)作分析等等,AI攝像頭就帶來了這種體驗(yàn)上非常明顯的提升。

在會(huì)議場景下AI衍生出了很多行業(yè)里的應(yīng)用名詞,還有真實(shí)人像加上虛擬場景的應(yīng)用。這些都是在AI算法跟新技術(shù)的加持下才能做的,以往的視頻會(huì)議終端完全不具備這個(gè)能力。遠(yuǎn)程會(huì)議中人與人之間的溝通就會(huì)變得更加自然,這就是剛才講的虛擬場景下加上真實(shí)的人像,從概念上來說也是一種AI視頻會(huì)議體驗(yàn)的落地。

我們大部分人可能都用過PC視頻會(huì)議軟件,也有替換背景的功能,但是其實(shí)替換的是單個(gè)人像加固定背景,在這里要把同一個(gè)會(huì)議室的多個(gè)人像放在不同位置上,這個(gè)算力上的支持要求更大,是呈幾何級(jí)倍數(shù)的上升。

目前還在解決的一個(gè)挑戰(zhàn),不同人看起來大小不一樣,不太自然,沒有真正融合在場景里,這是我們現(xiàn)在要解決的一個(gè)問題。技術(shù)路徑其實(shí)已經(jīng)有了,無非是再加一道,把人像摳出來再做一次處理,但是算力不夠,17T哪天能變成170T的時(shí)候就可以做這個(gè)事情了。剛才英特爾謝總提到了最終都是算力的問題,只要算力足夠,可以有非常大的想象空間,我們終端上也可以實(shí)現(xiàn)更加智能的體驗(yàn)。

內(nèi)置了很多場景,也有圓桌的,圓桌最大的挑戰(zhàn)就是方向性的,因?yàn)樽谝粋€(gè)會(huì)議桌前有人朝這兒,有人朝那兒,我們想取不同方向上,確保他看起來一直朝著前面,因?yàn)槲覀冮_會(huì)的時(shí)候可能會(huì)有一些開小差的時(shí)候,如果能把這些提取出來,生成一個(gè)虛擬的人像,其實(shí)也不是虛擬的,只是記錄下來,訓(xùn)練了,替代你這個(gè)過程,甚至你打個(gè)哈欠也不擔(dān)心被遠(yuǎn)端看到,幫你過濾掉這些你不想傳遞出去的畫面,這都有賴于算力的提升,我想過一兩年,在會(huì)議中的這些功能應(yīng)該都可以實(shí)現(xiàn)。

遠(yuǎn)程會(huì)議中對(duì)視頻圖像的實(shí)時(shí)性要求很高,很多行業(yè)里的應(yīng)用里對(duì)實(shí)時(shí)性沒有特別多的要求,但是在會(huì)議中就面臨著很大的挑戰(zhàn),不光是超高清,到4K、8K,對(duì)實(shí)時(shí)性要求越來越高。這就帶來了海量數(shù)據(jù)的運(yùn)算,尤其在大會(huì)議室中,在視頻行業(yè)里沒有哪個(gè)行業(yè)說做到4K,30幀,并且?guī)装俜綍?huì)議,這里還存在網(wǎng)絡(luò)傳輸、運(yùn)算上巨大的困難。

在智能終端上進(jìn)行邊緣計(jì)算就是一個(gè)很好的技術(shù)路徑,因?yàn)榉?wù)端跟傳輸上非常難以承載這么大的數(shù)據(jù)量。我是非常支持英特爾剛才提到的邊緣計(jì)算今天這個(gè)主題的,這個(gè)技術(shù)路徑對(duì)我們構(gòu)建整套解決方案,再往前推進(jìn)一步是非常有利的,我們?cè)诮K端上越來越多的投入資源實(shí)現(xiàn)更多的東西,結(jié)合服務(wù)端的應(yīng)用,盡量減輕服務(wù)端的應(yīng)用。

視頻會(huì)議的邊緣計(jì)算除了剛才所介紹的視頻圖像方面的應(yīng)用,其實(shí)在音頻方面也起到了非常重要的作用,在以往的視頻會(huì)議中我們覺得音頻很簡單,把聲音做一些降噪就可以了,但是實(shí)際上在整個(gè)會(huì)議過程中它是最大的瓶頸,圖像方面還好說,有清晰的技術(shù)發(fā)展路徑,但是在音頻上遇到很大的挑戰(zhàn),因?yàn)槿说亩鋸膭偛盘┛档母呖傉f到,分享過相關(guān)的在聽覺上面,在生物學(xué)上,在醫(yī)學(xué)上還沒搞清楚人的聽覺為什么這么靈敏,可以在很嘈雜的菜市場里兩個(gè)人無障礙的交流,如果放在視頻會(huì)議里這么炒,遠(yuǎn)端沒法聽,人耳有非常強(qiáng)的消噪的能力,我們也想追求在會(huì)議視頻的設(shè)備商怎么達(dá)到人耳降噪的體驗(yàn),增強(qiáng)人聲清晰度的體驗(yàn),所以在這里也非常有賴于AI技術(shù)的應(yīng)用,雖然看起來都是全向的麥克風(fēng),定向的麥克風(fēng),現(xiàn)在AI技術(shù)已經(jīng)逐漸在音頻上發(fā)揮作用了。

這其中就包括剛才介紹的SmartVision 60這個(gè)產(chǎn)品里,我們?yōu)槭裁匆玫?3個(gè)麥克風(fēng)也是這個(gè)原因,通過陣列麥克風(fēng)加上AI算法,我們盡量模擬人聽覺神經(jīng)的特點(diǎn),識(shí)別出噪音跟人聲音的特點(diǎn),做訓(xùn)練,把會(huì)議中遇到的非人聲,比如說咳嗽聲音、椅子聲音、鍵盤聲音等等濾除掉,并且把混響的聲音特點(diǎn)做還原增強(qiáng),減輕混響的影響,有效的增強(qiáng)含有有效信息的人聲。

在前端采集了以后,通過AI技術(shù)處理增強(qiáng)有效的人聲之后,就為下一步AI的語音處理,我們所見到的實(shí)時(shí)ASR語音轉(zhuǎn)寫,多語言翻譯,聲紋識(shí)別,這都是在前端語音增強(qiáng)之后后端能做好的應(yīng)用,相信有一些大的企業(yè)已經(jīng)用實(shí)時(shí)字幕功能了,發(fā)現(xiàn)經(jīng)常會(huì)識(shí)別錯(cuò)亂,準(zhǔn)確率不高,并不是因?yàn)锳SR服務(wù)器算法不高,其實(shí)準(zhǔn)確已經(jīng)挺高了,像國內(nèi)的科大訊飛、微軟做的產(chǎn)品,包括阿里云做的產(chǎn)品,應(yīng)該都達(dá)到95%以上的準(zhǔn)確性了,但是可能因?yàn)榍岸瞬杉男Ч缓茫旁氡群艿?,語音增強(qiáng)的不夠好,準(zhǔn)確率就降到百分之七八十了,在前端設(shè)備上做AI語音是非常有意義的。

從個(gè)人角度來講我非常喜歡演講者追蹤這個(gè)功能,就是結(jié)合了精準(zhǔn)語音的定位,通過多個(gè)麥克風(fēng)陣列做DOA識(shí)別、唇動(dòng)識(shí)別,無論你走到哪里都可以實(shí)時(shí)追蹤到,讓發(fā)言人始終處于C位。這個(gè)就是視頻終端在音頻+視頻AI處理方面,結(jié)合起來的小功能。

除了以上介紹的終端側(cè)AI技術(shù)應(yīng)用,在服務(wù)端也存在著巨大的AI應(yīng)用價(jià)值,幫助我們提升關(guān)于會(huì)議內(nèi)容方面的工作效率。最典型的莫過于今年2月初微軟宣布把ChatGPT給集成到Teams里面,還發(fā)布了高級(jí)版的Teams應(yīng)用,相當(dāng)于是一個(gè)高級(jí)的智能秘書了。ChatGPT發(fā)布了以后更加智能了,之前只是轉(zhuǎn)寫。它可以幫助發(fā)起會(huì)議,邀請(qǐng)聯(lián)系人,還有會(huì)議中自動(dòng)跟進(jìn)與會(huì)人員的情況去做會(huì)議的控制,自動(dòng)生成會(huì)議紀(jì)要,多語言翻譯,最典型的會(huì)議中的痛點(diǎn)是幫幾十多個(gè)人開會(huì)的時(shí)候,有人沒有關(guān)麥克風(fēng)很吵,智能秘書在的話就發(fā)現(xiàn)那邊的噪音干擾了會(huì)議,自動(dòng)給它靜音到,這是一個(gè)后臺(tái),我們看不見的智能秘書。

更進(jìn)一步的,在一個(gè)企業(yè)或者組織內(nèi),我們通常會(huì)沉淀很多文檔、音視頻數(shù)據(jù)、郵件等等資料,在會(huì)議中討論到內(nèi)容的時(shí)候,如果能關(guān)聯(lián)到那些資料,能夠?qū)崟r(shí)調(diào)取出來,這是非常有幫助的,這項(xiàng)功能,ChatGPT這些大模型在服務(wù)端能把數(shù)據(jù)喂給它進(jìn)行訓(xùn)練,以后開個(gè)部門例會(huì),回顧某個(gè)客戶提到的某個(gè)需求,可以自動(dòng)的將公司內(nèi)幾十上百TB的數(shù)據(jù),幾秒鐘內(nèi)快速的給你找出來,告訴你有這些參考資料。想象一下,這個(gè)對(duì)我們經(jīng)常開會(huì)的人來說非常有幫助,尤其當(dāng)團(tuán)隊(duì)內(nèi)有新人加入的時(shí)候,如果有這種體驗(yàn),對(duì)新人熟悉業(yè)務(wù),融入團(tuán)隊(duì)非常有幫助。

今天時(shí)間有限,在這方面平臺(tái)側(cè)的AI應(yīng)用就不展開深入探討了,總的來說隨著AI技術(shù)的發(fā)展,平臺(tái)AI技術(shù)側(cè)的應(yīng)用,加上智能終端的邊緣AI能力提升,人工智能技術(shù)正在重塑我們未來遠(yuǎn)程溝通協(xié)作的體驗(yàn),再過兩三年就會(huì)在大家的日常會(huì)議中得到感受和普及,當(dāng)前還在性價(jià)比的一個(gè)問題,包括剛才做的SmartVision 60,這么強(qiáng)大的算力和功能很美好,但是真的很貴,但是這都不是問題,隨著技術(shù)的發(fā)展,我覺得價(jià)格這方面會(huì)越來越親民的。

最后也打個(gè)廣告,向大家簡要介紹一下億聯(lián)網(wǎng)絡(luò),億聯(lián)網(wǎng)絡(luò)以前95%以上業(yè)務(wù)都是海外,國內(nèi)市場基本上沒投什么市場和人力資源,但是隨著近幾年國內(nèi)市場的發(fā)展,我們也組建了國內(nèi)營銷團(tuán)隊(duì),產(chǎn)品方案上也針對(duì)國內(nèi)市場國產(chǎn)化、信創(chuàng),包括億聯(lián)也是信創(chuàng)委員會(huì)單位之一,加大國內(nèi)市場的投入,目前在國內(nèi)市場也在逐漸發(fā)展起來。國內(nèi)的市場整個(gè)產(chǎn)品跟生態(tài),跟海外差別很大,隨著2017年億聯(lián)上市,開始在組織上、資源上有足夠的支撐,國內(nèi)也開始重視起來了。

先從幾個(gè)數(shù)字開始了解億聯(lián)吧,億聯(lián)是專注于統(tǒng)一通信,2001年成立,已經(jīng)做了22年,一直在做通信相關(guān)的產(chǎn)品,從最早的IP電話語音解決方案,到現(xiàn)在視頻會(huì)議的產(chǎn)品,融合通信的平臺(tái)產(chǎn)品。億聯(lián)是微軟Teams研究會(huì)很重要的合作伙伴,IP電話傳統(tǒng)的產(chǎn)品線已經(jīng)保持了很多年了,五六年了全球市場占有率第一,視頻會(huì)議的觸發(fā)量在去年達(dá)到了全球第五,國內(nèi)億聯(lián)和華為進(jìn)入了Top5。第三個(gè)產(chǎn)品是云辦公產(chǎn)品,隨著云視訊的發(fā)展我們啟動(dòng)了第三個(gè)產(chǎn)品線,三個(gè)增長曲線,主要是一些外設(shè)終端的產(chǎn)品。

億聯(lián)網(wǎng)絡(luò)是一家提供完整音視頻協(xié)作解決方案的廠商,不僅是單純的終端,幫助客戶提升溝通協(xié)作的效率。具體的產(chǎn)品解決方案會(huì)包括視頻會(huì)議、語音通信、會(huì)議協(xié)作、智慧辦公,剛才幾位友商也分享過在智慧會(huì)議室場景方面,億聯(lián)也是這樣的理念,從終端到平臺(tái)和整個(gè)辦公空間的管理,整體的解決方案。

同時(shí)通過過硬的產(chǎn)品技術(shù)以及在海外市場取得的市場地位,讓億聯(lián)也成為了國內(nèi)第一家跟微軟建立了全球戰(zhàn)略合作的企業(yè)。核心是在音視頻方面設(shè)備上,微軟提供Teams平臺(tái)的能力,億聯(lián)提供全場景的各種終端。除此以外我們也與英特爾、Zoom、騰訊云、釘釘?shù)阮^部企業(yè)開展了深度合作,為各行各業(yè)提供視頻會(huì)議的創(chuàng)新產(chǎn)品。

億聯(lián)的產(chǎn)品技術(shù)方案是整體概述在這張圖上的,我們稱為智慧辦公的全能力,其中包括平臺(tái)和各種場景下終端的全套解決方案,其中平臺(tái)包括公有云的平臺(tái)還有純私有化的平臺(tái),包括把公有云和私有化平臺(tái)打通融合云的產(chǎn)品。還有混合云的產(chǎn)品,在私有化或者在云上下沉或者上浮它的節(jié)點(diǎn)。除了這些產(chǎn)品,終端方面還有今天分享的,剛才所展示的視頻會(huì)議終端,延伸覆蓋了會(huì)議室場景的各種設(shè)備,比如說會(huì)議室門牌,傳感器,辦公空間IoT管理,以及配套的信息發(fā)布和IoT管理平臺(tái)。整體上我們的目標(biāo)是為客戶提供溝通協(xié)作的全場景方案,除了通信系統(tǒng)還為會(huì)議室空間、企業(yè)辦公空間提供會(huì)前、會(huì)中、會(huì)后,包括知識(shí)管理的整套產(chǎn)品。

明天到Infocomm期間我們也在C館CC4—01展位有最新的產(chǎn)品解決方案展示出來,歡迎大家明天過去體驗(yàn),謝謝大家。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)