2019中文字幕久久精品,69久久国产精品视频,2020精品视频不卡

億聯(lián)網(wǎng)絡(luò)產(chǎn)品中心總經(jīng)理廖昀：AI技術(shù)在遠(yuǎn)程會(huì)議中的應(yīng)用

責(zé)任編輯：shjiaz

2023-07-21 15:39:57

來源：企業(yè)網(wǎng)D1Net

原創(chuàng)

億聯(lián)網(wǎng)絡(luò)IP&SIP話機(jī)的市場占有率連續(xù)5年全球第一，視頻會(huì)議系統(tǒng)出貨量位居全球前五。億聯(lián)網(wǎng)絡(luò)產(chǎn)品中心總經(jīng)理廖昀以《AI技術(shù)在遠(yuǎn)程會(huì)議中的應(yīng)用》為主題，分享了億聯(lián)網(wǎng)絡(luò)將AI技術(shù)運(yùn)用于視頻會(huì)議領(lǐng)域的探索與實(shí)踐。

由英特爾與企業(yè)網(wǎng)D1Net聯(lián)合主辦的2023英特爾智能邊緣行業(yè)應(yīng)用巡展 • 智慧協(xié)同站于2023年7月18日在北京北辰洲際酒店圓滿結(jié)束。本次活動(dòng)以“邊緣創(chuàng)新數(shù)智向?qū)?rdquo;為主題，來自英特爾、MAXHUB、海信商顯、億聯(lián)網(wǎng)絡(luò)的企業(yè)代表與眾多大型企業(yè)CIO、信息主管等嘉賓，共同探討了智慧協(xié)同與音視頻會(huì)議的相關(guān)場景、痛點(diǎn)、需求、方案、落地實(shí)踐以及發(fā)展趨勢等熱門話題，助力企業(yè)通過數(shù)字化的智慧協(xié)同解決方案提速增效，以應(yīng)對(duì)未來發(fā)展中的不確定性。

億聯(lián)網(wǎng)絡(luò)產(chǎn)品中心總經(jīng)理廖昀

人工智能正在重新定義未來工作，由AI驅(qū)動(dòng)的現(xiàn)代工具有望提高個(gè)人、團(tuán)隊(duì)和組織層面的生產(chǎn)力，并從根本上改變?nèi)藗兊墓ぷ鞣绞?。近年來億聯(lián)網(wǎng)絡(luò)提前布局AI，堅(jiān)持在產(chǎn)品智能化領(lǐng)域進(jìn)行投入創(chuàng)新，并提前搭建了包括算法研發(fā)、工程應(yīng)用、測試調(diào)優(yōu)在內(nèi)的完整的AI技術(shù)團(tuán)隊(duì)。2020年以來，從以人像識(shí)別和語音追蹤為代表的第三代視訊終端，到用AI技術(shù)重寫3A音頻算法，實(shí)現(xiàn)12米穩(wěn)定拾音、AI消噪、AI去混響，重構(gòu)會(huì)議音頻體驗(yàn)，億聯(lián)網(wǎng)絡(luò)一直在進(jìn)行前瞻性的AI布局。接下來，億聯(lián)將運(yùn)用AI技術(shù)還原面對(duì)面會(huì)議效果，構(gòu)建沉浸式的會(huì)議體驗(yàn)。

據(jù)悉，億聯(lián)網(wǎng)絡(luò)與微軟正在聯(lián)合研發(fā)SmartVision 60終端新品，該產(chǎn)品搭載了Intel Movidius芯片，通過更強(qiáng)大的AI能力實(shí)現(xiàn)更沉浸、更智能的會(huì)議體驗(yàn)。廖昀表示：伴隨AI技術(shù)在平臺(tái)側(cè)實(shí)現(xiàn)深度應(yīng)用，以及智能終端邊緣AI能力的持續(xù)提升，人工智能技術(shù)正在重塑未來遠(yuǎn)程溝通協(xié)作的體驗(yàn)。

以下是現(xiàn)場速記。

廖昀：大家好，我是來自廈門億聯(lián)網(wǎng)絡(luò)的廖昀，我分享一下我們?cè)诩?xì)分行業(yè)里的應(yīng)用和體會(huì)。最近幾個(gè)月大家知道AI技術(shù)的發(fā)展很快，已經(jīng)在我們的生活和工作中，滲透到了方方面面。在業(yè)務(wù)層面感知到的東西比較少，但是后臺(tái)真正起到了對(duì)企業(yè)效率的提升，起到了很大的促進(jìn)技術(shù)。

人工智能技術(shù)以前是空中樓閣，現(xiàn)在已經(jīng)逐漸落實(shí)到現(xiàn)實(shí)的應(yīng)用當(dāng)中了。在開始今天的分享之前，我想通過一個(gè)視頻來讓大家直觀的感受一下接下來我們的視頻會(huì)議會(huì)發(fā)展到什么程度。

(視頻)

這是微軟前兩年做的demo視頻，還沒商用，希望在2023年，這是在2020年左右推出來的產(chǎn)品概念，現(xiàn)在已經(jīng)落地了，這些體驗(yàn)都可以實(shí)驗(yàn)，當(dāng)時(shí)還沒有，只是一個(gè)demo。這是我們過去兩年跟微軟共同想追求打造的一種體驗(yàn)，下一代視頻會(huì)議的體驗(yàn)，馬上要都入大家會(huì)議室內(nèi)的。

我們和微軟進(jìn)行了產(chǎn)品技術(shù)的聯(lián)合開發(fā)，其中包括今天的主場嘉賓英特爾在里面提供了非常多的底層運(yùn)算能力的支撐，里面包括我們用到的MimiPC、X86服務(wù)器，VPU服務(wù)器，在具體產(chǎn)品里我會(huì)介紹到，還有大容量、高并發(fā)、高清視頻帶來的編解碼、GPU卡等等，英特爾在里面發(fā)揮了非常重要的支撐的作用，非常感謝英特爾的支持。

算力的支撐非常重要，以往想做，但是受限于整個(gè)行業(yè)的發(fā)展，很多效果都達(dá)不到。但是由于英特爾在技術(shù)上，在芯片上算力的提升，給我們創(chuàng)造了很大的想象空間，目前還有很大的局限性，這里面期待著摩爾定律能夠再運(yùn)行十幾年，我相信整個(gè)體驗(yàn)會(huì)更上一個(gè)新臺(tái)階。

這是我們從2015年與微軟合作至今，在Teams上先后在云通信上做的產(chǎn)品，這個(gè)已經(jīng)是過去時(shí)了，雖然現(xiàn)在相關(guān)的產(chǎn)品還在銷售，但是它的體驗(yàn)是偏傳統(tǒng)會(huì)議的體驗(yàn)，像右邊的MTR產(chǎn)品，英特爾提供的算力支撐。

這是我們即將發(fā)布的一個(gè)重磅產(chǎn)品，叫SmartVision 60，為了實(shí)現(xiàn)剛才demo視頻中演示的場景開發(fā)的產(chǎn)品，耗費(fèi)了很大的精力在這上面，看上去只是攝像頭平平無奇，這里所面臨的視頻、音頻上整個(gè)處理后的，跟原來傳統(tǒng)的視頻會(huì)議設(shè)備已經(jīng)完全不一樣了。

為了實(shí)現(xiàn)剛才視頻會(huì)議里面的體驗(yàn)，做了什么?接下來想詳細(xì)分享一下。這里面包括了英特爾的支撐，最大的區(qū)別有兩個(gè)特點(diǎn)，首先這是360度的攝像頭，達(dá)到了10K，30幀的分辨率，有13個(gè)麥克風(fēng)，分成了兩組，6+1智能語言識(shí)別麥克風(fēng)加上6個(gè)會(huì)議的麥克風(fēng)，這兩套音頻是分別處理的，還有智能人像的分割。

第二個(gè)特點(diǎn)，這是一款專為承載AI應(yīng)用而做的會(huì)議產(chǎn)品，搭載了英特爾收購的一家公司里面的VPU芯片，總的算力達(dá)到了17T，相當(dāng)于半臺(tái)特斯拉了，大家知道特斯拉上面非常多的攝像頭，它里面有17個(gè)T的算力在里面，主要是為了處理10K，30幀的影像，實(shí)現(xiàn)包括自然人像分割、人像識(shí)別、說話人的識(shí)別、智能語音、實(shí)時(shí)轉(zhuǎn)寫、語音助手這些應(yīng)用，承擔(dān)了非常多的應(yīng)用功能。

畫面上我們看到的是運(yùn)用SmartVision 60實(shí)景開會(huì)的情況，推出一段時(shí)間了，真正發(fā)布會(huì)在這個(gè)月底，8月初。在畫面中我們看到每個(gè)與會(huì)者的畫面都同樣清晰的呈現(xiàn)在上面，并且自動(dòng)跟蹤，不需要導(dǎo)播，全是AI自動(dòng)導(dǎo)播，并且自然的做人像的分割裁切，會(huì)議中的每個(gè)發(fā)言者會(huì)根據(jù)嘴巴的動(dòng)作，聲音識(shí)別到，誰在講，快速切換，給他特寫的畫面。

遠(yuǎn)端入會(huì)者可以更準(zhǔn)確的分辨當(dāng)前誰在說話，有什么表情，尤其在一個(gè)會(huì)議室里有很多人的時(shí)候，傳統(tǒng)視頻會(huì)像監(jiān)控一樣，搞不清楚是哪邊來的，這里就像智能導(dǎo)播一樣，從人臉到檢測、跟蹤、識(shí)別還有其他動(dòng)作分析等等，AI攝像頭就帶來了這種體驗(yàn)上非常明顯的提升。

在會(huì)議場景下AI衍生出了很多行業(yè)里的應(yīng)用名詞，還有真實(shí)人像加上虛擬場景的應(yīng)用。這些都是在AI算法跟新技術(shù)的加持下才能做的，以往的視頻會(huì)議終端完全不具備這個(gè)能力。遠(yuǎn)程會(huì)議中人與人之間的溝通就會(huì)變得更加自然，這就是剛才講的虛擬場景下加上真實(shí)的人像，從概念上來說也是一種AI視頻會(huì)議體驗(yàn)的落地。

我們大部分人可能都用過PC視頻會(huì)議軟件，也有替換背景的功能，但是其實(shí)替換的是單個(gè)人像加固定背景，在這里要把同一個(gè)會(huì)議室的多個(gè)人像放在不同位置上，這個(gè)算力上的支持要求更大，是呈幾何級(jí)倍數(shù)的上升。

目前還在解決的一個(gè)挑戰(zhàn)，不同人看起來大小不一樣，不太自然，沒有真正融合在場景里，這是我們現(xiàn)在要解決的一個(gè)問題。技術(shù)路徑其實(shí)已經(jīng)有了，無非是再加一道，把人像摳出來再做一次處理，但是算力不夠，17T哪天能變成170T的時(shí)候就可以做這個(gè)事情了。剛才英特爾謝總提到了最終都是算力的問題，只要算力足夠，可以有非常大的想象空間，我們終端上也可以實(shí)現(xiàn)更加智能的體驗(yàn)。

內(nèi)置了很多場景，也有圓桌的，圓桌最大的挑戰(zhàn)就是方向性的，因?yàn)樽谝粋€(gè)會(huì)議桌前有人朝這兒，有人朝那兒，我們想取不同方向上，確保他看起來一直朝著前面，因?yàn)槲覀冮_會(huì)的時(shí)候可能會(huì)有一些開小差的時(shí)候，如果能把這些提取出來，生成一個(gè)虛擬的人像，其實(shí)也不是虛擬的，只是記錄下來，訓(xùn)練了，替代你這個(gè)過程，甚至你打個(gè)哈欠也不擔(dān)心被遠(yuǎn)端看到，幫你過濾掉這些你不想傳遞出去的畫面，這都有賴于算力的提升，我想過一兩年，在會(huì)議中的這些功能應(yīng)該都可以實(shí)現(xiàn)。

遠(yuǎn)程會(huì)議中對(duì)視頻圖像的實(shí)時(shí)性要求很高，很多行業(yè)里的應(yīng)用里對(duì)實(shí)時(shí)性沒有特別多的要求，但是在會(huì)議中就面臨著很大的挑戰(zhàn)，不光是超高清，到4K、8K，對(duì)實(shí)時(shí)性要求越來越高。這就帶來了海量數(shù)據(jù)的運(yùn)算，尤其在大會(huì)議室中，在視頻行業(yè)里沒有哪個(gè)行業(yè)說做到4K，30幀，并且?guī)装俜綍?huì)議，這里還存在網(wǎng)絡(luò)傳輸、運(yùn)算上巨大的困難。

在智能終端上進(jìn)行邊緣計(jì)算就是一個(gè)很好的技術(shù)路徑，因?yàn)榉?wù)端跟傳輸上非常難以承載這么大的數(shù)據(jù)量。我是非常支持英特爾剛才提到的邊緣計(jì)算今天這個(gè)主題的，這個(gè)技術(shù)路徑對(duì)我們構(gòu)建整套解決方案，再往前推進(jìn)一步是非常有利的，我們?cè)诮K端上越來越多的投入資源實(shí)現(xiàn)更多的東西，結(jié)合服務(wù)端的應(yīng)用，盡量減輕服務(wù)端的應(yīng)用。

視頻會(huì)議的邊緣計(jì)算除了剛才所介紹的視頻圖像方面的應(yīng)用，其實(shí)在音頻方面也起到了非常重要的作用，在以往的視頻會(huì)議中我們覺得音頻很簡單，把聲音做一些降噪就可以了，但是實(shí)際上在整個(gè)會(huì)議過程中它是最大的瓶頸，圖像方面還好說，有清晰的技術(shù)發(fā)展路徑，但是在音頻上遇到很大的挑戰(zhàn)，因?yàn)槿说亩鋸膭偛盘┛档母呖傉f到，分享過相關(guān)的在聽覺上面，在生物學(xué)上，在醫(yī)學(xué)上還沒搞清楚人的聽覺為什么這么靈敏，可以在很嘈雜的菜市場里兩個(gè)人無障礙的交流，如果放在視頻會(huì)議里這么炒，遠(yuǎn)端沒法聽，人耳有非常強(qiáng)的消噪的能力，我們也想追求在會(huì)議視頻的設(shè)備商怎么達(dá)到人耳降噪的體驗(yàn)，增強(qiáng)人聲清晰度的體驗(yàn)，所以在這里也非常有賴于AI技術(shù)的應(yīng)用，雖然看起來都是全向的麥克風(fēng)，定向的麥克風(fēng)，現(xiàn)在AI技術(shù)已經(jīng)逐漸在音頻上發(fā)揮作用了。

這其中就包括剛才介紹的SmartVision 60這個(gè)產(chǎn)品里，我們?yōu)槭裁匆玫?3個(gè)麥克風(fēng)也是這個(gè)原因，通過陣列麥克風(fēng)加上AI算法，我們盡量模擬人聽覺神經(jīng)的特點(diǎn)，識(shí)別出噪音跟人聲音的特點(diǎn)，做訓(xùn)練，把會(huì)議中遇到的非人聲，比如說咳嗽聲音、椅子聲音、鍵盤聲音等等濾除掉，并且把混響的聲音特點(diǎn)做還原增強(qiáng)，減輕混響的影響，有效的增強(qiáng)含有有效信息的人聲。

在前端采集了以后，通過AI技術(shù)處理增強(qiáng)有效的人聲之后，就為下一步AI的語音處理，我們所見到的實(shí)時(shí)ASR語音轉(zhuǎn)寫，多語言翻譯，聲紋識(shí)別，這都是在前端語音增強(qiáng)之后后端能做好的應(yīng)用，相信有一些大的企業(yè)已經(jīng)用實(shí)時(shí)字幕功能了，發(fā)現(xiàn)經(jīng)常會(huì)識(shí)別錯(cuò)亂，準(zhǔn)確率不高，并不是因?yàn)锳SR服務(wù)器算法不高，其實(shí)準(zhǔn)確已經(jīng)挺高了，像國內(nèi)的科大訊飛、微軟做的產(chǎn)品，包括阿里云做的產(chǎn)品，應(yīng)該都達(dá)到95%以上的準(zhǔn)確性了，但是可能因?yàn)榍岸瞬杉男Ч缓茫旁氡群艿?，語音增強(qiáng)的不夠好，準(zhǔn)確率就降到百分之七八十了，在前端設(shè)備上做AI語音是非常有意義的。

從個(gè)人角度來講我非常喜歡演講者追蹤這個(gè)功能，就是結(jié)合了精準(zhǔn)語音的定位，通過多個(gè)麥克風(fēng)陣列做DOA識(shí)別、唇動(dòng)識(shí)別，無論你走到哪里都可以實(shí)時(shí)追蹤到，讓發(fā)言人始終處于C位。這個(gè)就是視頻終端在音頻+視頻AI處理方面，結(jié)合起來的小功能。

除了以上介紹的終端側(cè)AI技術(shù)應(yīng)用，在服務(wù)端也存在著巨大的AI應(yīng)用價(jià)值，幫助我們提升關(guān)于會(huì)議內(nèi)容方面的工作效率。最典型的莫過于今年2月初微軟宣布把ChatGPT給集成到Teams里面，還發(fā)布了高級(jí)版的Teams應(yīng)用，相當(dāng)于是一個(gè)高級(jí)的智能秘書了。ChatGPT發(fā)布了以后更加智能了，之前只是轉(zhuǎn)寫。它可以幫助發(fā)起會(huì)議，邀請(qǐng)聯(lián)系人，還有會(huì)議中自動(dòng)跟進(jìn)與會(huì)人員的情況去做會(huì)議的控制，自動(dòng)生成會(huì)議紀(jì)要，多語言翻譯，最典型的會(huì)議中的痛點(diǎn)是幫幾十多個(gè)人開會(huì)的時(shí)候，有人沒有關(guān)麥克風(fēng)很吵，智能秘書在的話就發(fā)現(xiàn)那邊的噪音干擾了會(huì)議，自動(dòng)給它靜音到，這是一個(gè)后臺(tái)，我們看不見的智能秘書。

更進(jìn)一步的，在一個(gè)企業(yè)或者組織內(nèi)，我們通常會(huì)沉淀很多文檔、音視頻數(shù)據(jù)、郵件等等資料，在會(huì)議中討論到內(nèi)容的時(shí)候，如果能關(guān)聯(lián)到那些資料，能夠?qū)崟r(shí)調(diào)取出來，這是非常有幫助的，這項(xiàng)功能，ChatGPT這些大模型在服務(wù)端能把數(shù)據(jù)喂給它進(jìn)行訓(xùn)練，以后開個(gè)部門例會(huì)，回顧某個(gè)客戶提到的某個(gè)需求，可以自動(dòng)的將公司內(nèi)幾十上百TB的數(shù)據(jù)，幾秒鐘內(nèi)快速的給你找出來，告訴你有這些參考資料。想象一下，這個(gè)對(duì)我們經(jīng)常開會(huì)的人來說非常有幫助，尤其當(dāng)團(tuán)隊(duì)內(nèi)有新人加入的時(shí)候，如果有這種體驗(yàn)，對(duì)新人熟悉業(yè)務(wù)，融入團(tuán)隊(duì)非常有幫助。

今天時(shí)間有限，在這方面平臺(tái)側(cè)的AI應(yīng)用就不展開深入探討了，總的來說隨著AI技術(shù)的發(fā)展，平臺(tái)AI技術(shù)側(cè)的應(yīng)用，加上智能終端的邊緣AI能力提升，人工智能技術(shù)正在重塑我們未來遠(yuǎn)程溝通協(xié)作的體驗(yàn)，再過兩三年就會(huì)在大家的日常會(huì)議中得到感受和普及，當(dāng)前還在性價(jià)比的一個(gè)問題，包括剛才做的SmartVision 60，這么強(qiáng)大的算力和功能很美好，但是真的很貴，但是這都不是問題，隨著技術(shù)的發(fā)展，我覺得價(jià)格這方面會(huì)越來越親民的。

最后也打個(gè)廣告，向大家簡要介紹一下億聯(lián)網(wǎng)絡(luò)，億聯(lián)網(wǎng)絡(luò)以前95%以上業(yè)務(wù)都是海外，國內(nèi)市場基本上沒投什么市場和人力資源，但是隨著近幾年國內(nèi)市場的發(fā)展，我們也組建了國內(nèi)營銷團(tuán)隊(duì)，產(chǎn)品方案上也針對(duì)國內(nèi)市場國產(chǎn)化、信創(chuàng)，包括億聯(lián)也是信創(chuàng)委員會(huì)單位之一，加大國內(nèi)市場的投入，目前在國內(nèi)市場也在逐漸發(fā)展起來。國內(nèi)的市場整個(gè)產(chǎn)品跟生態(tài)，跟海外差別很大，隨著2017年億聯(lián)上市，開始在組織上、資源上有足夠的支撐，國內(nèi)也開始重視起來了。

先從幾個(gè)數(shù)字開始了解億聯(lián)吧，億聯(lián)是專注于統(tǒng)一通信，2001年成立，已經(jīng)做了22年，一直在做通信相關(guān)的產(chǎn)品，從最早的IP電話語音解決方案，到現(xiàn)在視頻會(huì)議的產(chǎn)品，融合通信的平臺(tái)產(chǎn)品。億聯(lián)是微軟Teams研究會(huì)很重要的合作伙伴，IP電話傳統(tǒng)的產(chǎn)品線已經(jīng)保持了很多年了，五六年了全球市場占有率第一，視頻會(huì)議的觸發(fā)量在去年達(dá)到了全球第五，國內(nèi)億聯(lián)和華為進(jìn)入了Top5。第三個(gè)產(chǎn)品是云辦公產(chǎn)品，隨著云視訊的發(fā)展我們啟動(dòng)了第三個(gè)產(chǎn)品線，三個(gè)增長曲線，主要是一些外設(shè)終端的產(chǎn)品。

億聯(lián)網(wǎng)絡(luò)是一家提供完整音視頻協(xié)作解決方案的廠商，不僅是單純的終端，幫助客戶提升溝通協(xié)作的效率。具體的產(chǎn)品解決方案會(huì)包括視頻會(huì)議、語音通信、會(huì)議協(xié)作、智慧辦公，剛才幾位友商也分享過在智慧會(huì)議室場景方面，億聯(lián)也是這樣的理念，從終端到平臺(tái)和整個(gè)辦公空間的管理，整體的解決方案。

同時(shí)通過過硬的產(chǎn)品技術(shù)以及在海外市場取得的市場地位，讓億聯(lián)也成為了國內(nèi)第一家跟微軟建立了全球戰(zhàn)略合作的企業(yè)。核心是在音視頻方面設(shè)備上，微軟提供Teams平臺(tái)的能力，億聯(lián)提供全場景的各種終端。除此以外我們也與英特爾、Zoom、騰訊云、釘釘?shù)阮^部企業(yè)開展了深度合作，為各行各業(yè)提供視頻會(huì)議的創(chuàng)新產(chǎn)品。

億聯(lián)的產(chǎn)品技術(shù)方案是整體概述在這張圖上的，我們稱為智慧辦公的全能力，其中包括平臺(tái)和各種場景下終端的全套解決方案，其中平臺(tái)包括公有云的平臺(tái)還有純私有化的平臺(tái)，包括把公有云和私有化平臺(tái)打通融合云的產(chǎn)品。還有混合云的產(chǎn)品，在私有化或者在云上下沉或者上浮它的節(jié)點(diǎn)。除了這些產(chǎn)品，終端方面還有今天分享的，剛才所展示的視頻會(huì)議終端，延伸覆蓋了會(huì)議室場景的各種設(shè)備，比如說會(huì)議室門牌，傳感器，辦公空間IoT管理，以及配套的信息發(fā)布和IoT管理平臺(tái)。整體上我們的目標(biāo)是為客戶提供溝通協(xié)作的全場景方案，除了通信系統(tǒng)還為會(huì)議室空間、企業(yè)辦公空間提供會(huì)前、會(huì)中、會(huì)后，包括知識(shí)管理的整套產(chǎn)品。

明天到Infocomm期間我們也在C館CC4—01展位有最新的產(chǎn)品解決方案展示出來，歡迎大家明天過去體驗(yàn)，謝謝大家。

億聯(lián)網(wǎng)絡(luò) 廖昀 AI 遠(yuǎn)程會(huì)議視頻會(huì)議