語(yǔ)音技術(shù)應(yīng)用在崛起:云知聲的倒推式商業(yè)邏輯

責(zé)任編輯:editor004

作者:魏雅晴

2015-03-17 10:16:57

摘自:21世紀(jì)經(jīng)濟(jì)報(bào)道

云知聲是伴隨著阿里巴巴、樂(lè)視的“互聯(lián)網(wǎng)汽車”概念而逐漸浮出水面的。黃偉的自信還在于,經(jīng)過(guò)十幾年的發(fā)展,雖然語(yǔ)音技術(shù)在學(xué)術(shù)層面上仍然是美國(guó)領(lǐng)先,但在應(yīng)用層面上中國(guó)已經(jīng)不遜于美國(guó)。

云知聲是伴隨著阿里巴巴、樂(lè)視的“互聯(lián)網(wǎng)汽車”概念而逐漸浮出水面的。這家成立僅2年多的創(chuàng)業(yè)公司,是隱藏在阿里Yun OS車載操作系統(tǒng)和樂(lè)視LeUI Auto背后的語(yǔ)音技術(shù)提供商,在樂(lè)視造車之后,我們將“互聯(lián)網(wǎng)造車”的系列報(bào)道定格在一家近幾年崛起最快的語(yǔ)音識(shí)別公司——云之聲。

特約記者 魏雅晴 北京報(bào)道

少女聽(tīng)到他的話,貓咪噠噠的跑過(guò)雪地,老人曬著暖呼吸吐納……常規(guī)之下,這些賦上心意的聲音,與你所聽(tīng)到的表達(dá),一起被稱作“溝通”。

而在現(xiàn)如今的商業(yè)世界,如常的言語(yǔ)往來(lái)不止是感性的細(xì)膩,它為商業(yè)拓展出更多邏輯的種類,也嘗試鏈接不同的交互載體。

云知聲就是這樣一家公司,它穿著隱身衣,住在你能想到的軟、硬件載體中,以聲音為介質(zhì),以命令為輸出,將一個(gè)個(gè)抽象的韻母、聲母拆解,合成為一條條具體的動(dòng)作指示。

云知聲是伴隨著阿里巴巴、樂(lè)視的“互聯(lián)網(wǎng)汽車”概念而逐漸浮出水面的。這家成立僅2年多的創(chuàng)業(yè)公司,是隱藏在阿里Yun OS車載操作系統(tǒng)和樂(lè)視LeUI Auto背后的語(yǔ)音技術(shù)提供商,在2013年獲得啟明創(chuàng)投的1 億元A 輪融資之后,又在2014年年底獲得摯信等5000萬(wàn)美元B輪融資,刷新了語(yǔ)音行業(yè)融資紀(jì)錄,成為近幾年崛起速度最快的語(yǔ)音識(shí)別公司。

云知聲的倒推邏輯

相比于阿里、聯(lián)想、英特爾、中興、樂(lè)視、通用汽車、小米、錘子等客戶,云知聲像是一個(gè)靜默的解語(yǔ)者,這種“躲”在背后的靜默恰好應(yīng)了云知聲的產(chǎn)品特點(diǎn):雖然技術(shù)加載,卻因?yàn)橹皇禽斎胼敵鲚d體,所以無(wú)法具象地被用戶感知。甚至在業(yè)已實(shí)現(xiàn)可能的案例中,被無(wú)意識(shí)地忽略。

把這樣的忽略放至大環(huán)境下的整體路徑,同樣能找到痕跡。語(yǔ)音交互經(jīng)歷過(guò)寒冬,從系統(tǒng)穩(wěn)定性、響應(yīng)速度、語(yǔ)音識(shí)別效率等維度判斷,語(yǔ)音交互行為本身所帶來(lái)的交互體驗(yàn)并不能引起足夠多的正向討論。即使是蘋(píng)果Siri,也并沒(méi)有如想象中那樣普及開(kāi)來(lái)。

云知聲CEO黃偉是國(guó)內(nèi)最早從事語(yǔ)音識(shí)別技術(shù)的少壯派代表,曾任職于Motorola中國(guó)研究中心和世界最大的語(yǔ)音公司Nuance,并開(kāi)發(fā)出世界第一款手機(jī)聲紋認(rèn)證系統(tǒng),加盟盛大后一手創(chuàng)建了語(yǔ)音分院。在十余年的語(yǔ)音從業(yè)經(jīng)驗(yàn)中,他認(rèn)為Siri對(duì)他的第一個(gè)啟示是用一個(gè)有限的人工智能去解決非常開(kāi)放的需求是一個(gè)偽命題。如果把Siri定位為語(yǔ)音助理,用戶就會(huì)覺(jué)得應(yīng)該什么都懂,但人的需求是千變?nèi)f化的,一旦做不到就會(huì)失去用戶。

第二個(gè)啟示是語(yǔ)音技術(shù)必須搭載服務(wù)。人們使用語(yǔ)音的最終需求是機(jī)器完成整個(gè)操作,比如說(shuō)導(dǎo)航,不僅是聽(tīng)懂目的地,還需要完成路徑規(guī)劃,如果目的地是一個(gè)餐館,甚至可以實(shí)現(xiàn)在線下單。這考驗(yàn)的是資源整合能力。

“從技術(shù)和需求兩個(gè)角度,我們認(rèn)為理想的方式是什么?不要大而全,而是垂直領(lǐng)域切入。”這也成為云知聲與擅長(zhǎng)TTS的科大訊飛,以及擅長(zhǎng)多國(guó)語(yǔ)言識(shí)別的Nuance等傳統(tǒng)語(yǔ)音巨頭競(jìng)爭(zhēng)的差異所在。

2011年,騰訊推出即時(shí)通訊服務(wù)的免費(fèi)應(yīng)用程序——微信。智能手機(jī)作為第一波普及的硬件載體,徹底打破人們對(duì)溝通場(chǎng)景、對(duì)象、方式的固有模式,用戶需求的移動(dòng)性、細(xì)分化也催生著語(yǔ)音的場(chǎng)景垂直。智能家居、車載、可穿戴設(shè)備、在線教育、智能客服等,每一個(gè)領(lǐng)域都可以延伸出語(yǔ)音的被需要。怎樣在新興領(lǐng)域開(kāi)辟語(yǔ)音入口?怎樣判斷需求的真?zhèn)?、做定制化差異?怎樣讓人們變得更懶卻也更互動(dòng)?

如果說(shuō)老東家Nuance的工作經(jīng)歷是告訴黃偉如何用一套普適性強(qiáng)的引擎體系適應(yīng)全球化的產(chǎn)品占領(lǐng),那么云知聲想要做的是一個(gè)倒推邏輯:根據(jù)不同的載體形式,定制需求、深度開(kāi)發(fā)。2012年,云知聲成立僅三個(gè)月后就推出了面向開(kāi)發(fā)者的免費(fèi)語(yǔ)音云平臺(tái)。這是一個(gè)完全逆著來(lái)的形式,相比語(yǔ)音界同行,黃偉認(rèn)為:“2012年,用戶根本沒(méi)有習(xí)慣用語(yǔ)音。這說(shuō)明你自身價(jià)值還遠(yuǎn)未形成,如果這個(gè)時(shí)候著急收費(fèi),無(wú)異于是扼殺行業(yè)。”

可是,估計(jì)很少人知道,2011年底辭職后就開(kāi)始籌備項(xiàng)目的黃偉,帶著十幾人的研發(fā)團(tuán)隊(duì)自負(fù)盈虧,到6月份天使輪融資進(jìn)來(lái)之前,半年內(nèi)幾乎花光了積蓄,甚至要靠透支信用卡來(lái)發(fā)工資。黃偉第一次感覺(jué)到了難。“我不能多想,團(tuán)隊(duì)的每一個(gè)人都不能多想,但凡任何一個(gè)人有后顧之憂,這事就成不了。”

技術(shù)創(chuàng)業(yè)的特殊就在這,如果沒(méi)有產(chǎn)品,何談融資。黃偉聊到一個(gè)細(xì)節(jié),天使輪融資在團(tuán)隊(duì)幾乎斷糧的關(guān)鍵節(jié)點(diǎn)進(jìn)來(lái),“我們不是等錢到了再做事,而是盡快抓住時(shí)間窗口一直往前走。投資人看什么?他會(huì)翻看我這大半年的代碼有沒(méi)有增加,我有沒(méi)有干。”

一位土博士的產(chǎn)品地圖

說(shuō)回到云知聲逐漸鋪設(shè)的產(chǎn)品地圖,這群自稱為“土博士”的創(chuàng)業(yè)團(tuán)隊(duì),產(chǎn)品理念不再是單一依靠

技術(shù)的強(qiáng)勢(shì)打法。用黃偉的話來(lái)說(shuō),語(yǔ)音交互的整個(gè)體系包含“語(yǔ)音識(shí)別、語(yǔ)義理解、服務(wù)調(diào)用”三大板塊,如果沒(méi)有識(shí)別單元就不知道用戶說(shuō)了什么,沒(méi)有理解就不知道用戶的意圖,而這兩者只是完成了人跟設(shè)備的一個(gè)翻譯。“用戶跟設(shè)備交互的目的是什么?不是為了炫酷,而是我說(shuō)的話希望得到后面的服務(wù),否則只是一個(gè)輸入法。”

從這個(gè)角度入手,黃偉從云知聲的主動(dòng)可控層面給出三個(gè)評(píng)判維度:中文連續(xù)語(yǔ)音的準(zhǔn)確識(shí)別率,云知聲做到開(kāi)放性、全國(guó)語(yǔ)量基礎(chǔ)上97%的識(shí)別率;識(shí)別引擎的迅速,做到同行的3-5倍的速率比;語(yǔ)音開(kāi)放平臺(tái)的穩(wěn)定,第一版自2012年9月份推出以來(lái),穩(wěn)定服務(wù)。

延展出的三大主要業(yè)務(wù)內(nèi)容是:以“云、端、芯”為關(guān)鍵字在移動(dòng)應(yīng)用、智能硬件等不同領(lǐng)域切入。云知聲開(kāi)放平臺(tái)為開(kāi)發(fā)者提供語(yǔ)音接口;云知聲UniWear是面向可穿戴設(shè)備的ROM,旨在降低開(kāi)發(fā)門檻,提供一套完整的軟硬件開(kāi)發(fā)方案;語(yǔ)音交互芯片意在智能家居平臺(tái),控制家居自動(dòng)化設(shè)備的入口。

而車載可以看作一個(gè)功能非常豐富的智能移動(dòng)設(shè)備,也是云知聲下一個(gè)重點(diǎn)發(fā)力的領(lǐng)域之一。語(yǔ)音、觸屏、按鈕、體感,交互形式多樣且互相配合,而語(yǔ)音作為最自然、最日常的途徑,成為人與載體間的密碼。但語(yǔ)音產(chǎn)品在車內(nèi)的市場(chǎng)表現(xiàn)和受眾認(rèn)可似乎躊躇不前,語(yǔ)音作為產(chǎn)品接口,與用戶之間隔著一個(gè)載體,這也就意味著軟、硬件載體的工藝水準(zhǔn)、成本考慮、搭載適配等直接且深度影響著語(yǔ)音交互的效果。

以用戶在車內(nèi)最常用的導(dǎo)航和娛樂(lè)功能為例,最新推出的云知聲開(kāi)放平臺(tái)2.0,除了識(shí)別、理解、合成等基本能力,還針對(duì)如車載這樣的垂直領(lǐng)域做了特別的優(yōu)化方案,方便用戶低成本接入,并提供軟硬結(jié)合的整套解決方案。黃偉覺(jué)得語(yǔ)音識(shí)別從實(shí)驗(yàn)室階段到了商業(yè)化的臨界點(diǎn),但依然還需要解決很多問(wèn)題,比如說(shuō)抗噪性,噪音的干擾,這些都是需要在學(xué)術(shù)界、工業(yè)界不斷解決的。但語(yǔ)音在車載領(lǐng)域的應(yīng)用前景是勿庸置疑的,相關(guān)產(chǎn)品的出貨量增長(zhǎng)也非常快。

不過(guò)這應(yīng)用上的困境也讓團(tuán)隊(duì)越來(lái)越思考一個(gè)問(wèn)題,僅僅做面向B端的用戶群,無(wú)法直達(dá)消費(fèi)者,必然存在語(yǔ)音效用的折衷。為什么不自己做一個(gè)面向C端用戶的語(yǔ)音類助手呢?

“2015年我們會(huì)開(kāi)始推廣自有APP,從小點(diǎn)切入大眾化的需求。”黃偉提到一個(gè)觀點(diǎn),以語(yǔ)音輸入做移動(dòng)搜索引擎,牽涉到太多對(duì)后臺(tái)資源的調(diào)用、整合,不太適合創(chuàng)業(yè)公司。云知聲要做的,是通過(guò)語(yǔ)音對(duì)個(gè)人設(shè)備、個(gè)人內(nèi)容、生活方式等進(jìn)行助手式管理。

另一個(gè)挑戰(zhàn)黃偉的事來(lái)自內(nèi)部,純技術(shù)出身,從中科院、科大研究室走出來(lái)的團(tuán)隊(duì),如何調(diào)整節(jié)奏、適應(yīng)商業(yè)化轉(zhuǎn)型的管理、營(yíng)收需要,成為2015年必須要搞定落地的事兒。

一枝獨(dú)秀不成春,“硬件運(yùn)算能力、數(shù)據(jù)積累處理、技術(shù)的推算衍進(jìn),有這三個(gè)要素做依托,我相信未來(lái)人工設(shè)備的交互一定可以實(shí)現(xiàn),不再是簡(jiǎn)單的命令控制,不再是冷冰冰的存在。”在提到大環(huán)境下語(yǔ)音交互的未來(lái),黃偉語(yǔ)氣篤定地用了一連串的“一定”。

黃偉的自信還在于,經(jīng)過(guò)十幾年的發(fā)展,雖然語(yǔ)音技術(shù)在學(xué)術(shù)層面上仍然是美國(guó)領(lǐng)先,但在應(yīng)用層面上中國(guó)已經(jīng)不遜于美國(guó)。中國(guó)人參加幾次語(yǔ)音領(lǐng)域的國(guó)際評(píng)測(cè),與斯坦福、MIT、劍橋、Nuance、IBM、微軟、谷歌等同臺(tái)對(duì)壘,已經(jīng)連續(xù)六年三屆蟬聯(lián)第一。

我們追問(wèn)了一句:“有沒(méi)有為什么事情焦慮?”黃偉沒(méi)有停頓,“我最近就很焦慮,你想做的事情和你現(xiàn)階段所掌握的資源和能力之間有一個(gè)距離。你明明看到機(jī)會(huì)了,做的卻沒(méi)有那么快。這種焦慮感是如果我再快一點(diǎn)會(huì)怎么樣?”

可他心知肚明,現(xiàn)階段的云知聲之所以能夠春江水暖,正是因?yàn)樗麄儚牟幻斑M(jìn)地模仿?lián)焓?、從不抱殘守缺地走到黑,也從不沒(méi)學(xué)會(huì)爬先想跑。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)