當(dāng)徐嘉威在錘子手機(jī)發(fā)布會的現(xiàn)場看到老羅的語音輸入演示后,馬上下載了訊飛輸入法。“(語音)識別準(zhǔn)確率很高,現(xiàn)在已經(jīng)成為忠實(shí)用戶了。”徐嘉威告訴21世紀(jì)經(jīng)濟(jì)報道記者。
錘子科技CEO羅永浩的手機(jī)發(fā)布會意外捧紅了科大訊飛的輸入法——除了現(xiàn)場熱烈的掌聲,一夜之間,社交媒體上眾多溢美之詞以及驚嘆聲隨之而來;其在AppStore迅速躥升到工具榜第三位,并成為排名最高的第三方輸入法;百度搜索指數(shù)顯示,近期關(guān)鍵詞“訊飛輸入法”搜索量大增,7天搜索指數(shù)環(huán)比增長139%。
事實(shí)上,語音識別技術(shù)近年來發(fā)展迅速,新晉“網(wǎng)紅”訊飛輸入法早在2010年就已推向市場,目前主流的輸入法也都支持語音輸入,并有著與訊飛接近的正確率,語音輸入并不是一項所謂的“黑科技”。
“很慚愧第一次知道訊飛輸入法,也第一次知道現(xiàn)在的語音輸入已經(jīng)發(fā)展到97%的準(zhǔn)確率了”,作為一名產(chǎn)品經(jīng)理,徐嘉威發(fā)出了“好的產(chǎn)品也許會埋沒在人海中不為人知的”感慨。
為什么“好產(chǎn)品會被埋沒”?易觀智庫終端入口分析師朱大林向21世紀(jì)經(jīng)濟(jì)報道記者指出,目前百度、搜狗等各家的語音輸入基本都達(dá)到了實(shí)用的水平,在用戶中認(rèn)知度較低主要受到固有的使用習(xí)慣、當(dāng)前的用戶體驗以及應(yīng)用場景局限的影響。
“網(wǎng)紅”輸入法
北京時間2010年6月8日凌晨, iPhone歷史上最重磅產(chǎn)品之一的iPhone4發(fā)布。當(dāng)晚,科大訊飛幾位年輕人就iPhone4做了一個討論,認(rèn)為iPhone上基于觸屏的全鍵盤輸入由于屏幕太小體驗不太好。頭腦風(fēng)暴后,他們決定把科大訊飛的語音技術(shù)結(jié)合到輸入上來。
2010年10月28號,科大訊飛對外發(fā)布其語音輸入法的第一個版本,這也是最早支持語音輸入的輸入法。
1999年成立的科大訊飛起源于中國科技大學(xué)“人機(jī)語音通信實(shí)驗室”,由27歲的劉慶峰和17個師弟師妹共同建立。
作為國內(nèi)語音技術(shù)提供商,從中文語音合成技術(shù)開始,到多語音合成技術(shù),再到語音識別、語音理解和智能問答等,科大訊飛已是國內(nèi)最主要的語音技術(shù)提供商。中國語音產(chǎn)業(yè)聯(lián)盟數(shù)據(jù)顯示,2015年科大訊飛在國內(nèi)市場占到44%份額,隨后是百度的28%和蘋果的7%。
記者了解到,目前除了錘子手機(jī)使用到訊飛的語音技術(shù),華為、小米、魅族、VIVO、OPPO等手機(jī)的內(nèi)置輸入法也在使用訊飛開放平臺提供的語音技術(shù)。
此外,值得注意的還有科大訊飛的聽見·智能會議系統(tǒng)。21世紀(jì)經(jīng)濟(jì)報道記者在英特爾IDF峰會、第四屆中國電子信息博覽會等多個場合見到該系統(tǒng)將嘉賓演講語音實(shí)時轉(zhuǎn)成文字“上墻”。據(jù)了解,當(dāng)前該系統(tǒng)主要應(yīng)用于大型發(fā)布會、課程培訓(xùn)、電視節(jié)目直播等對語音轉(zhuǎn)文字時效性和準(zhǔn)確率要求較高的場景。除提供toB服務(wù),該系統(tǒng)面向個人提供收費(fèi)轉(zhuǎn)寫服務(wù),價格約為99元5小時。
隨著移動互聯(lián)網(wǎng)的發(fā)展,2011年科大訊飛成立了移動互聯(lián)事業(yè)部,依托智能語音交互平臺“訊飛語音云”,科大訊飛與家電、機(jī)器人、手機(jī)等諸多領(lǐng)域廠商合作,推動語音應(yīng)用與硬件的結(jié)合。
根據(jù)公司2016年半年報,截至2016年6月31日,訊飛開放平臺的總用戶數(shù)已達(dá)8.1億,月活躍用戶達(dá)2.36億(同比增長157%),開發(fā)者達(dá)16萬(同比增長228%);訊飛輸入法用戶達(dá)3.6億,活躍用戶超過1億,輸入法語音用戶日覆蓋率達(dá)到12%(同比增長50%)。
Research and Markets 發(fā)布的《全球及中國語音產(chǎn)業(yè)報告(2015-2020)》顯示,全球最大的語音識別技術(shù)公司Nuance仍占據(jù)三成市場份額,但已出現(xiàn)下滑趨勢。谷歌、微軟、蘋果和科大訊飛則獲得了迅速的增長,全球市場份額分別為20.7%、13.4%、12.9%和6.7%。
應(yīng)用場景局限
語音智能作為人工智能領(lǐng)域最成熟的技術(shù)之一,產(chǎn)業(yè)化正在不斷加速。被稱為“互聯(lián)網(wǎng)女皇”的瑪麗·米克在《2016年互聯(lián)網(wǎng)趨勢》中指出,人機(jī)交互的方式正在被語音輸入和汽車改變。她認(rèn)為,由于快速、易操作、個人化以及無需用手,計算界面正在從鍵盤進(jìn)化為“麥克風(fēng)+鍵盤”,語音接口會成為下一個快速增長的市場。
然而,伴隨著技術(shù)的發(fā)展和成熟,用戶教育是一個漫長的過程。但由于語音輸入主流應(yīng)用場景和殺手級應(yīng)用的缺乏,目前還很難培養(yǎng)用戶使用習(xí)慣,這也導(dǎo)致了用戶對相關(guān)產(chǎn)品了解很少。
根據(jù)賽諾的《2016年Q3語音輸入法行業(yè)分析報告》,在語音輸入法的使用場景分布中,即時通訊是語音輸入使用最多的應(yīng)用,占比高達(dá)94%;具體場景中,“聊天對象太多、來不及打字”占比65%,“輸入內(nèi)容多”占比35%;“手不方便”占比19%。
朱大林指出,作為一種新的交互方式,語音輸入需要在允許進(jìn)行語音輸入的環(huán)境中進(jìn)行,其次方言、地名的識別度準(zhǔn)確率的問題給用戶留下陰影,影響了用戶的體驗。
科大訊飛方面向21世紀(jì)經(jīng)濟(jì)報道記者解釋,語音輸入時,在極短的時間內(nèi),輸入法的語音識別系統(tǒng)經(jīng)歷了一個極為復(fù)雜的分析過程,很多環(huán)節(jié)容易導(dǎo)致語音識別出現(xiàn)問題。比如對發(fā)音人“口音差異”的適配,需要海量數(shù)據(jù)進(jìn)行適應(yīng)訓(xùn)練,使語音識別系統(tǒng)習(xí)慣不同人的發(fā)音;其實(shí)是環(huán)境噪聲干擾,在語音輸入過程中,機(jī)器很難分辨出人聲和環(huán)境噪聲,容易把所有的聲音都進(jìn)行識別;再者是網(wǎng)絡(luò)因素。在線語音識別需要通過網(wǎng)絡(luò)在服務(wù)端與客戶端傳輸數(shù)據(jù),網(wǎng)絡(luò)質(zhì)量差或傳輸不穩(wěn)定易導(dǎo)致語音識別慢、效果差。這些都成為了阻礙語音識別普及的因素。而訊飛方面也指出這是訊飛的語音輸入相對國內(nèi)其他廠商更為深入的地方。
朱大林認(rèn)為,目前來看,有三類場景可以拓展,首先是商務(wù)辦公領(lǐng)域,除了發(fā)微信、短信,還可以用于郵件書寫;其次是出行領(lǐng)域,比如車載控制和對話;再者服務(wù)體系中,重復(fù)服務(wù)或大或小可被簡化或替代。
訊飛輸入法產(chǎn)品總監(jiān)翟吉博指出,在市場教育和用戶習(xí)慣培養(yǎng)方面,可以從大家比較熟悉的,比如用微信發(fā)語音的場景,讓大眾明白通過語音輸入文字和直接發(fā)語音的區(qū)別;另外,在產(chǎn)品和技術(shù)本身,在個性化方面有很大的發(fā)展空間,未來的語音輸入可以為每個人量身打造,通過個人賬號實(shí)現(xiàn)通訊錄人名和定制詞庫的個性化識別。另外,他還表示,基于手機(jī)這種觸屏為主的設(shè)備,語音不會是完全主流的,在下一個萬物互聯(lián)和VR設(shè)備流行的時代,語音技術(shù)的春天會真正到來。