從2011年10月4日,蘋果在iPhone4s機(jī)型上開創(chuàng)性地配置Siri語音控制功能,并相繼在2012年宣布支持中文語音識別和互動(dòng)開始,語音助手浪潮首先在手機(jī)端應(yīng)用掀起。
經(jīng)過五年的發(fā)展,原本通過手動(dòng)的人機(jī)交互模式已衍生出許多口令式應(yīng)用場景,與此同時(shí),在炙手可熱的智能家居市場中,以語音交互為基礎(chǔ)的人機(jī)互動(dòng)模式也逐步成為標(biāo)準(zhǔn)性功能配置。
雖然,語音交互領(lǐng)域儼然被吹捧為又一智能藍(lán)海、智能領(lǐng)域的入口之一,國內(nèi)外科技大佬也因此沒少在其投錢。
然而,回到現(xiàn)實(shí)應(yīng)用場景里,我們當(dāng)中有多少人真的像手動(dòng)觸屏操作那樣信任語音助手?一天中有多少次開啟過語音互動(dòng)功能?從我們身邊的用戶和自身的使用習(xí)慣看,用戶對語音操控仍然極度缺乏信任。
當(dāng)今語音技術(shù)格局
從語音智能生態(tài)系統(tǒng)來看,主要有基于Nuance的蘋果Siri與三星S-Voice、谷歌Android的Google Now、微軟Windows Phone的Cortana三大版圖。專注于中文語音智能領(lǐng)域而言:
以傳統(tǒng)的語音技術(shù)提供商科大訊飛為首,無論在技術(shù)還是市場者占有領(lǐng)先地位,已知的合作廠商如京東微聯(lián)、錘子科技、長虹、創(chuàng)維、三星等家電廠商;
騰訊,百度兩大科技巨頭也通過其團(tuán)隊(duì)實(shí)力的優(yōu)越性展現(xiàn)了后來者居上的姿態(tài);
蘇州思必馳,捷通華聲,云知聲等相對較年輕的技術(shù)服務(wù)商在整體識別率十分搶眼;以及一些背靠其他學(xué)術(shù)或技術(shù)團(tuán)隊(duì)的小公司也正在積聚力量。
基礎(chǔ):手機(jī)使用場景
從iPhone的Siri開始,通過語音助手在手機(jī)上實(shí)現(xiàn)讀短信、介紹餐廳、詢問天氣、設(shè)置鬧鐘、自然語言輸入、調(diào)用天氣預(yù)報(bào)、日程安排、搜索資料等功能已不再新鮮,通過后期的技術(shù)迭代,學(xué)習(xí)新的聲音和語調(diào),提供對話式的應(yīng)答等能力也不在話下。
同時(shí),在應(yīng)用類層面,如微信、新浪微博、語音搜索、365日歷、掌閱、91熊貓看書以及各大導(dǎo)航類應(yīng)用也全面引入了語音識別、語義理解等功能。
潛力:家居物聯(lián)網(wǎng)
隨著物聯(lián)時(shí)代的興起,家居物聯(lián)這塊藍(lán)海市場也吸引了眾多科技公司的押注,而其最基本的接入方式。
在國外,三大科技大佬已開始布局,蘋果就在今年6月初的蘋果全球開發(fā)者大會(WWDC)上,推出了自家首個(gè)智能家居平臺Homekit,其亮點(diǎn)也正是整合了Siri——具有語音控制功能,對于借用第三方應(yīng)用或其它硬件而實(shí)現(xiàn)智能操控的國內(nèi)智能家居系統(tǒng)無疑更容易打動(dòng)用戶。
與此同時(shí),微軟近日也宣布將把微軟語音助手Cortana引入家庭自動(dòng)化設(shè)備制造商Insteon在Windows Phone的應(yīng)用程序中。
而谷歌早在去年也通過收購收購Nest Labs成功進(jìn)軍智能家居市場,并在今年5月份的谷歌I/O開發(fā)者大會上推出了以Android為核心的Brillo系統(tǒng),以及Google Now新的智能應(yīng)用功能。
國內(nèi)市場方面,借由語音交互功能作為物聯(lián)家居的入口、以及通過類似布丁機(jī)器人等家庭機(jī)器人的人機(jī)語音互動(dòng)入駐智能家居等模式也屢見不鮮。
所謂的“標(biāo)配”真的實(shí)用嗎?
如果僅從配置要求方面而言,如上所述,語音智能技術(shù)確實(shí)已成為主流,但根據(jù)相關(guān)數(shù)據(jù)顯示這一功能的使用率并不高。
在大多數(shù)情況下,語音交互變成了消遣娛樂的“游戲”,并未成為真正幫助人們操控設(shè)備的工具。究其原因,筆者認(rèn)為主要在以下幾個(gè)方面:
1. 語音識別率、語義理解力不足。雖然國外有迭代數(shù)次的蘋果Siri語音助手、以及谷歌、微軟等硬實(shí)力派的加盟,但據(jù)業(yè)界人士表示,從目前語音識別率提升至99%甚至100%的路還很長。這主要是語音易受場合、情緒、身體狀況、內(nèi)容上下文等影響的特性決定;
2. 中文語音的復(fù)雜性。由于中文的復(fù)雜性,其語音、語調(diào)、方言等多重因素的影響,造成漢語語音識別比英語在準(zhǔn)確性更具挑戰(zhàn),以及在不同的語境內(nèi)使用不同的字和語氣,甚至包括隱語之類的東西,在英文里都是很少有的,所以偏重英文識別性能的外國技術(shù)在中文語音識別和語義理解方面顯得“水土不服”,而這一點(diǎn)也需我國自主技術(shù)廠商的努力;
3. 缺少極為匹配的應(yīng)用場景。雖然智能語音功能已在車載、智能家居、手機(jī)端等場景中實(shí)現(xiàn),但更多的情況是為了添加語音互動(dòng)功能而硬造出的應(yīng)用場景;與此同時(shí),不同機(jī)型在語音識別率、反應(yīng)速度、功耗方面差異巨大且存在諸多問題,這一點(diǎn)使得智能語音功能在產(chǎn)品應(yīng)用上更顯雞肋;
4. 此外,為使用戶更好地實(shí)現(xiàn)語音操作的過渡和轉(zhuǎn)化,在語音技術(shù)與觸控、體感等其他操控方式的結(jié)合也顯得十分重要,如果簡單地將之定位于觸摸、按鍵等主流操作方式的替代品,必將導(dǎo)致較低的市場接受。
目前的語音操控仍面臨很多亟待解決的問題,用戶實(shí)際應(yīng)用情況并不像其產(chǎn)品覆蓋面那樣廣泛,即所謂的語音智能還并不能稱之為真正的標(biāo)配。
但不可否認(rèn),語音交互已作為人機(jī)交互發(fā)展的重要方向,正逐步滲入到我們的日常生活與應(yīng)用當(dāng)中,引起了智能硬件行業(yè)的變革。
而誰能率先為智能語音交互創(chuàng)造更人性化的操作體驗(yàn),在其算法的準(zhǔn)確率、反應(yīng)時(shí)間以及處理性能進(jìn)行實(shí)質(zhì)性的突破,定將為智能領(lǐng)域的發(fā)展創(chuàng)造豐厚的附加值。