谷歌在2009年推出了支持語(yǔ)音的搜索服務(wù),蘋果公司在2011年發(fā)布的iphone4上推出siri語(yǔ)音助手,。這標(biāo)志著語(yǔ)音技術(shù)研發(fā)新一輪熱潮的興起。隨后,基于語(yǔ)音識(shí)別等技術(shù)的智能自然交互得到前所未有的廣泛關(guān)注和應(yīng)用。
在可以預(yù)見的未來(lái)幾年內(nèi),語(yǔ)音技術(shù)將滲透到工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等眾多領(lǐng)域。
隨著大數(shù)據(jù)時(shí)代的到來(lái)和計(jì)算能力的大幅提升,語(yǔ)音技術(shù)的發(fā)展將迎來(lái)多個(gè)新挑戰(zhàn),具體有以下三方面:
大數(shù)據(jù)促使語(yǔ)音技術(shù)做出哪些改變?隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)會(huì)越來(lái)越多,并且會(huì)更加接近用戶。中國(guó)工程院院士高文指出,預(yù)計(jì)到2020年,整個(gè)網(wǎng)絡(luò)中的各種數(shù)據(jù)會(huì)比現(xiàn)在增加50倍。
據(jù)gartner(美國(guó)一家從事信息技術(shù)研究和咨詢的公司)對(duì)2014年及未來(lái)的重大預(yù)測(cè),今年的語(yǔ)音識(shí)別應(yīng)用將會(huì)翻倍;到2017年,10%的計(jì)算機(jī)將具備一定的學(xué)習(xí)能力;到2020年,從可穿戴設(shè)備獲取的消費(fèi)者數(shù)據(jù)將推動(dòng)來(lái)自全球1000強(qiáng)的5%的銷售。
因此,語(yǔ)音技術(shù)將會(huì)順應(yīng)時(shí)代的發(fā)展,在研發(fā)模式上不僅具備大數(shù)據(jù)處理能力,而且要具備演進(jìn)式的學(xué)習(xí)能力。
語(yǔ)音技術(shù)可以為大數(shù)據(jù)時(shí)代做些什么?大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)上的音視頻已經(jīng)達(dá)到驚人的規(guī)模:在youtube(視頻網(wǎng)站)上每天上傳的視頻已經(jīng)超過86萬(wàn)小時(shí),而在netflix(在線影片租賃提供商)上人們每天觀看的視頻節(jié)目也已經(jīng)超過2200萬(wàn)小時(shí)。
為了給人們提供操控這些音視頻大數(shù)據(jù)資源的途徑,僅僅依靠圖像和視頻技術(shù)遠(yuǎn)遠(yuǎn)不夠的,語(yǔ)音檢索可以為音視頻大數(shù)據(jù)的內(nèi)容分析和檢索提供有效手段。
大數(shù)據(jù)時(shí)代真正語(yǔ)音交互還缺什么?語(yǔ)音交互將會(huì)在移動(dòng)互聯(lián)網(wǎng)、智能家電、汽車電子、智能客服和可穿戴設(shè)備等多個(gè)領(lǐng)域得到應(yīng)用。除了語(yǔ)音識(shí)別,真正的語(yǔ)音交互同時(shí)還依賴于其它多項(xiàng)技術(shù)的發(fā)展,如遠(yuǎn)講和噪聲處理技術(shù)、自然口語(yǔ)理解、自動(dòng)問答、信息檢索等。
同時(shí),對(duì)于智能眼鏡和智能手表等可穿戴設(shè)備,語(yǔ)音功能將是必不可少的。但是這些可穿戴設(shè)備的續(xù)航能力也是繞不開的問題。對(duì)資源的消耗能做到多“小”,則是制約是否能得到實(shí)用的關(guān)鍵因素。因此,除了語(yǔ)音技術(shù),大數(shù)據(jù)時(shí)代的語(yǔ)音交互還必須得到各種緊密相關(guān)技術(shù)的支持。
這些挑戰(zhàn)同時(shí)也為語(yǔ)音技術(shù)在大數(shù)據(jù)時(shí)代的發(fā)展帶來(lái)了機(jī)遇。上述問題解決了之后,語(yǔ)音技術(shù)將會(huì)滲透到人類生活的方方面面,為人們的日常生活和工作帶來(lái)極大便利,進(jìn)一步推動(dòng)社會(huì)進(jìn)步。