智能網(wǎng)絡(luò)的終點(diǎn),是語(yǔ)音掌控萬(wàn)物嗎?
三年前,當(dāng)Gartner在Gartner Symposium/ITxpo 2013大會(huì)上提出“萬(wàn)物互聯(lián)”概念時(shí),這個(gè)世界就注定變得與以往不同。我們正從今天的“物聯(lián)網(wǎng)”(IoT:internet of things)走入“萬(wàn)物互聯(lián)”(IoE:internet of Everything)的時(shí)代。
人們不斷追求將萬(wàn)事萬(wàn)物連接起來(lái),從智能手機(jī)到智能家居,再到汽車(chē)的智能系統(tǒng),發(fā)展日新月異。然而,這并不是萬(wàn)物互聯(lián)的全部?jī)?nèi)涵。通過(guò)手機(jī)操控一個(gè)電插頭并不是人類(lèi)的終極未來(lái)——那只是一個(gè)簡(jiǎn)單的連接,更智慧的互動(dòng)將被應(yīng)用。在物聯(lián)網(wǎng)之后,萬(wàn)物互聯(lián)的下一個(gè)熱點(diǎn)在哪里?筆者認(rèn)為是語(yǔ)音技術(shù)。
在百度語(yǔ)音最近舉辦的語(yǔ)音技術(shù)媒體溝通會(huì)上,筆者看到,無(wú)論是汽車(chē)還是機(jī)器人,語(yǔ)音帶來(lái)了真正的智能化體驗(yàn)。對(duì)著汽車(chē)說(shuō),”帶我到最近的加油站“,汽車(chē)導(dǎo)航就會(huì)自動(dòng)搜索距離你最近的加油站,甚至未來(lái)可以開(kāi)啟自動(dòng)駕駛功能,幫助主人實(shí)現(xiàn)目標(biāo)。而對(duì)著小度機(jī)器人說(shuō),“聽(tīng)一段懸疑小說(shuō)”,小度就會(huì)為你聲色并茂地朗讀一段懸疑小說(shuō),先進(jìn)的語(yǔ)音合成技術(shù)幾乎完美地模擬出真人的音聲、音調(diào)與情緒的起伏,令人沉浸其中。而更加令人激動(dòng)的是,即便是用方言說(shuō),“想看《新白娘子傳奇》”,或者以自定義的昵稱(chēng)“小樂(lè)”喚醒你的手機(jī),百度語(yǔ)音技術(shù)也能準(zhǔn)確識(shí)別、理解用戶(hù)的需求,并啟動(dòng)終端設(shè)備與之互動(dòng)。在會(huì)上,百度語(yǔ)音還免費(fèi)開(kāi)放了喚醒與自定義語(yǔ)義兩項(xiàng)功能,將進(jìn)一步推動(dòng)多終端一體“音入口”普及、終端語(yǔ)音識(shí)別率提升。
為什么說(shuō)語(yǔ)音技術(shù)將是智能網(wǎng)絡(luò)的未來(lái)呢?因?yàn)槟壳暗闹悄芫W(wǎng)絡(luò)存在顯著瓶頸。一方面,人機(jī)交互界面主要以文字、圖片為主,對(duì)操作者的IT素養(yǎng)要求很高。在自動(dòng)提款機(jī)上,想要取出一張一百元鈔票,需要用戶(hù)至少準(zhǔn)確無(wú)誤地按下十來(lái)個(gè)按鍵才能完成操作。另外一方面,人機(jī)交互的過(guò)程往往只是單向、非閉環(huán)、非全自動(dòng)化的。比如在醫(yī)院、高速收費(fèi)口或地鐵口,取卡與讀卡的效率甚至還不如人工。這些種種的瓶頸,導(dǎo)致智能網(wǎng)絡(luò)的操作門(mén)檻與成本都居高不下。
解決上述問(wèn)題,并不能單獨(dú)從操作邏輯的優(yōu)化、網(wǎng)絡(luò)或硬件的改進(jìn)等入手,而需要從界面和大腦兩個(gè)層次入手。首先,從互動(dòng)方式看,要遵循人性。人類(lèi)最天然的交流方式并非文字,而是語(yǔ)言。即便是嬰兒,也會(huì)在呱呱落地時(shí)哇哇大哭,引發(fā)父母的關(guān)注,其一哼一哈,均蘊(yùn)含著豐富的意義,慈悲的父母,總能準(zhǔn)確地感知。因此,在交流方式上,未來(lái)的智能網(wǎng)絡(luò)勢(shì)必從現(xiàn)有的文字為主的書(shū)面溝通方式,進(jìn)一步升級(jí)為更加人性化的語(yǔ)音交流。因?yàn)樵诮涣鞣绞缴?,人們最快的方式是說(shuō)話(huà),而不是書(shū)面化的人機(jī)交互。
其次,未來(lái)的智能網(wǎng)絡(luò),通過(guò)云能力的布置,每個(gè)設(shè)備都可以擁有一個(gè)影子“大腦”?,F(xiàn)在的智能設(shè)備之所以不夠智能,是因?yàn)闆](méi)有最強(qiáng)大腦??照{(diào)太干燥了,不知道啟動(dòng)加濕器;電飯煲啟動(dòng)了,自動(dòng)炒鍋卻笨到不會(huì)啟動(dòng),需要人工投料、啟動(dòng)。這是因?yàn)樗麄冎荒芙邮芎?jiǎn)單的輸入,沒(méi)有理解和輸出能力,所以又笨又啞。而伴隨著百度大腦這樣的技術(shù)平臺(tái)不斷開(kāi)放,語(yǔ)音技術(shù)中的語(yǔ)音識(shí)別、語(yǔ)音理解、語(yǔ)音合成等能力就完全可以賦予給一切終端,令他們通過(guò)“云”的蟲(chóng)洞,瞬間免費(fèi)擁有影子“最強(qiáng)大腦”,從而變得智能可交互,創(chuàng)造無(wú)限可能。
如此一來(lái),所有的物,不論是人、設(shè)備、軟件,都將會(huì)獲得語(yǔ)境感知,增強(qiáng)的處理能力和更好的感應(yīng)能力。智能網(wǎng)絡(luò)的終極追求,應(yīng)該是語(yǔ)音即可掌控萬(wàn)物。那么,相比目前的互聯(lián)網(wǎng),這樣的智能網(wǎng)絡(luò)規(guī)模將得到以萬(wàn)倍計(jì)算的增長(zhǎng),并且智能程度大幅提升——因?yàn)槟壳敖尤牖ヂ?lián)網(wǎng)的“物”,還只占到全部數(shù)量的1%,而且大多數(shù)“物”均沉默無(wú)語(yǔ)。
1980年,以太網(wǎng)的發(fā)明者梅特卡夫提出,網(wǎng)絡(luò)的價(jià)值V與其用戶(hù)數(shù)量n的平方成正比,這就是大名鼎鼎的梅特卡夫定律(Metcalfe’s Law)。我們可以相信,梅特卡夫定律依然將作用于萬(wàn)物互聯(lián)時(shí)代。
2016年,百度創(chuàng)始人李彥宏指出,互聯(lián)網(wǎng)即將迎來(lái)發(fā)展下一幕,推動(dòng)其發(fā)展的核心動(dòng)力,是人工智能。而人工智能的第一領(lǐng)域是語(yǔ)音識(shí)別?;蛟S,我們可以將之稱(chēng)為李彥宏法則——無(wú)智能,不未來(lái),無(wú)語(yǔ)音,不智能。
將梅特卡夫定律與李彥宏法則疊加,我們不難看到萬(wàn)物互聯(lián)的未來(lái),一個(gè)集合十億甚至萬(wàn)億連接的龐大網(wǎng)絡(luò)將會(huì)出現(xiàn),并且每個(gè)連接其中的“物”都能聽(tīng)會(huì)說(shuō)?;蛟S,這才是孔老夫子“君子動(dòng)口不動(dòng)手”的本意?
音聲世界,見(jiàn)所未見(jiàn)!