摘要 : 在我的理解里,智慧語音技術(shù)和應(yīng)用按照其智能程度、價值水平、交互層次、思考深度等分為四大發(fā)展階段:語音聊天、語音操控、情感化人格化、人機合一
在周末的極客公園年會上,百度公司創(chuàng)始人李彥宏大談人工智能,robin認(rèn)為現(xiàn)在人工智能已經(jīng)趨于成熟,在移動互聯(lián)網(wǎng)時代,技術(shù)變得更加重要。與此同時,奇點大學(xué)的校長Ray Kurzweil表示2020 年我們模擬人類智能的成本就很低了, 2045 年人工智能超越人類的智慧帶來全新形態(tài)的文明。
人工智能的新文明讓人向往,我很期待自己有一個像《星際穿越》里塔斯(Tars)一樣聰明的機器人伙伴,不僅能幫我解答難題,還能陪我嘮嗑聊妹子。然而,即便到了2045年,也許只是實驗室的人工智能大突破,我們普通人也未必能有自己的Tars。
相比頗具科幻感的未來人工智能,普通大眾更容易接觸到的是智能語音技術(shù)帶來的生活改變,中興通訊、nuance、audience、百度、高德、中國科學(xué)院自動化所等近十家單位成了智慧語音聯(lián)盟,已經(jīng)在布局智慧語音技術(shù)的規(guī)模應(yīng)用和生態(tài)建設(shè)。智慧語音作為人工智能前端的交互模式,更接近于人類交流模式,而且可以分階段、分層次、分深度地融入手機、汽車、家電等設(shè)備中,一步步地牽引人們走向人工智能的時代。
科技革命:智慧語音的四大階段
在我的理解里,智慧語音技術(shù)和應(yīng)用按照其智能程度、價值水平、交互層次、思考深度等分為四大發(fā)展階段:語音聊天、語音操控、情感化人格化、人機合一。
語音聊天。這是語音技術(shù)的初級模型建立期。語音聊天是機器學(xué)習(xí)的過程,也是賦予機器思考能力的過程,人們和機器人進行對話聊天的過程中,機器人越來越智慧,并逐步建立人的樣本特征庫。像iphone 上的siri、小娜等聊天機器人都是用大數(shù)據(jù)和機器學(xué)習(xí)的技術(shù)進行人機對話,這些聊天大多數(shù)是娛樂需求,在早期活躍度很高,但隨著人們新鮮期的退潮,語音聊天的熱度持續(xù)性在大幅降低。
語音操控。這是智慧語音的應(yīng)用階段,將語音技術(shù)和系統(tǒng)軟件的深度整合,是賦予機器功能以運動能力和語言系統(tǒng)控制的能力,好比人的語言命令系統(tǒng)。此階段,讓機器和人的溝通超出了聊天對話,而具有現(xiàn)實的應(yīng)用價值,發(fā)揮技術(shù)生產(chǎn)力價值。把語音內(nèi)嵌到操作系統(tǒng)里,可以通過智慧語音來喚醒手機的應(yīng)用、通訊錄、撥打電話、聽音樂等功能。最搶眼的是駕駛模式下可以通過語音全操控手機,不需要觸摸手機或屏幕就可以喚醒手機,并操控手機,還可以智能播報短信、語音轉(zhuǎn)文字等,將智慧語音的交互模式優(yōu)勢發(fā)揮到了極致。
情感化和人格化。相比語音操控的語音和機器深度整合,智慧語言的下一步也許是更加充滿情感,像人一樣有情感交流,人格化是智慧語音接近于人類自然語言系統(tǒng)的高級境界。此階段,語音操控會是最基本的智慧能力,星星x號的智慧語音或許可以聽出人的語氣、情緒、態(tài)度,而不僅僅是通過簡單的字面意義的互動,它們會像你的助理一樣陪著你生活、快樂、感傷,這就要要求智慧語音系統(tǒng)有高超的聲紋識別技術(shù)和聰明的大腦。
人機合一。這聽起來就比較科幻了,但是從目前的人工智能技術(shù)發(fā)展來看,也許10-20年內(nèi)是能夠?qū)崿F(xiàn)的,這個階段智能語音交互模式已經(jīng)無限接近于人類的語言系統(tǒng),并能將人類的自然語言轉(zhuǎn)化成操控機器的指令系統(tǒng),能夠主動地為主人提供服務(wù),并通過開放api能夠語音操控非常多設(shè)備。機器像人一樣思考,能夠理解人的語言含義和情感系統(tǒng),每一個機器像自己的兄弟一樣可以一起戰(zhàn)斗。
現(xiàn)階段智慧語音給我們帶來了什么
Siri、小娜們帶了智能手機的擬人化互動溝通樂趣,偶爾放松一下也無妨,但由于其只是獨立app,需要觸控操作喚醒,能夠?qū)崿F(xiàn)的語音操控十分有限,是智慧語音時代一個良好的趣味開始。siri的貢獻是讓人們發(fā)現(xiàn)了語音技術(shù)的力量,并培養(yǎng)了初步的用戶習(xí)慣,開啟了智慧語音的大門。
星星2號的智慧語音水平是第二階段的,重點強化了語音系統(tǒng)和手機操作系統(tǒng)的深度整合,語音可以操控手機的主要功能需求,其最大的特點是駕駛模式場景,智慧語音的交互模式展示了高實用價值。開車時候不需要用手觸摸操作手機了,語音操控交互模式在駕駛模式下變成剛性需求了。
智慧語音操控基本上夠用,駕駛模式下大部分操控都已經(jīng)實現(xiàn)了,用的住,同時,希望中興能夠在后續(xù)版本技術(shù)升級中不斷增加細(xì)粒度,也就是提高智慧語音操控手機和應(yīng)用的種類、應(yīng)用內(nèi)動作等。比如,是否可以在未來通過開放api的方式讓一些經(jīng)常使用的應(yīng)用能夠接入進來,比如駕駛模式下語音讀新聞、讀帖子、讀小說應(yīng)用里的小說、讀微信朋友圈文字等等,將整個手機操作系統(tǒng)徹底實現(xiàn)語音操控。(當(dāng)然,這么干,成本是很高的,一步步來,先做好價值高的部分)
智慧語音的個性化會很有趣
內(nèi)嵌的智慧語音現(xiàn)在能夠喚醒并打開使用高德地圖,但是高德地圖有個林志玲版播報、郭德綱版播報,我很喜歡高德地圖這個功能,讓天天見到的地圖應(yīng)用充滿了樂趣和親切感,如果中興也借鑒一下高德地圖的這個思路會很有趣。每天林志玲、郭德綱們給我打開音樂、搜這搜那,讀短信,會是很拉風(fēng)的一件事兒。
口音識別的技術(shù)現(xiàn)在做的總體還是不錯的,但還需要提升,降噪是一個思路,我在想,智慧語音能識別口音,是否它能用煙臺話和我交互呢?根據(jù)我對漢語的研究,四川話、山西陜西話、膠東話、蘇浙口音、閩粵、客家等差異都比較大,現(xiàn)在智慧語音是把土話識別成普通話,那么,是否可以逆向思維,輸出土話呢?比如,我的星星手機起名為“小嫚”,我跟她說“小嫚,過來哈點兒酒吧”,智慧語音估計很難識別出來,這個機器學(xué)習(xí)是否能夠解決呢?
我還想到一個有趣的場景,羅永浩一直被稱為手機界里相聲說的最好的,其實,演講能力大家是都需要的。智慧語音的機器人可以扮演觀眾,手機主人面對觀眾進行演講訓(xùn)練,每當(dāng)稍長停頓就來點鼓勵或掌聲,讓每一個人都變成相聲演員,讓靦腆內(nèi)向的人走出封閉,讓孤獨寂寞的人有一地方宣泄。所以,我覺得語音情景模式和場景細(xì)節(jié)中很多東西,這些可以構(gòu)建出一個智慧語音產(chǎn)品層面的store,讓社群參與智慧語音的外部研究和應(yīng)用場景研究。
語音操控的更高境界是什么
語音操控的核心就是語言系統(tǒng)和操作系統(tǒng)的無縫整合,語音指令系統(tǒng)和操作系統(tǒng)api的整合統(tǒng)一,在語音模式下,語音指令權(quán)重更高,操作系統(tǒng)的api起到很重要的作用。逆向思維,智慧語音的操控系統(tǒng)同樣也是可以輸出api的,如果以語音操控系統(tǒng)為基點,開放語音操控api給手機app開發(fā)者們,讓各種優(yōu)秀應(yīng)用的操作都能夠接入到語音操控系統(tǒng)里,這樣智慧語音就可以更早一天實現(xiàn)全語音操控手機和使用應(yīng)用。
更進一步,既然語音操控能夠開放api,那么,就意味著可以進行復(fù)雜的api編程,可以根據(jù)算法序列將一個個語音指令連續(xù)起來,并且可以接入到工業(yè)機器人、軍用機器人、園藝機器人等身上,從而實現(xiàn)語音遠(yuǎn)程操控系統(tǒng)。這樣,我們就可以遠(yuǎn)程語音和家里的機器人管家對話了,這有點像我們現(xiàn)在正在推進智能家居的連接工作。
高級的語音操控編程在計算能力支撐之下,可以和人進行實時地遠(yuǎn)程對話交流,我軍派出的無人機在自動化戰(zhàn)斗的同時,也可以聽從指揮部或預(yù)警機空中指揮部直接進行語音指揮作戰(zhàn),此時,一言既出,駟馬也能追啦。