国语对白一区二区三区,亚洲无码国产高清

智慧語音四步走，讓人工智能變性感

責(zé)任編輯：editor006

作者：柳華芳

2015-01-21 15:13:05

摘自：百度百家

摘要 : 在我的理解里，智慧語音技術(shù)和應(yīng)用按照其智能程度、價值水平、交互層次、思考深度等分為四大發(fā)展階段：語音聊天、語音操控、情感化人格化、人機合一　開車時候不需要用手觸摸操作手機了，語音操控交互模式在駕駛模式下變成剛性需求了

摘要 : 在我的理解里，智慧語音技術(shù)和應(yīng)用按照其智能程度、價值水平、交互層次、思考深度等分為四大發(fā)展階段：語音聊天、語音操控、情感化人格化、人機合一

在周末的極客公園年會上，百度公司創(chuàng)始人李彥宏大談人工智能，robin認(rèn)為現(xiàn)在人工智能已經(jīng)趨于成熟，在移動互聯(lián)網(wǎng)時代，技術(shù)變得更加重要。與此同時，奇點大學(xué)的校長Ray Kurzweil表示2020 年我們模擬人類智能的成本就很低了， 2045 年人工智能超越人類的智慧帶來全新形態(tài)的文明。

人工智能的新文明讓人向往，我很期待自己有一個像《星際穿越》里塔斯(Tars)一樣聰明的機器人伙伴，不僅能幫我解答難題，還能陪我嘮嗑聊妹子。然而，即便到了2045年，也許只是實驗室的人工智能大突破，我們普通人也未必能有自己的Tars。

相比頗具科幻感的未來人工智能，普通大眾更容易接觸到的是智能語音技術(shù)帶來的生活改變，中興通訊、nuance、audience、百度、高德、中國科學(xué)院自動化所等近十家單位成了智慧語音聯(lián)盟，已經(jīng)在布局智慧語音技術(shù)的規(guī)模應(yīng)用和生態(tài)建設(shè)。智慧語音作為人工智能前端的交互模式，更接近于人類交流模式，而且可以分階段、分層次、分深度地融入手機、汽車、家電等設(shè)備中，一步步地牽引人們走向人工智能的時代。

科技革命：智慧語音的四大階段

在我的理解里，智慧語音技術(shù)和應(yīng)用按照其智能程度、價值水平、交互層次、思考深度等分為四大發(fā)展階段：語音聊天、語音操控、情感化人格化、人機合一。

語音聊天。這是語音技術(shù)的初級模型建立期。語音聊天是機器學(xué)習(xí)的過程，也是賦予機器思考能力的過程，人們和機器人進行對話聊天的過程中，機器人越來越智慧，并逐步建立人的樣本特征庫。像iphone 上的siri、小娜等聊天機器人都是用大數(shù)據(jù)和機器學(xué)習(xí)的技術(shù)進行人機對話，這些聊天大多數(shù)是娛樂需求，在早期活躍度很高，但隨著人們新鮮期的退潮，語音聊天的熱度持續(xù)性在大幅降低。

語音操控。這是智慧語音的應(yīng)用階段，將語音技術(shù)和系統(tǒng)軟件的深度整合，是賦予機器功能以運動能力和語言系統(tǒng)控制的能力，好比人的語言命令系統(tǒng)。此階段，讓機器和人的溝通超出了聊天對話，而具有現(xiàn)實的應(yīng)用價值，發(fā)揮技術(shù)生產(chǎn)力價值。把語音內(nèi)嵌到操作系統(tǒng)里，可以通過智慧語音來喚醒手機的應(yīng)用、通訊錄、撥打電話、聽音樂等功能。最搶眼的是駕駛模式下可以通過語音全操控手機，不需要觸摸手機或屏幕就可以喚醒手機，并操控手機，還可以智能播報短信、語音轉(zhuǎn)文字等，將智慧語音的交互模式優(yōu)勢發(fā)揮到了極致。

情感化和人格化。相比語音操控的語音和機器深度整合，智慧語言的下一步也許是更加充滿情感，像人一樣有情感交流，人格化是智慧語音接近于人類自然語言系統(tǒng)的高級境界。此階段，語音操控會是最基本的智慧能力，星星x號的智慧語音或許可以聽出人的語氣、情緒、態(tài)度，而不僅僅是通過簡單的字面意義的互動，它們會像你的助理一樣陪著你生活、快樂、感傷，這就要要求智慧語音系統(tǒng)有高超的聲紋識別技術(shù)和聰明的大腦。

人機合一。這聽起來就比較科幻了，但是從目前的人工智能技術(shù)發(fā)展來看，也許10-20年內(nèi)是能夠?qū)崿F(xiàn)的，這個階段智能語音交互模式已經(jīng)無限接近于人類的語言系統(tǒng)，并能將人類的自然語言轉(zhuǎn)化成操控機器的指令系統(tǒng)，能夠主動地為主人提供服務(wù)，并通過開放api能夠語音操控非常多設(shè)備。機器像人一樣思考，能夠理解人的語言含義和情感系統(tǒng)，每一個機器像自己的兄弟一樣可以一起戰(zhàn)斗。

現(xiàn)階段智慧語音給我們帶來了什么

Siri、小娜們帶了智能手機的擬人化互動溝通樂趣，偶爾放松一下也無妨，但由于其只是獨立app，需要觸控操作喚醒，能夠?qū)崿F(xiàn)的語音操控十分有限，是智慧語音時代一個良好的趣味開始。siri的貢獻是讓人們發(fā)現(xiàn)了語音技術(shù)的力量，并培養(yǎng)了初步的用戶習(xí)慣，開啟了智慧語音的大門。

星星2號的智慧語音水平是第二階段的，重點強化了語音系統(tǒng)和手機操作系統(tǒng)的深度整合，語音可以操控手機的主要功能需求，其最大的特點是駕駛模式場景，智慧語音的交互模式展示了高實用價值。開車時候不需要用手觸摸操作手機了，語音操控交互模式在駕駛模式下變成剛性需求了。

智慧語音操控基本上夠用，駕駛模式下大部分操控都已經(jīng)實現(xiàn)了，用的住，同時，希望中興能夠在后續(xù)版本技術(shù)升級中不斷增加細(xì)粒度，也就是提高智慧語音操控手機和應(yīng)用的種類、應(yīng)用內(nèi)動作等。比如，是否可以在未來通過開放api的方式讓一些經(jīng)常使用的應(yīng)用能夠接入進來，比如駕駛模式下語音讀新聞、讀帖子、讀小說應(yīng)用里的小說、讀微信朋友圈文字等等，將整個手機操作系統(tǒng)徹底實現(xiàn)語音操控。(當(dāng)然，這么干，成本是很高的，一步步來，先做好價值高的部分)

智慧語音的個性化會很有趣

內(nèi)嵌的智慧語音現(xiàn)在能夠喚醒并打開使用高德地圖，但是高德地圖有個林志玲版播報、郭德綱版播報，我很喜歡高德地圖這個功能，讓天天見到的地圖應(yīng)用充滿了樂趣和親切感，如果中興也借鑒一下高德地圖的這個思路會很有趣。每天林志玲、郭德綱們給我打開音樂、搜這搜那，讀短信，會是很拉風(fēng)的一件事兒。

口音識別的技術(shù)現(xiàn)在做的總體還是不錯的，但還需要提升，降噪是一個思路，我在想，智慧語音能識別口音，是否它能用煙臺話和我交互呢?根據(jù)我對漢語的研究，四川話、山西陜西話、膠東話、蘇浙口音、閩粵、客家等差異都比較大，現(xiàn)在智慧語音是把土話識別成普通話，那么，是否可以逆向思維，輸出土話呢?比如，我的星星手機起名為“小嫚”，我跟她說“小嫚，過來哈點兒酒吧”，智慧語音估計很難識別出來，這個機器學(xué)習(xí)是否能夠解決呢?

我還想到一個有趣的場景，羅永浩一直被稱為手機界里相聲說的最好的，其實，演講能力大家是都需要的。智慧語音的機器人可以扮演觀眾，手機主人面對觀眾進行演講訓(xùn)練，每當(dāng)稍長停頓就來點鼓勵或掌聲，讓每一個人都變成相聲演員，讓靦腆內(nèi)向的人走出封閉，讓孤獨寂寞的人有一地方宣泄。所以，我覺得語音情景模式和場景細(xì)節(jié)中很多東西，這些可以構(gòu)建出一個智慧語音產(chǎn)品層面的store，讓社群參與智慧語音的外部研究和應(yīng)用場景研究。

語音操控的更高境界是什么

語音操控的核心就是語言系統(tǒng)和操作系統(tǒng)的無縫整合，語音指令系統(tǒng)和操作系統(tǒng)api的整合統(tǒng)一，在語音模式下，語音指令權(quán)重更高，操作系統(tǒng)的api起到很重要的作用。逆向思維，智慧語音的操控系統(tǒng)同樣也是可以輸出api的，如果以語音操控系統(tǒng)為基點，開放語音操控api給手機app開發(fā)者們，讓各種優(yōu)秀應(yīng)用的操作都能夠接入到語音操控系統(tǒng)里，這樣智慧語音就可以更早一天實現(xiàn)全語音操控手機和使用應(yīng)用。

更進一步，既然語音操控能夠開放api，那么，就意味著可以進行復(fù)雜的api編程，可以根據(jù)算法序列將一個個語音指令連續(xù)起來，并且可以接入到工業(yè)機器人、軍用機器人、園藝機器人等身上，從而實現(xiàn)語音遠(yuǎn)程操控系統(tǒng)。這樣，我們就可以遠(yuǎn)程語音和家里的機器人管家對話了，這有點像我們現(xiàn)在正在推進智能家居的連接工作。

高級的語音操控編程在計算能力支撐之下，可以和人進行實時地遠(yuǎn)程對話交流，我軍派出的無人機在自動化戰(zhàn)斗的同時，也可以聽從指揮部或預(yù)警機空中指揮部直接進行語音指揮作戰(zhàn)，此時，一言既出，駟馬也能追啦。

語音技術(shù)