智能音箱需要生態(tài)鏈打磨,功夫決定體驗(yàn),不能忽視任何細(xì)節(jié)。很多時(shí)候我們給予大數(shù)據(jù)和深度學(xué)習(xí)過(guò)高的贊譽(yù),反而讓眾多的研究人員犯了懶,這個(gè)世界從來(lái)不是搞搞數(shù)據(jù)就能明白的,對(duì)物理世界的探索,對(duì)人類(lèi)哲理的思考,才是推動(dòng)社會(huì)進(jìn)步的力量。
隨著Google Home的發(fā)布,智能音箱鼻祖Amazon Echo再次成為關(guān)注焦點(diǎn),這款產(chǎn)品儼然成為了新時(shí)代智能硬件的代表。當(dāng)然,Amazon Echo確實(shí)也不負(fù)眾望,不僅銷(xiāo)量攀升到千萬(wàn)級(jí)別,而且研發(fā)力量也超過(guò)了千人,前幾日又開(kāi)放了400人規(guī)模的職位招聘。
一般來(lái)說(shuō),國(guó)外成功的模式或者產(chǎn)品,最多一年左右時(shí)間,國(guó)內(nèi)就會(huì)成功復(fù)制甚至快速趕超。但是Amazon Echo卻是個(gè)例外,自從2014年發(fā)布以來(lái),國(guó)外只有谷歌花了近兩年的時(shí)間才推出Home這樣的競(jìng)品,由于剛剛發(fā)售,具體銷(xiāo)售情況我們還要拭目以待。但是國(guó)內(nèi)情況怎樣呢?國(guó)內(nèi)花了兩年多時(shí)間也仿制出了幾款產(chǎn)品,然而都沒(méi)有復(fù)制出Amazon Echo這種能被大眾普遍接受的產(chǎn)品。
這也是國(guó)內(nèi)很多廠商百思不得其解的問(wèn)題,為何同樣花了很多功夫,但做出來(lái)的產(chǎn)品就是得不到用戶(hù)的認(rèn)同呢?國(guó)內(nèi)同類(lèi)產(chǎn)品慘淡的銷(xiāo)量,也讓很多國(guó)內(nèi)互聯(lián)網(wǎng)巨頭始終無(wú)法下定決心投入研發(fā)類(lèi)似Amazon Echo的這樣的智能音箱產(chǎn)品。這到底是為什么呢?
| 智能音箱需要生態(tài)鏈打磨,功夫決定體驗(yàn),不能忽視任何細(xì)節(jié)
智能音箱,作為語(yǔ)音智能助手的家庭入口,遠(yuǎn)遠(yuǎn)超出了音箱定義的范疇,這是硬件?軟件?還是平臺(tái)?很難界定,智能音箱涉及了語(yǔ)音交互的完整生態(tài)鏈。如果不把這款產(chǎn)品作為戰(zhàn)略產(chǎn)品來(lái)投入研發(fā),估計(jì)做出的產(chǎn)品難免差強(qiáng)人意。雖然國(guó)內(nèi)很多廠商都自認(rèn)為投入巨大,但是相比Amazon Echo來(lái)說(shuō),這就有點(diǎn)小巫見(jiàn)大巫了。Amazon不僅投入上千人研發(fā),還可以把Echo廣告做進(jìn)超級(jí)碗。這和手機(jī)之間的競(jìng)爭(zhēng)非常類(lèi)似,國(guó)產(chǎn)有些品牌手機(jī)也自認(rèn)為不錯(cuò),但是用戶(hù)拿到手中,心中自然就會(huì)有個(gè)衡量區(qū)分。事實(shí)上,公司之間競(jìng)爭(zhēng),不在于投入20%實(shí)現(xiàn)的80%,而在于投入80%才換來(lái)的20%。大多時(shí)候,往往就是這20%決定了公司競(jìng)爭(zhēng)的成敗。但是國(guó)內(nèi)愿意投入這80%的畢竟還是少數(shù),特別是面向新興市場(chǎng)的產(chǎn)品,若不能做到精致的用戶(hù)體驗(yàn),傾注足夠的心血,得不到用戶(hù)認(rèn)同也就在情理之中。
事實(shí)上,Amazon Echo的誕生也不是一帆風(fēng)順的。
承擔(dān)Amazon Echo研發(fā)任務(wù)的是Amazon 126,這個(gè)公司成立于2004年,主要擔(dān)負(fù)Amazon硬件產(chǎn)品的研發(fā)任務(wù)。Amazon 126曾經(jīng)同時(shí)研發(fā)了四款產(chǎn)品,Echo是處于Kindle、Fire Phone和AR之后的D類(lèi)研發(fā)任務(wù),甚至其研發(fā)成員主要也是AR項(xiàng)目組分出來(lái)的,2010年末啟動(dòng)的時(shí)候想必沒(méi)人會(huì)看好這個(gè)音箱。Amazon Echo也不是最初的名字,而是Amazon Flash,甚至2014年發(fā)貨前夕還是這個(gè)名字。Echo也是幸運(yùn)的,由于Fire Phone的失敗,AR項(xiàng)目被停止,這讓Echo直接受益,短暫的內(nèi)部調(diào)整后大大增強(qiáng)了研發(fā)力量,但是即便這樣,內(nèi)部還是存在不少爭(zhēng)議,這讓剛剛面世的Echo不敢公開(kāi)銷(xiāo)售,轉(zhuǎn)而采取邀請(qǐng)購(gòu)買(mǎi)的方式試水市場(chǎng)。
Amazon Echo雖然研發(fā)多年,對(duì)于技術(shù)的追求也是一種極致,但這并沒(méi)有挽回Echo在2014年發(fā)布時(shí)候的尷尬,當(dāng)時(shí)的用戶(hù)體驗(yàn)也就是一個(gè)演示模型而已,從算法到內(nèi)容,都存在不少問(wèn)題。當(dāng)然,隨著用戶(hù)規(guī)模的不斷擴(kuò)大,以及研發(fā)力量的持續(xù)增加,Echo也有了長(zhǎng)足的改善,其內(nèi)容聚合也因?yàn)槠溟_(kāi)放策略而迅速發(fā)展,這也為后來(lái)Echo屢次拿到100美元以上產(chǎn)品銷(xiāo)量冠軍打下了基礎(chǔ)。
Amazon Echo的本質(zhì)屬性仍然是個(gè)音箱,雖然Echo的音質(zhì)差強(qiáng)人意,但是在當(dāng)前HiFi音箱衰落,藍(lán)牙音箱當(dāng)?shù)赖臅r(shí)代,音質(zhì)對(duì)于大部分消費(fèi)者來(lái)說(shuō)已經(jīng)不是第一要素。使用簡(jiǎn)單、外觀漂亮才是用戶(hù)購(gòu)買(mǎi)無(wú)線(xiàn)音箱的主要?jiǎng)恿?。雖然Echo的造型設(shè)計(jì)中規(guī)中矩,但是Echo卻是聲學(xué)和智能相配的結(jié)合,智能僅是Echo的擴(kuò)展屬性,而刻意去掉的顯示屏更凸顯了Amazon對(duì)于語(yǔ)音交互的信心與執(zhí)著。這種戰(zhàn)略意識(shí)國(guó)內(nèi)還是普遍缺乏的,過(guò)分聚焦于Echo的功能差異確實(shí)很難復(fù)制Echo的成功,更何況國(guó)內(nèi)產(chǎn)品設(shè)計(jì)和策劃方面確實(shí)還不如Echo精致。
這里說(shuō)的精致,真的是需要用心體驗(yàn)的。
舉一個(gè)例子,語(yǔ)音喚醒,國(guó)內(nèi)總喜歡標(biāo)榜超過(guò)了Alexa,然而,如果真拿指標(biāo)這件事情說(shuō)事,國(guó)內(nèi)的產(chǎn)品虛警率飄高,莫名其妙的就誤喚醒,這蠻討厭,突然間一個(gè)音箱說(shuō)話(huà)回應(yīng)你一個(gè)莫須有的問(wèn)題,這種事情偶爾發(fā)生也是受不了的。至于工藝設(shè)計(jì)方面,每個(gè)人都有一個(gè)審美標(biāo)準(zhǔn),很難評(píng)判Echo和Home為何看著舒服,但是至少要比垃圾桶的音箱造型好看一些。
精心打磨一個(gè)生態(tài)鏈產(chǎn)品,除了需要考慮多方面的細(xì)節(jié),還需要集中自家的優(yōu)勢(shì)資源。比如說(shuō)語(yǔ)音交互,國(guó)外巨頭不斷收購(gòu)相關(guān)公司壯大實(shí)力,而國(guó)內(nèi)公司總是喜歡自家組建小團(tuán)隊(duì)搞定一切,試問(wèn)精力如此分散如何才能超過(guò)國(guó)外的巨頭?何況語(yǔ)音交互壓根也不是搞搞深度學(xué)習(xí)就能解決的,這本身就需要對(duì)聲學(xué)和智能都有深刻的理解和長(zhǎng)期的積累才能做好。
|語(yǔ)音交互的現(xiàn)場(chǎng)感和即時(shí)性是關(guān)鍵因素,但是目前還是欠點(diǎn)火候
語(yǔ)音交互毋庸置疑是繼鍵盤(pán)、鼠標(biāo)和觸摸屏之后的主流交互方式,但是距離真正走入千家萬(wàn)戶(hù)還總是差那么一點(diǎn)。
這里面有很多因素,比如說(shuō)廠商總覺(jué)得語(yǔ)音交互根本沒(méi)有智能,事實(shí)確實(shí)也是如此。世界上還沒(méi)有任何一家公司能讓語(yǔ)音交互做到不傻,語(yǔ)音智能的水平仍舊停留在關(guān)鍵詞的內(nèi)容識(shí)別和上下文分析,所謂的語(yǔ)法和語(yǔ)感學(xué)術(shù)界都還沒(méi)有清晰的思路。這需要長(zhǎng)久的研究突破,不僅限于當(dāng)前火熱的機(jī)器學(xué)習(xí)和大數(shù)據(jù),更需要考慮物理世界的概念和模型,最起碼也要明白嬰兒學(xué)習(xí)語(yǔ)言的過(guò)程。從這個(gè)思路來(lái)看,現(xiàn)在的人工智能距離實(shí)現(xiàn)真正的智能語(yǔ)音交互還差著十萬(wàn)八千里。
很多時(shí)候我們給予大數(shù)據(jù)和深度學(xué)習(xí)過(guò)高的贊譽(yù),反而讓眾多的研究人員犯了懶,這個(gè)世界從來(lái)不是搞搞數(shù)據(jù)就能明白的,對(duì)物理世界的探索,對(duì)人類(lèi)哲理的思考,才是推動(dòng)社會(huì)進(jìn)步的力量。
上述或許只是個(gè)共性,Amazon Echo其實(shí)也面臨同樣的困境,甚至還有很多人批評(píng)Echo的語(yǔ)音合成也不夠好,因?yàn)槿祟?lèi)總希望自己的話(huà)語(yǔ)能得到類(lèi)似的回應(yīng)。不能說(shuō)Amazon不重視這個(gè)問(wèn)題,事實(shí)上Amazon強(qiáng)化了另一層面,不是語(yǔ)音合成的自然程度,而是語(yǔ)音回答的反應(yīng)速度。語(yǔ)音合成當(dāng)前確實(shí)很難做到如同人類(lèi)一樣自然,但是距離這個(gè)目標(biāo)也不太遙遠(yuǎn)。上個(gè)月Google發(fā)布WaveNet引起語(yǔ)音合成領(lǐng)域的震動(dòng),這是一個(gè)新的思路。在此之前,語(yǔ)音合成已經(jīng)很長(zhǎng)時(shí)間沒(méi)有任何實(shí)質(zhì)性的進(jìn)步,無(wú)非就是參數(shù)化和拼接式兩種方法。這幾種方法筆者在《如何評(píng)價(jià)谷歌的語(yǔ)音合成WaveNet和微軟的語(yǔ)音識(shí)別“里程碑”?》做了對(duì)比分析,不過(guò),事實(shí)上這不是現(xiàn)階段用戶(hù)關(guān)心的重點(diǎn)。
事實(shí)證明,Amazon Echo的押注選擇是正確的,用戶(hù)更為關(guān)心的是人機(jī)對(duì)話(huà)的現(xiàn)場(chǎng)感,從指標(biāo)上來(lái)分析,其中一個(gè)重要參數(shù)就是機(jī)器的響應(yīng)速度,Echo剛開(kāi)始是5秒,后來(lái)壓到1.5秒,再后來(lái)就是1秒以?xún)?nèi),注意這是平均響應(yīng)時(shí)間,而不是國(guó)內(nèi)的峰值指標(biāo)。
人機(jī)對(duì)話(huà)的現(xiàn)場(chǎng)感挺有意思,有時(shí)候也會(huì)說(shuō)成沉浸感,這從人類(lèi)語(yǔ)言對(duì)話(huà)的發(fā)展歷程可以窺得一斑。我們知道,語(yǔ)言交流是人類(lèi)交互最主要的方式,是人類(lèi)交換信息、學(xué)習(xí)知識(shí)最主要的途徑,但是由于語(yǔ)言太過(guò)時(shí)效性,記載功能太差,與之伴隨逐漸就形成了文字。由于語(yǔ)言的時(shí)效性,所以語(yǔ)言交流往往是面對(duì)面即時(shí)完成的。當(dāng)然,現(xiàn)在人類(lèi)擁有了電話(huà),但是即便有了電話(huà)之后,語(yǔ)言交流仍然保持著即時(shí)性。也就是說(shuō),電話(huà)其實(shí)就是人類(lèi)語(yǔ)言交流的距離拓展,但是沒(méi)有改變語(yǔ)言交流的即時(shí)屬性,所以電信和互聯(lián)網(wǎng)的發(fā)達(dá)本質(zhì)上來(lái)說(shuō)仍然是在享有這種紅利。
當(dāng)然了,電信和互聯(lián)網(wǎng)的技術(shù)還很難做到人類(lèi)語(yǔ)言交流的水平,很多時(shí)候破壞了這種即時(shí)性。技術(shù)上常常稱(chēng)為單工或者雙工模式,單工的時(shí)候?qū)υ?huà)者的語(yǔ)言是“互斥”的,不會(huì)出現(xiàn)聲音的重疊和打斷。顯然,以Siri和Echo為主的人機(jī)語(yǔ)音交互,就是這種單工模式。單工模式無(wú)法提供面對(duì)面交流時(shí)的暢快感和現(xiàn)場(chǎng)感,也就缺少一部分“對(duì)話(huà)”的體驗(yàn)。雙工模式實(shí)際上是希望改變這一點(diǎn),但是目前來(lái)看與人類(lèi)還是有不少差距的,這些都是需要技術(shù)去克服的難點(diǎn)。
既然語(yǔ)音交互的現(xiàn)場(chǎng)感當(dāng)前還無(wú)法做到人類(lèi)水平,自然就希望先把機(jī)器回答的時(shí)間縮短,再次提醒這個(gè)指標(biāo)要用平均時(shí)間,而且必須穩(wěn)定可靠。這是至關(guān)重要的,試問(wèn)你會(huì)和一個(gè)半天時(shí)間才冒出一句的機(jī)器對(duì)話(huà)嗎?應(yīng)該不會(huì),這會(huì)讓你崩潰,即便對(duì)方是人類(lèi)也不行,或許還會(huì)涉及到尊嚴(yán)問(wèn)題。顯然,當(dāng)前階段人工智能還不能追求模仿人類(lèi)智慧,這有太多的物理和哲學(xué)難題沒(méi)有解決,也不要杞人憂(yōu)天爭(zhēng)論什么“奇點(diǎn)理論”,機(jī)器威脅人類(lèi)還是漫長(zhǎng)的過(guò)程,考慮這些之前,不如先想想如何解決產(chǎn)品中的每個(gè)關(guān)鍵問(wèn)題。
|東西方的文化差異也制約了國(guó)內(nèi)語(yǔ)音智能交互技術(shù)的發(fā)展
國(guó)內(nèi)外對(duì)于智能音箱的理解或許還有更多差異,但是當(dāng)東方人嘗試使用智能音箱的核心——語(yǔ)音智能助手的時(shí)候,這里還有個(gè)文化阻礙的問(wèn)題,這或許是東西方文化差異的結(jié)果。理解這點(diǎn)之前,我們先把語(yǔ)音和語(yǔ)言區(qū)分一下,語(yǔ)音(Speech)是語(yǔ)言(Language)的信號(hào)載體,語(yǔ)音是人的發(fā)音器官發(fā)出的,承載一定的語(yǔ)言意義,而語(yǔ)言才承載人類(lèi)的智慧。通俗的講,語(yǔ)音是天生就存在的,嬰兒的咿呀咿呀也算是語(yǔ)音,甚至其哭聲也代表一定的意義,而語(yǔ)言則是需要學(xué)習(xí)不斷進(jìn)化的。人機(jī)語(yǔ)音交互實(shí)際上就是語(yǔ)言的交互,即便語(yǔ)音識(shí)別做到100%,對(duì)于理解語(yǔ)言來(lái)說(shuō)也沒(méi)有具體意義,何況語(yǔ)言總是個(gè)性的、場(chǎng)景的和情緒的。
語(yǔ)言是社會(huì)文化的產(chǎn)物,離開(kāi)了文化就沒(méi)什么語(yǔ)言可言了。語(yǔ)言又是社會(huì)文化的寫(xiě)照,不僅反映社會(huì)文化的形態(tài),而且語(yǔ)言結(jié)構(gòu)也反映了人們的價(jià)值觀念。顯然,不同國(guó)家的語(yǔ)言習(xí)慣是千差萬(wàn)別的,由于各民族生活的環(huán)境不同,由此而形成的文化內(nèi)涵和語(yǔ)言習(xí)慣自然不同。毫無(wú)疑問(wèn),東西方由于文化的巨大差異,其語(yǔ)言表達(dá)方面也存在巨大的差異。而這種差異也決定了類(lèi)似Echo這類(lèi)語(yǔ)音智能助手的普及速度。
東方文化總是含蓄的,和西方直接表述不同,我們總喜歡拐彎抹角的表達(dá)意思。“是”時(shí)不說(shuō)“是”,卻說(shuō)“不是”。“不是”時(shí)不說(shuō)“不是”,卻總說(shuō)“是”,這讓熱戀中的東方男生時(shí)不時(shí)的就會(huì)崩潰。事實(shí)上,東方人的處事哲學(xué)中最重要的一點(diǎn)就是“話(huà)到嘴邊留半句”。這可苦了語(yǔ)音智能助手,很多時(shí)候當(dāng)東方人面對(duì)Echo這類(lèi)智能音箱的時(shí)候,據(jù)我們大量實(shí)驗(yàn)觀察,真的是還需要仔細(xì)思考一下才會(huì)出口。
這已經(jīng)超越了任何技術(shù)的范疇,相比西方人來(lái)說(shuō),東方人使用語(yǔ)音智能產(chǎn)品面臨著更大的心理障礙。與西方人覺(jué)得機(jī)器不夠聰明不同,而東方人面對(duì)這類(lèi)產(chǎn)品的表現(xiàn)更為含蓄和尷尬。再加上當(dāng)前語(yǔ)音交互的現(xiàn)場(chǎng)感和即時(shí)性確實(shí)還不夠好,更是加劇東方人這種心理上的障礙。這種障礙導(dǎo)致東方人使用Echo這類(lèi)語(yǔ)音智能產(chǎn)品的時(shí)候,很難連續(xù)說(shuō)出超過(guò)十句不同的表述。
事實(shí)上,東西方的二次元文化差異也折射了語(yǔ)音智能助手在東西方的不同地位。西方的動(dòng)漫,比如說(shuō)變形金剛,實(shí)際上就是典型的人機(jī)語(yǔ)音交互,而諸如鋼鐵俠、星球大戰(zhàn)等等都有人和機(jī)器人的自然語(yǔ)音交互。反觀東方的二次元文化,比如圣斗士星矢和最終幻想,更多的還是強(qiáng)調(diào)人人之間的交互和表達(dá)。從這個(gè)層面來(lái)看,東方相比西方,整體來(lái)說(shuō),人機(jī)對(duì)話(huà)和人工智能方面的普及教育要差很多,自然,東方大眾對(duì)于語(yǔ)音智能助手的認(rèn)同就不如西方。
國(guó)內(nèi)的智能音箱或者說(shuō)語(yǔ)音智能助手還在早期市場(chǎng)教育階段,前面還有一段滿(mǎn)是荊棘的小路去趟,即便明知有坑,或許也會(huì)跌落不少先驅(qū),但是腳步必須邁出去,前景必然是美好的。趟路的過(guò)程,或許需要很大的犧牲,才能培養(yǎng)出一大波的技術(shù)人員、營(yíng)銷(xiāo)人員,積累出一大批鐵桿用戶(hù)。這個(gè)戰(zhàn)略布局國(guó)外已經(jīng)提前走了一步,國(guó)內(nèi)也不要總幻想著彎道超車(chē),哪有那么多彎道,別人也不傻,踏踏實(shí)實(shí)地邁出堅(jiān)實(shí)的步伐即可。
國(guó)內(nèi)互聯(lián)網(wǎng)發(fā)展其實(shí)也這樣走過(guò),BAT也并非各個(gè)領(lǐng)域最早的開(kāi)拓者,而是踏著先驅(qū)再不斷發(fā)展壯大。不好預(yù)計(jì)這個(gè)趟路過(guò)程需要持續(xù)多久,畢竟不是預(yù)測(cè)國(guó)足的比賽結(jié)果,但是相信會(huì)比互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的過(guò)程都會(huì)更快。