Google又把事搞砸了,至少從語音交互上看是這樣的

責(zé)任編輯:editor004

作者:李智勇

2017-01-10 11:10:13

摘自:創(chuàng)事記

要想看懂語音交互這方向的走勢,那么需要深度理解與之相關(guān)的產(chǎn)品和技術(shù)的本質(zhì)特征。亞馬遜沒回避硬件的煩難,花了四五年打造了Echo,這樣一來亞馬遜就掌握了一個很難被超越的制高點。

從CES(國際消費類電子產(chǎn)品展覽會 International Consumer Electronics Show)的進(jìn)展來看,Google現(xiàn)在確實在把語音交互這事兒搞砸,而越來越變成一家很能折騰但不太能干成事的公司。Google在公有云上不太可能超過Amazon了,自動駕駛上折騰了好多年但看起來掛的可能性非常大,而在語音交互上Google很可能會再一次敗給Amazon。

語音助手上的大PK

今年CES上最有意思的事情是語音交互型產(chǎn)品泛濫,從英偉達(dá)到聯(lián)想,各大巨頭對此達(dá)成了共識,紛紛殺入。這里面比較核心的兩家分別是Amazon和Google,前者的代表產(chǎn)品是Echo和內(nèi)置的語音助手Alexa,后者則是Google Home和內(nèi)置的語音助手Google Assistant。

正常來講不管從那個維度來看都是Google具有足夠的優(yōu)勢,有技術(shù)、有資源、有積累,但具體看下來Google實際上落后甚遠(yuǎn),甚至可能難以挽回。

要想看懂語音交互這方向的走勢,那么需要深度理解與之相關(guān)的產(chǎn)品和技術(shù)的本質(zhì)特征。

Echo這類產(chǎn)品的核心特征是多層技術(shù)高度融合(聲學(xué)、語音識別、語義、搜索、內(nèi)容)。其中聲學(xué)是軟硬件的分割點,向下關(guān)聯(lián)產(chǎn)品ID以及內(nèi)部結(jié)構(gòu),向上影響語音識別。而語義之后的部分則是純軟件與內(nèi)容。

對于Amazon和Google這樣的公司,它們先天把自己定義為做生態(tài)和平臺的公司,所以其核心一定不是Echo這個硬件產(chǎn)品本身,而是背后的語音助手比如Alexa,因為只有Alexa才代表一種新的生態(tài)。

Alexa這種語音助手很多人覺得是像Android一樣的操作系統(tǒng),但實際上看成是一個操作系統(tǒng)+超級App更為合適。

要把Alexa這樣的語音助手安裝到各種硬件里事實上有兩種途徑:

一種是純軟的方式。我就把語音助手做好,不管誰要用裝進(jìn)去就可以了。這種模式下在技術(shù)層次上最多需要下探到語音識別,核心則是語義和對話。這模式最明顯的參照是搜索引擎。

一種則是軟硬融合的方式。我做一個標(biāo)桿型的硬件產(chǎn)品,然后再把硬件產(chǎn)品中的助手開放出去。這模式最明顯的參照是Android這樣的操作系統(tǒng)。

純互聯(lián)網(wǎng)公司會傾向于第一種方式,因為這種模式最輕,而后一種模式要組織生產(chǎn)和銷售,還要下探到聲學(xué)這樣的層次,無疑重很多。

但模式一的核心問題有兩個:

語音交互很難在現(xiàn)有平臺上啟動(手機(jī)、平板、電腦),而直接把近場上的語音交互遷移到遠(yuǎn)場上效果會很差,誰來解決落地過程中各種坑坑洼洼的問題?

不知道硬件上的需求,如何設(shè)計出與各種硬件適配的API,如何知道怎么提供對于硬件廠商最為便利的方案?把這種苦活累活完全下放給各個硬件廠商去自己摸索嗎?

Google開放ASR和NLP的API其實已經(jīng)許久了,但從CES的結(jié)果來看,顯然Alexa這種系統(tǒng)整合型的方案更受歡迎,它即解決了與下層硬件的適配問題,也解決了后端內(nèi)容整合問題。

拔高一層來看整件事情,我們可以講做語音助手這事,事實上有這樣幾個關(guān)鍵控制點:

做標(biāo)桿型的硬件產(chǎn)品,但不與已有用戶習(xí)慣對沖。直接講就是新品類必須避開手機(jī)和PAD,否則一定會被覆蓋掉。

豐富后端內(nèi)容,對于語音助手而言,硬件、音樂甚至打電話都是內(nèi)容。內(nèi)容需要從頭部開始逐漸填充長尾內(nèi)容。引申開來就是要把Alexa和Echo這個產(chǎn)品分割開來,讓它后面的東西盡可能的多。

樹立技術(shù)優(yōu)勢,在這里技術(shù)既包含深度學(xué)習(xí)這樣的純算法也包含聲學(xué)等與物理緊密相連的領(lǐng)域。當(dāng)內(nèi)容沒多到一定程度的時候,前端技術(shù)(聲學(xué)和語音識別)要比語義更重要。因為它們更影響速度和精度。

亞馬遜做對了什么?

在上一節(jié)提到的幾個點上亞馬遜幾乎每個都做對了。

第一亞馬遜沒回避硬件的煩難,花了四五年打造了Echo,這樣一來亞馬遜就掌握了一個很難被超越的制高點。

這看著很詭異,但事實就會這樣,否則的話Google直接把Google Assistant開放出來就行了,根本不需要自己打造什么Google Home。但實際上硬件和背后Assistant的耦合程度遠(yuǎn)高于搜索和瀏覽器,搜索和瀏覽器的耦合程度事實上是便利不便利,但Alexa和前端的硬件的耦合程度則牽涉好不好用的問題。而Google則是迫于Echo的壓力才開始做Google Home。

第二亞馬遜在Echo獲得初步成功后迅速開始分離Echo和Alexa,具體動作就包括完SDK(ASK&AVS)的文檔和案例,成立Alexa Fund,積極尋找戰(zhàn)略合作伙伴等。最終結(jié)果之一就是所謂的7000項技能。7000個技能是非??膳碌氖虑?,完全足以覆蓋技術(shù)和某些內(nèi)容上的劣勢。這就好比淘寶上商家數(shù)一旦超過某個閾值,QQ流量再大也搞不定了。

那現(xiàn)在Google有幾個第三方伙伴呢,它只有1個。而且Google似乎還在神游,它作為后來者本應(yīng)該上來就把這一系列東西都做了,這樣才體現(xiàn)后發(fā)優(yōu)勢,但它并沒有。

第三是用用穩(wěn)妥的方案打造更優(yōu)異的體驗。穩(wěn)妥的方案是說前端至少要和亞馬遜持平,后端再體現(xiàn)語義和內(nèi)容連接上的優(yōu)勢,這樣就可以在整體上反超。但Google很有意思的選了個兩麥克的方案,直接導(dǎo)致交互效果很差。這實在是大昏招,從便宜的角度解釋是合理的,但你在做的是個標(biāo)桿型產(chǎn)品,便宜與否真的那么關(guān)鍵嗎?

引申一下這意味著什么?

這意味著Google可能很難追上Amazon了。

Google和Amazon相比無疑的在技術(shù)層面上會有優(yōu)勢,但是如果對技術(shù)進(jìn)行分解我們會發(fā)現(xiàn)實際上Google真正可能具有優(yōu)勢只是NLP和搜索部分。這就非??膳?,因為NLP部分不存在質(zhì)的差異,你并不能在這個點上單憑算法明顯拉開體驗,而在內(nèi)容沒多到一定程度的時候,搜索的優(yōu)勢根本體現(xiàn)不出來。而一旦技術(shù)突破,亞馬遜則在這部分累積了足夠多的數(shù)據(jù)。請注意這里的數(shù)據(jù)是完全和場景匹配的數(shù)據(jù),而不是匹配度低的網(wǎng)頁公開數(shù)據(jù),其中還包含了用戶的各種偏好。

這時候沒人會和Google扮演陪練的角色,一起從頭玩一遍。

Google好像又把事搞砸了

在過去漫長的時間里,Google這個公司有點被神話了,讓人潛意識的覺得它無所不能,但Google實在不是一個做產(chǎn)品的公司,我們也許可以把它定義為做算法的公司或者對算法癡迷的公司。如果Google真的在語音交互這事上玩大條了,那核心原因很可能就在這里。

做算法的時候技術(shù)是第一維度,但做產(chǎn)品的時候體驗是第一維度,你并不能掉過來玩:我這項技術(shù)很NB,所以我要把它放產(chǎn)品里,所以用戶要為此買單。而是要反過來思考,比如延時、響應(yīng)率和對答準(zhǔn)確率在這類產(chǎn)品上影響用戶體驗,所以我要在現(xiàn)有技術(shù)上把這體驗做到極致。

從表現(xiàn)出來的行為來看,Google正好屬于前一種。

上面說到的選擇兩麥克風(fēng)方案來實現(xiàn)Google Home,從這個角度來解釋也是合理的。比如說如果想在云端用深度學(xué)習(xí)等處理前端信號問題,并堅信能做好,那這么選擇前端方案就完全沒問題,后端持續(xù)改善算法就行了。

但這樣一來產(chǎn)品體驗上打折扣就非常厲害。如果Google是第一個發(fā)布這種產(chǎn)品,時間窗口很大,那也問題不大,關(guān)鍵它不是,它需要這樣一款產(chǎn)品來和亞馬遜的Echo競爭,這就可怕了。你是后發(fā),那怕做到一樣的水平也沒啥優(yōu)勢何況你還差一截。挑戰(zhàn)新技術(shù)這事在工程師思維下是合理的,但在產(chǎn)品思維下就錯的離譜。

這類的問題點還有很多,比如你喚醒詞叫什么不好非叫”OK Google”,做智能助理顯然Alexa更適合這種擬人一點的情景。

Google Home出來后本應(yīng)該使勁推廣Google Assistant到各大廠商,而不是趟在既有的優(yōu)勢上睡大覺(Google在技術(shù)、不同設(shè)備關(guān)聯(lián)、內(nèi)容上是有優(yōu)勢的,畢竟它有Youtube等),但從CES上來看,Google并沒有忙著干這事,至少到現(xiàn)在為止我們還看不到Google版的Alexa Service Kit和Alexa Voice Service。

這樣看來Google和亞馬遜之間差了至少一年的差異。對打造產(chǎn)品的用戶來講選擇依賴于那家甚至是個不用考慮的問題,一邊是有開放API很多第三方客戶,一邊是沒有開放API只有一個第三方客戶。換你你也會這么選擇?。ò衍浻泊蛲ǎ珹PI封裝到這個程度還是很費勁的,如果你不信看看這里的文檔吧。

小結(jié)

Google的業(yè)務(wù)最依賴于云,但事實上在云服務(wù)上敗于亞馬遜,Google自動駕駛啟動最早但看架勢似乎會起個大早趕個晚集,Google人工智能投入最多但從現(xiàn)在的進(jìn)展來看,很可能會再次敗給亞馬遜。

如果說前兩次失敗不動搖根本,那這次很不一樣,因為在AI這里交互既是搜索,它其實輸不起,輸了就會變成另一個微軟。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號