本文作者李智勇,聲智科技合伙人&副總裁,訂閱號:zuomoshi(琢磨事)
從CES(國際消費(fèi)類電子產(chǎn)品展覽會 International Consumer Electronics Show)的進(jìn)展來看,Google現(xiàn)在確實(shí)在把語音交互這事兒搞砸,而越來越變成一家很能折騰但不太能干成事的公司。Google在公有云上不太可能超過Amazon了,自動駕駛上折騰了好多年但看起來掛的可能性非常大,而在語音交互上Google很可能會再一次敗給Amazon。
語音助手上的大PK
今年CES上最有意思的事情是語音交互型產(chǎn)品泛濫,從英偉達(dá)到聯(lián)想,各大巨頭對此達(dá)成了共識,紛紛殺入。這里面比較核心的兩家分別是Amazon和Google,前者的代表產(chǎn)品是Echo和內(nèi)置的語音助手Alexa,后者則是Google Home和內(nèi)置的語音助手Google Assistant。
正常來講不管從那個(gè)維度來看都是Google具有足夠的優(yōu)勢,有技術(shù)、有資源、有積累,但具體看下來Google實(shí)際上落后甚遠(yuǎn),甚至可能難以挽回。
要想看懂語音交互這方向的走勢,那么需要深度理解與之相關(guān)的產(chǎn)品和技術(shù)的本質(zhì)特征。
Echo這類產(chǎn)品的核心特征是多層技術(shù)高度融合(聲學(xué)、語音識別、語義、搜索、內(nèi)容)。其中聲學(xué)是軟硬件的分割點(diǎn),向下關(guān)聯(lián)產(chǎn)品ID以及內(nèi)部結(jié)構(gòu),向上影響語音識別。而語義之后的部分則是純軟件與內(nèi)容。
對于Amazon和Google這樣的公司,它們先天把自己定義為做生態(tài)和平臺的公司,所以其核心一定不是Echo這個(gè)硬件產(chǎn)品本身,而是背后的語音助手比如Alexa,因?yàn)橹挥蠥lexa才代表一種新的生態(tài)。
Alexa這種語音助手很多人覺得是像Android一樣的操作系統(tǒng),但實(shí)際上看成是一個(gè)操作系統(tǒng)+超級App更為合適。
要把Alexa這樣的語音助手安裝到各種硬件里事實(shí)上有兩種途徑:
-
一種是純軟的方式。我就把語音助手做好,不管誰要用裝進(jìn)去就可以了。這種模式下在技術(shù)層次上最多需要下探到語音識別,核心則是語義和對話。這模式最明顯的參照是搜索引擎。
-
一種則是軟硬融合的方式。我做一個(gè)標(biāo)桿型的硬件產(chǎn)品,然后再把硬件產(chǎn)品中的助手開放出去。這模式最明顯的參照是Android這樣的操作系統(tǒng)。
純互聯(lián)網(wǎng)公司會傾向于第一種方式,因?yàn)檫@種模式最輕,而后一種模式要組織生產(chǎn)和銷售,還要下探到聲學(xué)這樣的層次,無疑重很多。
但模式一的核心問題有兩個(gè):
-
語音交互很難在現(xiàn)有平臺上啟動(手機(jī)、平板、電腦),而直接把近場上的語音交互遷移到遠(yuǎn)場上效果會很差,誰來解決落地過程中各種坑坑洼洼的問題?
-
不知道硬件上的需求,如何設(shè)計(jì)出與各種硬件適配的API,如何知道怎么提供對于硬件廠商最為便利的方案?把這種苦活累活完全下放給各個(gè)硬件廠商去自己摸索嗎?
Google開放ASR和NLP的API其實(shí)已經(jīng)許久了,但從CES的結(jié)果來看,顯然Alexa這種系統(tǒng)整合型的方案更受歡迎,它即解決了與下層硬件的適配問題,也解決了后端內(nèi)容整合問題。
拔高一層來看整件事情,我們可以講做語音助手這事,事實(shí)上有這樣幾個(gè)關(guān)鍵控制點(diǎn):
-
做標(biāo)桿型的硬件產(chǎn)品,但不與已有用戶習(xí)慣對沖。直接講就是新品類必須避開手機(jī)和PAD,否則一定會被覆蓋掉。
-
豐富后端內(nèi)容,對于語音助手而言,硬件、音樂甚至打電話都是內(nèi)容。內(nèi)容需要從頭部開始逐漸填充長尾內(nèi)容。引申開來就是要把Alexa和Echo這個(gè)產(chǎn)品分割開來,讓它后面的東西盡可能的多。
-
樹立技術(shù)優(yōu)勢,在這里技術(shù)既包含深度學(xué)習(xí)這樣的純算法也包含聲學(xué)等與物理緊密相連的領(lǐng)域。當(dāng)內(nèi)容沒多到一定程度的時(shí)候,前端技術(shù)(聲學(xué)和語音識別)要比語義更重要。因?yàn)樗鼈兏绊懰俣群途取?nbsp;
亞馬遜做對了什么?
在上一節(jié)提到的幾個(gè)點(diǎn)上亞馬遜幾乎每個(gè)都做對了。
第一亞馬遜沒回避硬件的煩難,花了四五年打造了Echo,這樣一來亞馬遜就掌握了一個(gè)很難被超越的制高點(diǎn)。
這看著很詭異,但事實(shí)就會這樣,否則的話Google直接把Google Assistant開放出來就行了,根本不需要自己打造什么Google Home。但實(shí)際上硬件和背后Assistant的耦合程度遠(yuǎn)高于搜索和瀏覽器,搜索和瀏覽器的耦合程度事實(shí)上是便利不便利,但Alexa和前端的硬件的耦合程度則牽涉好不好用的問題。而Google則是迫于Echo的壓力才開始做Google Home。
第二亞馬遜在Echo獲得初步成功后迅速開始分離Echo和Alexa,具體動作就包括完SDK(ASK&AVS)的文檔和案例,成立Alexa Fund,積極尋找戰(zhàn)略合作伙伴等。最終結(jié)果之一就是所謂的7000項(xiàng)技能。7000個(gè)技能是非常可怕的事情,完全足以覆蓋技術(shù)和某些內(nèi)容上的劣勢。這就好比淘寶上商家數(shù)一旦超過某個(gè)閾值,QQ流量再大也搞不定了。
那現(xiàn)在Google有幾個(gè)第三方伙伴呢,它只有1個(gè)。而且Google似乎還在神游,它作為后來者本應(yīng)該上來就把這一系列東西都做了,這樣才體現(xiàn)后發(fā)優(yōu)勢,但它并沒有。
第三是用用穩(wěn)妥的方案打造更優(yōu)異的體驗(yàn)。穩(wěn)妥的方案是說前端至少要和亞馬遜持平,后端再體現(xiàn)語義和內(nèi)容連接上的優(yōu)勢,這樣就可以在整體上反超。但Google很有意思的選了個(gè)兩麥克的方案,直接導(dǎo)致交互效果很差。這實(shí)在是大昏招,從便宜的角度解釋是合理的,但你在做的是個(gè)標(biāo)桿型產(chǎn)品,便宜與否真的那么關(guān)鍵嗎?
引申一下這意味著什么?
這意味著Google可能很難追上Amazon了。
Google和Amazon相比無疑的在技術(shù)層面上會有優(yōu)勢,但是如果對技術(shù)進(jìn)行分解我們會發(fā)現(xiàn)實(shí)際上Google真正可能具有優(yōu)勢只是NLP和搜索部分。這就非??膳拢?yàn)镹LP部分不存在質(zhì)的差異,你并不能在這個(gè)點(diǎn)上單憑算法明顯拉開體驗(yàn),而在內(nèi)容沒多到一定程度的時(shí)候,搜索的優(yōu)勢根本體現(xiàn)不出來。而一旦技術(shù)突破,亞馬遜則在這部分累積了足夠多的數(shù)據(jù)。請注意這里的數(shù)據(jù)是完全和場景匹配的數(shù)據(jù),而不是匹配度低的網(wǎng)頁公開數(shù)據(jù),其中還包含了用戶的各種偏好。
這時(shí)候沒人會和Google扮演陪練的角色,一起從頭玩一遍。
Google好像又把事搞砸了
在過去漫長的時(shí)間里,Google這個(gè)公司有點(diǎn)被神話了,讓人潛意識的覺得它無所不能,但Google實(shí)在不是一個(gè)做產(chǎn)品的公司,我們也許可以把它定義為做算法的公司或者對算法癡迷的公司。如果Google真的在語音交互這事上玩大條了,那核心原因很可能就在這里。
做算法的時(shí)候技術(shù)是第一維度,但做產(chǎn)品的時(shí)候體驗(yàn)是第一維度,你并不能掉過來玩:我這項(xiàng)技術(shù)很NB,所以我要把它放產(chǎn)品里,所以用戶要為此買單。而是要反過來思考,比如延時(shí)、響應(yīng)率和對答準(zhǔn)確率在這類產(chǎn)品上影響用戶體驗(yàn),所以我要在現(xiàn)有技術(shù)上把這體驗(yàn)做到極致。
從表現(xiàn)出來的行為來看,Google正好屬于前一種。
上面說到的選擇兩麥克風(fēng)方案來實(shí)現(xiàn)Google Home,從這個(gè)角度來解釋也是合理的。比如說如果想在云端用深度學(xué)習(xí)等處理前端信號問題,并堅(jiān)信能做好,那這么選擇前端方案就完全沒問題,后端持續(xù)改善算法就行了。
但這樣一來產(chǎn)品體驗(yàn)上打折扣就非常厲害。如果Google是第一個(gè)發(fā)布這種產(chǎn)品,時(shí)間窗口很大,那也問題不大,關(guān)鍵它不是,它需要這樣一款產(chǎn)品來和亞馬遜的Echo競爭,這就可怕了。你是后發(fā),那怕做到一樣的水平也沒啥優(yōu)勢何況你還差一截。挑戰(zhàn)新技術(shù)這事在工程師思維下是合理的,但在產(chǎn)品思維下就錯(cuò)的離譜。
這類的問題點(diǎn)還有很多,比如你喚醒詞叫什么不好非叫”OK Google”,做智能助理顯然Alexa更適合這種擬人一點(diǎn)的情景。
Google Home出來后本應(yīng)該使勁推廣Google Assistant到各大廠商,而不是趟在既有的優(yōu)勢上睡大覺(Google在技術(shù)、不同設(shè)備關(guān)聯(lián)、內(nèi)容上是有優(yōu)勢的,畢竟它有Youtube等),但從CES上來看,Google并沒有忙著干這事,至少到現(xiàn)在為止我們還看不到Google版的Alexa Service Kit和Alexa Voice Service。
這樣看來Google和亞馬遜之間差了至少一年的差異。對打造產(chǎn)品的用戶來講選擇依賴于那家甚至是個(gè)不用考慮的問題,一邊是有開放API很多第三方客戶,一邊是沒有開放API只有一個(gè)第三方客戶。換你你也會這么選擇?。ò衍浻泊蛲?,API封裝到這個(gè)程度還是很費(fèi)勁的,如果你不信看看這里的文檔吧。
小結(jié)
Google的業(yè)務(wù)最依賴于云,但事實(shí)上在云服務(wù)上敗于亞馬遜,Google自動駕駛啟動最早但看架勢似乎會起個(gè)大早趕個(gè)晚集,Google人工智能投入最多但從現(xiàn)在的進(jìn)展來看,很可能會再次敗給亞馬遜。
如果說前兩次失敗不動搖根本,那這次很不一樣,因?yàn)樵贏I這里交互既是搜索,它其實(shí)輸不起,輸了就會變成另一個(gè)微軟。
本文作者李智勇,聲智科技合伙人&副總裁,訂閱號:zuomoshi(琢磨事)
從CES(國際消費(fèi)類電子產(chǎn)品展覽會 International Consumer Electronics Show)的進(jìn)展來看,Google現(xiàn)在確實(shí)在把語音交互這事兒搞砸,而越來越變成一家很能折騰但不太能干成事的公司。Google在公有云上不太可能超過Amazon了,自動駕駛上折騰了好多年但看起來掛的可能性非常大,而在語音交互上Google很可能會再一次敗給Amazon。
語音助手上的大PK
今年CES上最有意思的事情是語音交互型產(chǎn)品泛濫,從英偉達(dá)到聯(lián)想,各大巨頭對此達(dá)成了共識,紛紛殺入。這里面比較核心的兩家分別是Amazon和Google,前者的代表產(chǎn)品是Echo和內(nèi)置的語音助手Alexa,后者則是Google Home和內(nèi)置的語音助手Google Assistant。
正常來講不管從那個(gè)維度來看都是Google具有足夠的優(yōu)勢,有技術(shù)、有資源、有積累,但具體看下來Google實(shí)際上落后甚遠(yuǎn),甚至可能難以挽回。
要想看懂語音交互這方向的走勢,那么需要深度理解與之相關(guān)的產(chǎn)品和技術(shù)的本質(zhì)特征。
Echo這類產(chǎn)品的核心特征是多層技術(shù)高度融合(聲學(xué)、語音識別、語義、搜索、內(nèi)容)。其中聲學(xué)是軟硬件的分割點(diǎn),向下關(guān)聯(lián)產(chǎn)品ID以及內(nèi)部結(jié)構(gòu),向上影響語音識別。而語義之后的部分則是純軟件與內(nèi)容。
對于Amazon和Google這樣的公司,它們先天把自己定義為做生態(tài)和平臺的公司,所以其核心一定不是Echo這個(gè)硬件產(chǎn)品本身,而是背后的語音助手比如Alexa,因?yàn)橹挥蠥lexa才代表一種新的生態(tài)。
Alexa這種語音助手很多人覺得是像Android一樣的操作系統(tǒng),但實(shí)際上看成是一個(gè)操作系統(tǒng)+超級App更為合適。
要把Alexa這樣的語音助手安裝到各種硬件里事實(shí)上有兩種途徑:
一種是純軟的方式。我就把語音助手做好,不管誰要用裝進(jìn)去就可以了。這種模式下在技術(shù)層次上最多需要下探到語音識別,核心則是語義和對話。這模式最明顯的參照是搜索引擎。
一種則是軟硬融合的方式。我做一個(gè)標(biāo)桿型的硬件產(chǎn)品,然后再把硬件產(chǎn)品中的助手開放出去。這模式最明顯的參照是Android這樣的操作系統(tǒng)。
純互聯(lián)網(wǎng)公司會傾向于第一種方式,因?yàn)檫@種模式最輕,而后一種模式要組織生產(chǎn)和銷售,還要下探到聲學(xué)這樣的層次,無疑重很多。
但模式一的核心問題有兩個(gè):
語音交互很難在現(xiàn)有平臺上啟動(手機(jī)、平板、電腦),而直接把近場上的語音交互遷移到遠(yuǎn)場上效果會很差,誰來解決落地過程中各種坑坑洼洼的問題?
不知道硬件上的需求,如何設(shè)計(jì)出與各種硬件適配的API,如何知道怎么提供對于硬件廠商最為便利的方案?把這種苦活累活完全下放給各個(gè)硬件廠商去自己摸索嗎?
Google開放ASR和NLP的API其實(shí)已經(jīng)許久了,但從CES的結(jié)果來看,顯然Alexa這種系統(tǒng)整合型的方案更受歡迎,它即解決了與下層硬件的適配問題,也解決了后端內(nèi)容整合問題。
拔高一層來看整件事情,我們可以講做語音助手這事,事實(shí)上有這樣幾個(gè)關(guān)鍵控制點(diǎn):
做標(biāo)桿型的硬件產(chǎn)品,但不與已有用戶習(xí)慣對沖。直接講就是新品類必須避開手機(jī)和PAD,否則一定會被覆蓋掉。
豐富后端內(nèi)容,對于語音助手而言,硬件、音樂甚至打電話都是內(nèi)容。內(nèi)容需要從頭部開始逐漸填充長尾內(nèi)容。引申開來就是要把Alexa和Echo這個(gè)產(chǎn)品分割開來,讓它后面的東西盡可能的多。
樹立技術(shù)優(yōu)勢,在這里技術(shù)既包含深度學(xué)習(xí)這樣的純算法也包含聲學(xué)等與物理緊密相連的領(lǐng)域。當(dāng)內(nèi)容沒多到一定程度的時(shí)候,前端技術(shù)(聲學(xué)和語音識別)要比語義更重要。因?yàn)樗鼈兏绊懰俣群途取?/p>
亞馬遜做對了什么?
在上一節(jié)提到的幾個(gè)點(diǎn)上亞馬遜幾乎每個(gè)都做對了。
第一亞馬遜沒回避硬件的煩難,花了四五年打造了Echo,這樣一來亞馬遜就掌握了一個(gè)很難被超越的制高點(diǎn)。
這看著很詭異,但事實(shí)就會這樣,否則的話Google直接把Google Assistant開放出來就行了,根本不需要自己打造什么Google Home。但實(shí)際上硬件和背后Assistant的耦合程度遠(yuǎn)高于搜索和瀏覽器,搜索和瀏覽器的耦合程度事實(shí)上是便利不便利,但Alexa和前端的硬件的耦合程度則牽涉好不好用的問題。而Google則是迫于Echo的壓力才開始做Google Home。
第二亞馬遜在Echo獲得初步成功后迅速開始分離Echo和Alexa,具體動作就包括完SDK(ASK&AVS)的文檔和案例,成立Alexa Fund,積極尋找戰(zhàn)略合作伙伴等。最終結(jié)果之一就是所謂的7000項(xiàng)技能。7000個(gè)技能是非??膳碌氖虑?,完全足以覆蓋技術(shù)和某些內(nèi)容上的劣勢。這就好比淘寶上商家數(shù)一旦超過某個(gè)閾值,QQ流量再大也搞不定了。
那現(xiàn)在Google有幾個(gè)第三方伙伴呢,它只有1個(gè)。而且Google似乎還在神游,它作為后來者本應(yīng)該上來就把這一系列東西都做了,這樣才體現(xiàn)后發(fā)優(yōu)勢,但它并沒有。
第三是用用穩(wěn)妥的方案打造更優(yōu)異的體驗(yàn)。穩(wěn)妥的方案是說前端至少要和亞馬遜持平,后端再體現(xiàn)語義和內(nèi)容連接上的優(yōu)勢,這樣就可以在整體上反超。但Google很有意思的選了個(gè)兩麥克的方案,直接導(dǎo)致交互效果很差。這實(shí)在是大昏招,從便宜的角度解釋是合理的,但你在做的是個(gè)標(biāo)桿型產(chǎn)品,便宜與否真的那么關(guān)鍵嗎?
引申一下這意味著什么?
這意味著Google可能很難追上Amazon了。
Google和Amazon相比無疑的在技術(shù)層面上會有優(yōu)勢,但是如果對技術(shù)進(jìn)行分解我們會發(fā)現(xiàn)實(shí)際上Google真正可能具有優(yōu)勢只是NLP和搜索部分。這就非??膳?,因?yàn)镹LP部分不存在質(zhì)的差異,你并不能在這個(gè)點(diǎn)上單憑算法明顯拉開體驗(yàn),而在內(nèi)容沒多到一定程度的時(shí)候,搜索的優(yōu)勢根本體現(xiàn)不出來。而一旦技術(shù)突破,亞馬遜則在這部分累積了足夠多的數(shù)據(jù)。請注意這里的數(shù)據(jù)是完全和場景匹配的數(shù)據(jù),而不是匹配度低的網(wǎng)頁公開數(shù)據(jù),其中還包含了用戶的各種偏好。
這時(shí)候沒人會和Google扮演陪練的角色,一起從頭玩一遍。
Google好像又把事搞砸了
在過去漫長的時(shí)間里,Google這個(gè)公司有點(diǎn)被神話了,讓人潛意識的覺得它無所不能,但Google實(shí)在不是一個(gè)做產(chǎn)品的公司,我們也許可以把它定義為做算法的公司或者對算法癡迷的公司。如果Google真的在語音交互這事上玩大條了,那核心原因很可能就在這里。
做算法的時(shí)候技術(shù)是第一維度,但做產(chǎn)品的時(shí)候體驗(yàn)是第一維度,你并不能掉過來玩:我這項(xiàng)技術(shù)很NB,所以我要把它放產(chǎn)品里,所以用戶要為此買單。而是要反過來思考,比如延時(shí)、響應(yīng)率和對答準(zhǔn)確率在這類產(chǎn)品上影響用戶體驗(yàn),所以我要在現(xiàn)有技術(shù)上把這體驗(yàn)做到極致。
從表現(xiàn)出來的行為來看,Google正好屬于前一種。
上面說到的選擇兩麥克風(fēng)方案來實(shí)現(xiàn)Google Home,從這個(gè)角度來解釋也是合理的。比如說如果想在云端用深度學(xué)習(xí)等處理前端信號問題,并堅(jiān)信能做好,那這么選擇前端方案就完全沒問題,后端持續(xù)改善算法就行了。
但這樣一來產(chǎn)品體驗(yàn)上打折扣就非常厲害。如果Google是第一個(gè)發(fā)布這種產(chǎn)品,時(shí)間窗口很大,那也問題不大,關(guān)鍵它不是,它需要這樣一款產(chǎn)品來和亞馬遜的Echo競爭,這就可怕了。你是后發(fā),那怕做到一樣的水平也沒啥優(yōu)勢何況你還差一截。挑戰(zhàn)新技術(shù)這事在工程師思維下是合理的,但在產(chǎn)品思維下就錯(cuò)的離譜。
這類的問題點(diǎn)還有很多,比如你喚醒詞叫什么不好非叫”OK Google”,做智能助理顯然Alexa更適合這種擬人一點(diǎn)的情景。
Google Home出來后本應(yīng)該使勁推廣Google Assistant到各大廠商,而不是趟在既有的優(yōu)勢上睡大覺(Google在技術(shù)、不同設(shè)備關(guān)聯(lián)、內(nèi)容上是有優(yōu)勢的,畢竟它有Youtube等),但從CES上來看,Google并沒有忙著干這事,至少到現(xiàn)在為止我們還看不到Google版的Alexa Service Kit和Alexa Voice Service。
這樣看來Google和亞馬遜之間差了至少一年的差異。對打造產(chǎn)品的用戶來講選擇依賴于那家甚至是個(gè)不用考慮的問題,一邊是有開放API很多第三方客戶,一邊是沒有開放API只有一個(gè)第三方客戶。換你你也會這么選擇!(把軟硬打通,API封裝到這個(gè)程度還是很費(fèi)勁的,如果你不信看看這里的文檔吧。
小結(jié)
Google的業(yè)務(wù)最依賴于云,但事實(shí)上在云服務(wù)上敗于亞馬遜,Google自動駕駛啟動最早但看架勢似乎會起個(gè)大早趕個(gè)晚集,Google人工智能投入最多但從現(xiàn)在的進(jìn)展來看,很可能會再次敗給亞馬遜。
如果說前兩次失敗不動搖根本,那這次很不一樣,因?yàn)樵贏I這里交互既是搜索,它其實(shí)輸不起,輸了就會變成另一個(gè)微軟。