語言識別技術近期已經成為了眾多科技廠商的攻堅重點,但如今許多內置智能語音助理設備的實際使用體驗都不盡如人意。對此,《彭博社》日前就撰文對這一情況進行了一番剖析,并一針見血的指出語音識別技術的發(fā)展及其背后語音數(shù)據(jù)庫的規(guī)模或許就是這類產品未來發(fā)展的命門所在。
以下是文章主要內容:
亞馬遜Echo智能音箱的出現(xiàn)將人工智能助理走進每家每戶的夢想“幾乎”打造成了現(xiàn)實,許多使用過Echo內置Alexa語音助理的用戶都會被她所吸引。因為Alexa不僅能幫助用戶呼叫Uber專車,還能預定披薩或者完成十年級學生的數(shù)學家庭作業(yè)。亞馬遜官方甚至表示,每天都有超過5000人通過各種方式對Alexa“示愛”。
但在另一方面,許多Alexa的用戶也知道,除非你緩慢、清晰地說出自己的語音指令,否則Alexa很有可能又對你說“抱歉,我無法回答這個問題”。一位用戶就在亞馬遜網站上寫道:“我對她是又愛又恨,你很快就會學會通過她能理解的方式與之溝通,但這就像是跟剛會走路的孩子說話一樣令人沮喪。”
然而,這位用戶仍然給了Alexa五星好評。
在過去幾年間,語音識別技術已經實現(xiàn)了長足進步,但仍不足以讓這項技術融入到人們的日常生活,或者開啟讓我們與汽車、洗衣機、電視機等電子產品展開語音溝通的人機互動新時代。最簡單的一個例子是,如今許多人仍會通過手勢和觸摸的方式進行操作,且這一趨勢在可預見的未來恐怕都不會改變。
究竟是什么阻礙了語音識別技術的發(fā)展?
應該說,這在一定程度上源于語音識別技術背后的源動力人工智能仍有巨大上升空間所致。此外,有關諸如不同語言、不同口音、不同方言以及這些語言在嘈雜環(huán)境中的語言數(shù)據(jù)缺失也是造成這一問題的重要原因。
所以,包括亞馬遜、蘋果、微軟和百度都在世界范圍內廣泛收集人類語音數(shù)據(jù)。其中,微軟已經在全球多個城市打造了專門用于錄制志愿者在家居環(huán)境中對話內容的工作室;亞馬遜每小時都會將Alexa收集到的海量語音請求上傳到龐大的數(shù)據(jù)庫;百度正在收集中國各地的方言數(shù)據(jù),然后利用這些數(shù)據(jù)告訴電腦該如何分析、理解、響應不同的語音指令。
百度硅谷人工智能實驗室總監(jiān)亞當-科茨(Adam Coates)認為,這一技術的真正挑戰(zhàn)在于尋找一種可以捕捉到自然狀態(tài)下真實對話的方式,因為就算是95%的準確率也不足以令人滿意。
“我們的目標是將錯誤率降低到1%,這一水平下我們才可以充分相信機器能夠理解我們所說的內容,而這也是革命性的成就。”科茨說道。
不久前,所謂的“語音識別”技術還非常不成熟。在2006年一次面向分析人和投資人的演示中,微軟早期在Windows中配備的語音識別技術就把“mom”聽成了“aunt”。而在蘋果五年前推出Siri時,這一個人助理服務同樣因為無法響應正確答案或無法聽清問題而備受嘲笑。比如,在被問及吉莉安-安德森(Gillian Anderson)是不是英國人時,Siri竟然提供了一份英國餐館列表。不過如今,微軟已經聲稱自己的語音引擎錯誤率可以同專業(yè)速錄員不相上下,Siri漸漸贏得了人們的尊重,而Alexa的出現(xiàn)則更是讓我們窺見了未來。
何謂數(shù)據(jù)為王
應該說,這一進步很大程度上需要歸功于神經網絡技術的發(fā)展。簡單來說,神經網絡技術是一種模擬人腦結構的人工智能技術,即可以無需明確指令自學各種內容,但通常也需要擁有龐大、多樣的數(shù)據(jù)內容。語音識別引擎獲取、分析的數(shù)據(jù)越多就越能理解不同的聲音,也就越接近實現(xiàn)在真實語言環(huán)境中展開自然對話的目標。
百度首席科學家吳恩達(Andrew Ng)表示:“我們系統(tǒng)獲得的數(shù)據(jù)越多,其實際表現(xiàn)就越好。語音識別是一項資本密集型業(yè)務,目前還沒有多少組織擁有如此龐大的數(shù)據(jù)庫。”
當科技企業(yè)上世紀90年代開始重視語音識別技術時,微軟等企業(yè)主要依靠的都是來自諸如Linguistics Data Consortium(該機構總部位于美國賓夕法尼亞大學,并得到了美國政府的支持)等研究機構提供的公開數(shù)據(jù)。此后,科技企業(yè)才開始收集自己的語音數(shù)據(jù),其中一些企業(yè)甚至收集了志愿者朗讀的各種語音內容?,F(xiàn)在,隨著語音控制軟件越來越受到歡迎,這些企業(yè)也開始通過自己的產品和服務收集語音數(shù)據(jù)。
具體來說,當你通過語音指令用手機搜索信息、播放歌曲或導航時,這些語音數(shù)據(jù)很可能會被科技企業(yè)收集下來。而當你向Alexa詢問天氣和最近的橄欖球賽比分時,她便會利用這些語音指令改進自己的自然語言理解能力
“從產品設計的角度來看,你使用Alexa的次數(shù)越多,Alexa就會越聰明。”Alexa首席科學家尼克-斯特羅姆(Nikko Strom)說道。
兩大挑戰(zhàn)
在這一方面,最關鍵的挑戰(zhàn)就是讓語音識別技術熟悉不同的語言、口音和方言,這一問題在中國顯得尤為明顯。為了收集中國各地的方言數(shù)據(jù),百度在今年春節(jié)期啟動了一項名為“方言對話項目”(dialect conservation initiative)的營銷計劃。百度承諾,如果用戶為該項目作出了貢獻,他們今后便可使用自己的方言與百度展開互動。在兩周時間內,百度錄制了超過1000小時的方言數(shù)據(jù)。而且,許多人都愿意免費提供這些數(shù)據(jù)。其中,一位四川的高中教師就對該項目十分感興趣,他甚至鼓勵全班同學用四川話錄制了1000多首古詩。
當然,這一技術面臨的另外一大挑戰(zhàn)是如何在嘈雜的環(huán)境中識別語音指令,就比如在酒吧或者體育場環(huán)境中準確識別語音指令。此前,微軟已經在Xbox上部署了一款名為“Voice Studio”的應用,專門收集人們在玩游戲或看電影時的語音數(shù)據(jù)。而為了吸引用戶提供自己在玩游戲時候的對話內容,該公司還為參與其中的用戶提供了各種各樣的獎勵,包括點卡和游戲道具。
據(jù)悉,這一項目在巴西展開的非常成功,當?shù)貓F隊甚至還在Xbox主頁上著重推廣了這款應用。隨后,微軟利用收集到的這些數(shù)據(jù)成功開發(fā)出了巴西葡萄牙語版的Cortana語音助理,并于今年早些時候正式發(fā)布。
除此之外,不少企業(yè)也在為特定使用環(huán)境設計獨特的語音識別系統(tǒng)。比如,微軟就在測試可以不受機場廣播信息干擾的語音識別系統(tǒng),以更好的為旅行者服務。而且由于這一技術可以忽略嘈雜的汽車音響、孩子們的叫聲和“嗯嗯”等無意義的口語,它甚至還可以被用于麥當勞汽車穿梭餐廳的自動點餐系統(tǒng)。同時,亞馬遜如今也在汽車上測試自己的語音識別系統(tǒng),并希望Alexa能夠在嘈雜的道路環(huán)境下正常工作。
語音識別的未來或許就在拐角處
如今在各大企業(yè)爭相收集語音數(shù)據(jù)同時,他們也在努力尋找利用更少數(shù)據(jù)實現(xiàn)更高語音識別準確率的方法。微軟首席語音科學家黃雪冬(音譯,Xuedong Huang)已經在公司從事了20余年語音識別技術開發(fā)工作,他表示:“麥當勞正在測試的語音識別技術調用的數(shù)據(jù)量并不多,但準確性依舊很高。因此我們相信,即便在數(shù)據(jù)量有限的情況下也可以實現(xiàn)技術突破。”
從這個角度來說,谷歌倒是一直相信“少即是多”(less is more)的辦事理念。該公司希望利用不知所云的聲音來構建文字和短語,并拼接了數(shù)萬段時長僅為2-5秒的語音片段。谷歌研究員弗朗索瓦茲-比倫法斯(Francoise Beaufays)表示,這一過程所需的計算資源更少,也更容易進行測試和修改。
與此同時,百度也在開發(fā)更加高效的算法,以幫助計算機在學習一種語言后簡化學習另外12種語言的難度。
“這一算法在學習只有數(shù)萬人掌握的語種時顯得尤為重要,因為我們通常很難針對這樣的語種收集到龐大的數(shù)據(jù)庫。”吳恩達說道。
然而,就算是吳恩達這樣的專業(yè)人士都無法回答“何時才能通過自然語言與數(shù)字助理交流,并得到滿意答案”這樣的問題。因為對于專業(yè)的神經網絡學家來說,這一技術領域仍有很多謎團沒有找到答案。從目前人們掌握的技術和方法來看,這一技術實現(xiàn)突破大約還需要耗費數(shù)年時間。
不過,吳恩達、黃雪冬和比倫法斯等科學家都表示,你永遠不知道下一次技術突破會在什么時候出現(xiàn)。