長久以來,人類都有一個共同夙愿:發(fā)明一個機器,實現(xiàn)全人類之間毫無障礙的自由交談。而毫無疑問,自由交談在一個宣稱自由連接的互聯(lián)網時代更能彰顯它的價值——畢竟,同是地球人,同住地球村,當你我覓得彼此,卻聽不懂彼此語言,實在有些尷尬。
事實上,與那些讓生活變得復雜的“智能產品”不同,實時翻譯是那種讓人在直覺上理應擁有的技術,正因如此,它也一直存在于《星際迷航》《神秘博士》以及《銀河系漫游指南》等科幻作品中。好消息是,人類似乎離這個夙愿越來越近了。
幾天之前,微軟旗下的Skype(聽起來很久遠的名字)宣布,具備實時語音翻譯技術的翻譯器Skype Translator中文預覽版正式在中國市場推出。其實不同母語間的人直接對話,讓機器實時翻譯,這些技術微軟早在去年就已與公眾見面,只是那時還不支持中文——你知道,哪怕是對于機器,有大約一萬個常用漢字以及各種語音語調的中文也頗具挑戰(zhàn)性。但如今,包括微軟和谷歌在內的科技巨頭的發(fā)力,使得地球上使用人數(shù)最多的語言和使用最廣泛的語言能直接展開對話。
那么問題來了,作為不同文化之間的擺渡人,倘若實時翻譯真能實現(xiàn)人類的自由交談,這一切意味著什么?
翻譯神器
作為一項長久愿望,在此前數(shù)十年時間,語音實時翻譯的發(fā)展一直受到錯誤率高,麥克風敏感度差異,噪音環(huán)境等因素阻礙。但近些年來,由于大數(shù)據的涌現(xiàn),這項技術取得了不錯的進展。而Skype Translator更是凝聚了微軟在語音識別,自動翻譯和機器學習等多領域的成果。
簡單地說,Skype Translator的翻譯邏輯主要分為三步:將你的實時語音轉成文字;將文字翻譯成另一種語言的文字;將文字轉成語音。其中,識別實時語音并轉成文字是最棘手的部分。
如你所知,精確的實時語音翻譯有賴于強大的機器學習——也就是軟件學習訓練數(shù)據的能力。這些訓練數(shù)據包括翻譯的網頁,配有字幕的視頻,以及預先翻譯且轉錄成文字的一對一談話。事實上,已有不少人分享了他們過去的對話記錄。Skype Translator通過記錄對話來分析文本并訓練系統(tǒng)更好地“學習”語言——當準備好的數(shù)據錄入系統(tǒng)后,機器學習軟件會在這些對話和環(huán)境涉及到的單詞中搭建一個統(tǒng)計模型,當你說話時,軟件會在統(tǒng)計模型中尋找相似內容,然后應用到預先“學到”的轉化程序中,得以讓語音轉換為文本,再從文本轉換成另一種語言。
值得一提的是,與程序設定一般的朗誦不同,人會一邊思考一邊說話,會犯錯,這種犯錯在口語表達中的體現(xiàn)就是打磕巴,停頓,重復,或者頻頻出現(xiàn)如“嗯”“啊”“呃”之類的語氣助詞,針對于此,Skype Translator的機器學習模型也會處理這些停頓。在預覽版中,用戶可以看到部分語氣詞停頓被移除,而未被移除的部分則可能通過用戶反饋進行再優(yōu)化。
不過,作為一項不斷優(yōu)化的技術,無論是微軟的Skype Translator還是“老對手”谷歌的Google Translate,至少在現(xiàn)階段,實時語音翻譯技術應該還談不上完美,系統(tǒng)對語音的識別準確率也有待完善——你知道,語言如一只野獸,時刻都在變化,哪怕同一國家,因地域不同也有不同口音與俚語文化(有人就非常期待機器實時翻譯以下對話:“約嗎?我在火車站等你。”“我去!太遠了!我不去!”)。這些問題可以通過更大范圍的數(shù)據解決么?也許能,但還需要時間。
然而無論怎樣,就像一位評測者所言:“(如今語音實時翻譯)整個體驗就像是兩名電話銷售員在使用對講機,不過在使用過程中,這樣的抱怨將會被 奇跡 帶來的震驚所取代。”
地球村
在《圣經·創(chuàng)世紀》中記載,曾有一個時代,人類擁有共同的語言,于是有人想在巴比倫造一座通天塔——巴別塔,以便直接跟上帝對話,為了懲罰人類的傲慢與虛榮,上帝讓這些人說不同的語言,導致人們無法溝通,雞同鴨講,人類計劃失敗,自此各散東西。
那么技術能解除“巴別塔魔咒”么?倘若語言不再是人類交流的壁壘,會發(fā)生什么?
讓我們先來談談語言的意義。在全球7000多種語言中(盡管有不少“小語種”已日漸枯萎),除了詞匯和語法的表層差異,不同的語言是否能使人類產生不同的思維方式——譬如對時間與空間概念的認知,或者對因果關系的認知,幾千年來就一直是學者們爭論的主題。神圣羅馬帝國的查理曼大帝就曾在科技還不甚昌明的時代宣稱:“掌握第二種語言就是擁有第二個靈魂。”
當然,從科學的角度,斯坦福大學教授Lera Boroditsky也曾頗具詩意地表達過語言的意義:“每種語言都包含著一種獨特的世界觀,反映了使用者數(shù)千年來的思想,傾向和認知方式。一種語言就像一個完整的宇宙,人類有7000多個平行宇宙,有的彼此相似,有的大相徑庭。這種巨大的多樣性是人類頭腦靈活性和精致性創(chuàng)造出的奇跡。我相信,對人類認知世界的認識越深刻,就越能更好地理解人類的本質。”
嗯,倘若互聯(lián)網發(fā)展的底層邏輯是將全人類更好地連接在一起,形成一個巨大村落,那么語言也許就是最后一個技術障礙。在此之前,圖片作為全世界的通用語言,在社交應用上發(fā)揮了巨大作用——無論在哪個國家,笑容就是笑容,哭泣就是哭泣。當然,表情符號也發(fā)揮了類似作用——你知道么,真的有人曾用表情符號聊了45分鐘。
所以,可以肯定的是,當人類連接在一起,打破語言的壁壘,更好地理解彼此,勢必將開啟“地球村”的新篇章。
最后我想說,對于那些連四級都沒過的同學,你們也許真的有福啦。