Facebook這項(xiàng)新技術(shù),或許將幫人類(lèi)彌合語(yǔ)言鴻溝

責(zé)任編輯:editor004

作者:光譜

2017-08-05 21:37:06

摘自:PingWest品玩

但比如中日互譯、或者下圖中土耳其語(yǔ)和英文互譯,原文的語(yǔ)言和翻譯后語(yǔ)言在句法上有很大的差別,機(jī)器翻譯就會(huì)捉襟見(jiàn)肘了。由于深度學(xué)習(xí)技術(shù)的進(jìn)展,神經(jīng)機(jī)器翻譯在近年越發(fā)流行,并已進(jìn)入許多流行的產(chǎn)品中,開(kāi)始幫助人們更好地溝通。

《創(chuàng)世記》第11章中記載,人類(lèi)計(jì)劃建立通天的高塔,而上帝讓人類(lèi)說(shuō)不同的語(yǔ)言,使得他們無(wú)法協(xié)作,計(jì)劃最終失敗。

現(xiàn)實(shí)中,不同語(yǔ)言成為了各自所屬文化的因子,構(gòu)建出一種多樣的美。但語(yǔ)言仍像鴻溝,阻礙著人類(lèi)的交流。

最近,F(xiàn)acebook用人工智能對(duì)翻譯系統(tǒng)進(jìn)行了一次重大改造。

他們的工程師發(fā)現(xiàn),網(wǎng)站上對(duì)帖文和回復(fù)進(jìn)行翻譯的按鈕每天會(huì)被點(diǎn)擊數(shù)十億次,翻譯動(dòng)作有數(shù)千個(gè)方向(比如中英互譯,英文到中文是一個(gè)方向,反之又是另一個(gè)方向)之間。

20170804134646

170804134700

如此巨量的翻譯工作,F(xiàn)acebook一直以來(lái)做的卻不好。他們過(guò)去使用的統(tǒng)計(jì)機(jī)器系統(tǒng),翻不準(zhǔn)俗語(yǔ),識(shí)別不了錯(cuò)字和縮寫(xiě),無(wú)法理解上下文,很難準(zhǔn)確翻譯帖文的意圖。于是,工程師們用改用一種名叫“帶注意力的長(zhǎng)短時(shí)記憶”(Long Short-Term Memory with attention, LSTM) 的深度學(xué)習(xí)技術(shù),設(shè)計(jì)了一套人工智能翻譯系統(tǒng)。

目前,新的神經(jīng)機(jī)器翻譯系統(tǒng)已完全取代了過(guò)去的機(jī)翻系統(tǒng),部署到Facebook網(wǎng)站、Instagram以及其他產(chǎn)品中。改造的效果顯著:按照業(yè)界公認(rèn)的BLEU標(biāo)準(zhǔn),F(xiàn)acebook新翻譯系統(tǒng)各種語(yǔ)言互譯得分比舊系統(tǒng)提高了11%。

人際溝通大多通過(guò)語(yǔ)言完成。而當(dāng)參與方不使用統(tǒng)一語(yǔ)言,溝通就必須通過(guò)翻譯。因此翻譯系統(tǒng)的準(zhǔn)確度極大影響著溝通的成果。但遺憾的是,絕大多數(shù)網(wǎng)上和手機(jī)上的翻譯網(wǎng)站和軟件,背后的技術(shù)都來(lái)自機(jī)器翻譯。

通常,機(jī)翻系統(tǒng)對(duì)常見(jiàn)的單詞、短語(yǔ)和句法簡(jiǎn)單的句子翻譯效果較好。如果一句話(huà)就是主謂賓,比如“我吃米飯”,系統(tǒng)翻譯成 “I eat rice”,這沒(méi)問(wèn)題。

machine-translation

但比如中日互譯、或者下圖中土耳其語(yǔ)和英文互譯,原文的語(yǔ)言和翻譯后語(yǔ)言在句法上有很大的差別,機(jī)器翻譯就會(huì)捉襟見(jiàn)肘了。下圖是機(jī)翻結(jié)果:

20273931_1565950253456397_4591107382708273152_n

翻譯出的英文沒(méi)有語(yǔ)法錯(cuò)誤,但還是不太容易懂什么意思。這是因?yàn)闄C(jī)翻會(huì)把句子拆成一個(gè)個(gè)字段,結(jié)果就是把一個(gè)個(gè)字段的翻譯放出來(lái),沒(méi)有對(duì)目標(biāo)語(yǔ)言的語(yǔ)序、語(yǔ)法和表達(dá)習(xí)慣進(jìn)行優(yōu)化。

人工智能怎樣做到更準(zhǔn)確、更有人味兒地翻譯呢?

維基百科解釋?zhuān)?LSTM是一種在時(shí)間上遞歸神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network),適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件。翻譯正好是這種類(lèi)型的工作,因?yàn)楹荛L(zhǎng)的一句話(huà),可能后半段是對(duì)前半段的邏輯呼應(yīng),但機(jī)翻系統(tǒng)根本不記得前面說(shuō)的是什么。

LSTM能記住整句話(huà)的內(nèi)容,對(duì)句子的上下文進(jìn)行反溯,理解邏輯,從而給出更精確、流利和地道的翻譯結(jié)果,如下圖:

20483598_124176098203702_6336092654509490176_n

“注意力”(attention) 也是深度學(xué)習(xí)里一個(gè)很有趣的機(jī)制,它有點(diǎn)像人類(lèi)觀察事物時(shí)眼神的聚焦,鍋里有菜,你會(huì)自動(dòng)把更多注意力分配到菜上而不是鍋或者鍋柄。

注意力能夠幫助新系統(tǒng)留意一些在標(biāo)準(zhǔn)英語(yǔ)辭典里沒(méi)有出現(xiàn)的詞,這些詞很有可能是縮寫(xiě)和短語(yǔ),比如idk (I don’t know)、tmrw (tomorrow),也有可能是網(wǎng)絡(luò)用語(yǔ)。當(dāng)神經(jīng)機(jī)器在句子里發(fā)現(xiàn)這樣的詞,會(huì)先留空不翻譯,分配一定的計(jì)算力,去其他詞庫(kù)和訓(xùn)練數(shù)據(jù)集查找這個(gè)詞的釋義,最后再翻譯出來(lái)。

不僅如此,研發(fā)團(tuán)隊(duì)還利用了一些神經(jīng)網(wǎng)絡(luò)剪枝(保留重要的權(quán)重)和壓縮編碼的算法,極大地降低神經(jīng)翻譯系統(tǒng)的詞匯表大小,減小了計(jì)算量,但沒(méi)有拉低翻譯精度。

搞定了翻譯系統(tǒng),并不是終點(diǎn),工程師們還要把它部署到Facebook數(shù)十億用戶(hù)量級(jí)的后端系統(tǒng)中去。開(kāi)發(fā)了深度學(xué)習(xí)框架Caffe的Facebook研究科學(xué)家賈揚(yáng)清,已經(jīng)帶隊(duì)開(kāi)發(fā)出了更注重模塊化,利于移動(dòng)端和大規(guī)模部署的Caffe2。在新框架上運(yùn)行,神經(jīng)翻譯系統(tǒng)的效率提升了2.5倍。

由于深度學(xué)習(xí)技術(shù)的進(jìn)展,神經(jīng)機(jī)器翻譯在近年越發(fā)流行,并已進(jìn)入許多流行的產(chǎn)品中,開(kāi)始幫助人們更好地溝通。微軟推出的翻譯軟件Microsoft Translate,讓溝通多方像用微信一樣加入群聊,自然對(duì)話(huà)并獲得各自的翻譯,備受好評(píng)。

WechatIMG123-squashed

去年,全球5億人使用的Google Translate服務(wù)中部署了神經(jīng)翻譯機(jī)器。當(dāng)時(shí)PingWest品玩用一些經(jīng)典中英段落測(cè)試互譯,仍會(huì)出現(xiàn)奇怪的翻譯:

In my younger and more vulnerable years my father gave me some advice that I’ve been turning over in my mind ever since.

“Whenever you feel like criticizing anyone,”he told me,”just remember that all the people in this world haven’t had the advantages that you’ve had.”

人工翻譯:

我年紀(jì)還輕,閱歷不深的時(shí)候,我父親教導(dǎo)過(guò)我一句話(huà),我至今還念念不忘。

“每逢你想要批評(píng)任何人的時(shí)候,”他對(duì)我說(shuō),“你就記住,這個(gè)世界上所有的人,并不是個(gè)個(gè)都有過(guò)你那些優(yōu)越條件。”

Google神經(jīng)機(jī)器翻譯(去年):

在我更年輕,更容易年,我的父親給了我一些建議,我一直在我心中從此翻身。

“每當(dāng)你覺(jué)得批評(píng)任何人,”他告訴我,“只記得,所有的在這個(gè)世界上的人都沒(méi)有,你有過(guò)的優(yōu)勢(shì)。”

時(shí)隔一年之久再去測(cè)試,效果已經(jīng)好了很多:

在我年輕,更脆弱的歲月里,我父親給了我一些建議,自從我一直在轉(zhuǎn)過(guò)頭來(lái)。

“每當(dāng)你想批評(píng)任何人,”他告訴我,“只要記住,這個(gè)世界上所有的人都沒(méi)有你的優(yōu)勢(shì)。”

這是由于神經(jīng)機(jī)器翻譯后端的深度學(xué)習(xí)系統(tǒng)學(xué)習(xí)能力比統(tǒng)計(jì)機(jī)更強(qiáng)。隨著輸入的數(shù)據(jù)源,以及使用的人越來(lái)越多,它能不斷提升翻譯技巧。Facebook用戶(hù)剛剛超過(guò)20億,每天都有超過(guò)13億說(shuō)不同語(yǔ)言的人在上面分享活動(dòng)、發(fā)圖片、評(píng)論以及點(diǎn)贊。現(xiàn)在,F(xiàn)acebook翻譯后端已經(jīng)完全遷移至神經(jīng)機(jī)器翻譯,這些訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)每天處理多達(dá)45億次翻譯請(qǐng)求。

未來(lái),F(xiàn)acebook打算引入一些更先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),比如卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks, CNNs)。測(cè)試結(jié)果發(fā)現(xiàn)使用CNN進(jìn)行英法互譯的BLEU得分比LSTM進(jìn)一步提升了12%。不僅如此,他們也在嘗試一些更難的挑戰(zhàn),比如多語(yǔ)種(而非雙語(yǔ)種)翻譯。

屆時(shí),基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),將在精度、地道程度、多語(yǔ)種翻譯能力等更多維度上超過(guò)和取代統(tǒng)計(jì)機(jī),甚至人工翻譯——就目前來(lái)看,取代這些工作可能是人工智能為數(shù)不多的壞處之一。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)