Google神經機器翻譯系統

Google神經機器翻譯系統

Google神經機器翻譯系統(英語:Google Neural Machine Translation,簡寫:GNMT),是Google開發的神經機器翻譯(NMT)系統,於2016年11月推出,它使用人工神經網路來提高Google翻譯的流暢度和準確性。Google神經機器翻譯系統通過套用基於實例的(EBMT)機器翻譯方法來改進翻譯質量,系統會從數百萬個示例中學習。翻譯系統提出的系統學習架構首先通過Google翻譯支持的一百多種語言進行了測試。隨著大型端到端框架的發展,系統會隨著時間的推移學習,做出更好,更自然的翻譯。GNMT能夠一次過翻譯整句句子,而不是逐字翻譯。

基本介紹

  • 中文名:Google神經機器翻譯系統
  • 外文名:Google Neural Machine Translation
  • 縮寫:GNMT
  • 開發時間:2016年
  • 開發團隊:Google研究團隊
開發背景,歷史,零點翻譯,GNMT系統和英語專業學生翻譯效果對比及分析,GNMT系統出現的問題,總結,

開發背景

機器翻譯的特徵主要表現為自動化、機械性、以語句為翻譯單位、二度摹仿和語境制約有限五大特徵,且機器翻譯與人工翻譯之間的關係並非矛盾、零和的關係,而是相輔相成、相互促進的關係。進入90年代之後,機器翻譯開始迅速發展,而谷歌翻譯是機器翻譯的代表。語言中出現一些變化、新詞或者外來詞時,谷歌翻譯可以通過升級、完善其語料庫,增加對應的新詞、外來詞文本,使譯文適應語言的發展,十分便利。

歷史

谷歌大腦項目於2011年由Google研究員傑夫·迪恩,格雷戈·科拉多和史丹佛大學計算機科學教授吳恩達Google X秘密實驗室成立。吳恩達的工作令Google和史丹佛大學獲取了突破。
2016年9月,Google研究團隊宣布開發Google神經機器翻譯系統,同年11月,Google翻譯停止使用其自2007年10月以來一直使用的專有統計機器翻譯(SMT)技術,開始使用神經機器翻譯(NMT)。
Google翻譯的NMT系統使用了一種能夠深度學習的大型人造神經網路。GNMT使用通過使用數百萬更廣泛的來源來推斷出最相關的翻譯,提高翻譯的質量。 然後將結果重新排列並組成基於人類語言的語法翻譯。 GNMT提出的系統學習架構通過Google翻譯支持的語言進行了測試。 GNMT沒有創建自己的普遍語言,而是針對許多語言之間發現的共同點,因此心理學家語言學家計算機科學家對此更感興趣。2016年,Google翻譯的其中八種語言開始嘗試使用此系統,包括英語法語德語西班牙語葡萄牙語中文日語韓語土耳其語。2017年3月,增加了俄語印地語越南語。同月,因谷歌翻譯社群的幫助下,添加了對希伯來語阿拉伯語的支持。2017年4月底,增加了9種印度語言的支持,包括印度語孟加拉語馬拉地語古吉拉特語旁遮普語泰米爾語泰盧固語馬拉雅拉姆語和康納達語。

零點翻譯

GNMT系統改進了以前的Google翻譯系統,GNMT系統可以處理“零點翻譯”,即直接將一種語言翻譯成另一種語言(例如中文日文)。以前Google翻譯會先將源語言翻譯成英文,然後將英文翻譯成目標語言,而不是直接從一種語言翻譯成另一種語言。

GNMT系統和英語專業學生翻譯效果對比及分析

讓谷歌神經機器翻譯系統系統和英語專業學生分別翻譯兩篇英文,之後對兩者的翻譯效果進行對比。英文段落翻譯中包含全國翻譯專業資格考試英語筆譯三級樣題一篇,529字,2016年12月全國大學英語四級考試閱讀理解段落一篇,211字。2017年8月11日,在採用GNMT系統的https://translate.google.cn/網站上獲得譯文;參與翻譯測試的學生為瀋陽市4所高校4個班級英語專業大三的學生。

GNMT系統出現的問題

(1)只翻譯出字面含義,譯文並未結合整個句子的含義。如,原文為:Freed by warming,waters once lockedbeneath ice are gnawing at coastal settlementsaround the Arctic Circle.GNMT系統的譯文是:通過變暖釋放,一旦被冰封鎖住的水域就在北極圈周圍的沿海定居點處啃咬。free確實有釋放的含義,但硬生生地翻譯為“通過變暖釋放”會給讀者一頭霧水的感覺,應為“氣候變暖,原來壓在冰下的水自由流動”。同樣,are gnawing at翻譯為“啃咬”並不合適,翻譯為“侵蝕”較為貼切。
( 2 ) 句子理解錯誤,導致翻譯出錯。如,原文為:Eventually,homes will be lost as more ice meltseach summer,and maybe all of Bykovsky,too.GNMT系統的譯文是:最終,隨著每年夏天更多的冰融化,也許全部Bykovsky也將失去家園。譯文中,“homes willbe lost”(將失去家園)並未譯出,homes will be lost和後面的 Bykovsky 聯繫在一起,譯為“Bykovsky也將失去家園”,合理的譯文應該為“最終家園將會消失,整個Bykovsky也將不復存在”。
(3) 譯文出現漏譯原文內容的情況。如,原文為:A changing Arctic is felt there,too,though inanother way.GNMT系統的譯文是:不過,北極的變化也是如此。原文中“felt”,“in another way”並沒有譯出。這句應譯為“北極的變化在這裡也能感受到,不過方式不同”。

總結

  • 譯文的定語過長,不符合漢語的表達習慣
  • 對原文的理解有誤
  • 標點不夠規範
對機器翻譯取代人工翻譯的擔心是沒有必要的,機器翻譯的文本類別有限,當前來看結果也不甚理想,遠沒有達到令人滿意的程度。但是,以GNMT系統為代表的神經機器翻譯的發展,為今後人機結合的翻譯提供了必要的保障。GNMT系統的翻譯結果可以作為英語專業學生提升翻譯水平的一面鏡子,查找自身的不足。在教學中對於要逐步增加中國文化的滲透,從而使當今學生在從事英語翻譯的過程中,自然擔當起祖國優秀文化傳播者的角色,讓世界了解中國,讓中國走向世界。GNMT系統和英語專業學生的翻譯水平的共同提高,必然會為譯文質量和效率的提升打下實基礎。

    相關詞條

    熱門詞條

    聯絡我們