自動翻譯系統

自動翻譯系統

自動翻譯系統是在語言學、數學和計算機技術的基礎上建立的由計算機將一種語言翻譯成為一種語言的語言信息處理系統。自動翻譯又稱機器翻譯,包括文字機器翻譯和語音機器翻譯。這類語言文字處理的進一步發展就是自然語言理解。機器翻譯的任務是利用電子計算機模擬人的翻譯活動,將源語言轉換成目標語言,實現翻譯的自動化或部分自動化。

基本介紹

  • 中文名:自動翻譯系統
  • 外文名:Automatic translation system
  • 提出熱:W.韋弗和A.D.布思
  • 提出時間:1946年
  • 基礎:計算機
發展簡史,基本方法,

發展簡史

1946年第一批計算機問世時,W.韋弗和A.D.布思就提出把翻譯任務全部地或部分地交給計算機執行的構想。他們認為把源語的辭彙替換成譯語的等價詞,就能得到譯文。事實上,為了使譯文具有一定的意義,需要進行結構的變換,即變換詞序、詞性和詞的數目。1949年美國華盛頓大學的E.萊夫勒最早開始自動翻譯的研究。1954年美國喬治敦大學的L.多斯特爾特與 IBM公司開始合作研究英俄自動翻譯,並於1960年推出自動翻譯系統。1956年蘇聯科學院也開始研究自動翻譯。1957年蘇聯發射第一顆人造衛星,使美國感到需要了解蘇聯技術發展動向,加速了俄英自動翻譯的研究工作。1960年法國格勒諾布爾建立自動翻譯研究中心CETA。1964年美國政府發表對自動翻譯的評價報告(即ALPAC報告),認為自動翻譯不論在技術或經濟方面短期內都不會有什麼前途。於是中止了自動翻譯的研究項目。1970年喬治敦大學研製出第一代自動翻譯系統 SYSTRAN系統。自動翻譯理論方面也有了新的進展。
1968年C.菲爾莫爾提出格語法理論,以非常一般的方式描述了詞在句中可能具有不同的功能。1971年T.維諾格勒進行自然語言理解系統實驗,證明對自然語言的理解不僅與它的內部規律有關,而且與它的套用環境有關。1977年加拿大蒙特婁大學研製出了自動翻譯系統TAUMMETEO系統,它能在24小時內把加拿大各地區的氣象預報從英文譯成法文。1978年法國格勒諾布爾大學B.沃克領導的自動翻譯實驗室研製出第二代自動翻譯系統ARIAN78,其語言模型利用樹型結構來表示句子,它把描寫詞典和文法的語言模型部分與進行分析、轉換和生成的算法的軟體部分分開,因而可獨立於系統的軟體來改進語法和語言模型。目前大多數自動翻譯系統都是第二代系統。1978年美國德克薩斯大學與聯邦德國西門子公司開始合作研製德英機器翻譯系統METAL 系統。它是高度模組化的結構,可併入語義分析、情報檢索和專家系統模組。它採用短語結構文法構造語言規則系統,通過轉換生成目標語言,用馬爾科夫過程的方法實現系統運行。運行速度為每秒一詞,日產200頁英譯文。它已成功地運行在幾個專業領域。1980年美國推出ALPS系統,它是包括機助翻譯功能較完善的多語種語言信息處理系統,有豐富的語言數據處理與管理軟體,通過人機對話進行機器翻譯,可用於辦公自動化系統。1982年歐洲經濟共同體開始自動翻譯計畫 EUROTRA。對從美國引進的 SYSTRAN系統進行了大量開發工作,現已成為較完善的多語種機器翻譯系統,能翻譯9個語種,包括英、法、德、意、荷、葡、西等。主要語種的詞典規模都在10萬詞條以上,軟體規模已達10萬行,能翻譯的對口專業有12個,用於共同體成員國之間不同語言文獻的相互翻譯,每小時可翻譯 3萬個詞。日本於1982年開始自動翻譯計畫,已推出 TITRAN等實驗系統,有TITRAN EJ(英日),TITRAN JE(日英),TITRAN JF(日法)等系統。中國於1985年推出英漢機器翻譯系統,如軍事科學院的KY-1型,中國社會科學院語言所的《天語》系統(ECT-2)。《天語》系統的首期目標是翻譯美國AD報告、NASA報告及英國INSPEC磁帶的文獻題錄。它屬於第二代系統,語言數據與軟體互相獨立。語言數據的加工是語法語義並重,注重語言事實的描寫和分析。平均每3分鐘一條題錄,正確率在80%以上。現在正在研究第三代自動翻譯系統,它的特點是辭彙驅動,不但使用一些通用的規則,而且還使用一定數量的針對每個詞的個別規則。第四代自動翻譯系統則是自然語言理解系統。

基本方法

把源語譯成目標語時,自動翻譯一般要經過三個階段。第一階段是對源語句子的分析。這種分析的深度大體上決定了翻譯的級別。第二階段是轉換。把分析得出的源語結構和範疇轉換成目標語的結構和範疇。第三階段是生成,即生成目標語的清晰易懂的譯文。第一代自動翻譯系統 SYSTRAM系統的操作過程也分為分析、轉換、生成三個階段(見圖)。在法國研製的第二代自動翻譯系統 ARIANE 78系統中也可以清楚地看到這三個階段。這個系統在一個帶標記的語法樹上進行一種語言到另一種語言的轉換。源語的所有的詞都作為辭彙基元放在樹上,在樹的節點上標明這些辭彙基元的形態、語法和語義特徵,由計算機對樹型圖和辭彙基元加工。系統實現了這種雙重轉換後,就能生成目標語的完整句子。在生成階段所經過的步驟與前面分析階段相同,但方向相反。一般採用LISP語言作為自動翻譯的程式設計語言。
自動翻譯根據對要翻譯的句子進行分析程度的不同,可分為 5個層次。第一層是按字母轉譯。它只要求更換原詞中的字母。如日文中漢字和假名同時存在,可用文字處理機把漢字自動變成假名或拉丁字母。第二層是詞對詞翻譯。它只要求使用一部詞典。對於一些比較接近的語種,如印歐語系的一些語言,只要改變詞序,就可做到一一對應。第三層是語法翻譯。通過對語法結構的鑑別來翻譯句子。第四層是語義翻譯。它不但分析句子的語法結構,還要分析它的語義內容,即要注意詞的語義和詞的搭配的語義關係。這種語義方法的基礎是格語法理論。第五層是語境翻譯。要求分析時儘量考慮語境。當一個孤立的句子有許多譯法時,只有把上下文中所有的句子連貫起來看,才能作出抉擇。要解決歧義問題,除語言外計算機還要具備外部世界的知識,要有推理能力。

相關詞條

熱門詞條

聯絡我們