計算語言學

計算語言學

計算語言學(Computational Linguistics)指的是這樣一門學科,它通過建立形式化的數學模型,來分析、處理自然語言,並在計算機上用程式來實現分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的。

基本介紹

  • 中文名:計算語言學
  • 外文名:Computational Linguistics
簡介,定義別名,產生背景,發展歷史,基本內容,成果,熱點,套用,

簡介

計算機語言(Computer Language)指用於人與計算機之間通訊的語言。語言分為自然語言與人工語言兩大類。自然語言是人類在自身發展的過程中形成的語言,是人與人之間傳遞信息的媒介。
人工語言指的是人們為了某種目的而自行設計的語言。計算機語言就是人工語言的一語。計算機語言是人與計算機之間傳遞信息的媒介。計算機系統最大特徵是指令通過一種語言傳達給機器。
為了使電子計算機進行各種工作,就需要有一套用以編寫電腦程式的數字、字元和語法規劃,由這些字元和語法規則組成計算機各種指令(或各種語句)。這些就是計算機能接受的語言。

定義別名

語言學的一個分支,專指利用電子計算機進行語言研究。
計算語言學(Computational Linguistics)有時也叫計量語言學(Measuring Linguistic),數理語言學(Mathematical Linguistics),自然語言理解(Natural Language Understanding),自然語言處理(Natural Language Processing),人類語言技術(Human Language Technology)。

產生背景

電子計算機問世不久,人們便考慮到它的非數值運算問題,並選中機器翻譯作為第一個非數值運算的課題。這個選擇可以說開闢了計算機非數值套用無比廣闊的領域,許多語言學理論和方法以及許多技術成果都是在它的基礎上或啟發下產生和解決的。例如,文字的輸入輸出設備、大存儲裝置、言語識別和文字識別等課題均在機器翻譯研究初期便已提出。但是由於機器翻譯是一種比較高級的人工智慧,至今尚未能真正或廣泛付諸套用,而計算語言學的其他方面卻得到了很大發展。計算機情報檢索在60年代末期便已實現,通過衛星已可進行洲際檢索。利用計算機進行言語統計已成常事,在統計分析的基礎上編成了一大批正序、逆序詞表和頻率詞典,建立了各種語料庫,促進了計算風格學的誕生。同時還編制了大量索引和逐詞索引。大字元集的信息處理問題已得到一定解決,這為中文和其他東方語文的信息處理提供了方便條件。計算機輔助教學日趨成熟與普遍。作為人工智慧一個重要分支的自然語言理解也已奠定了基礎,與此相聯繫的文字自動識別、言語識別言語合成等項語言工程也在蓬勃開展。計算機在實驗語音學、方言研究、語法分析和詞典編纂等方面也得到了越來越廣泛的套用。
計算語言學之所以有這樣長足的發展,是由於社會的需要。當今世界處於新技術革命時代,一個以電子計算機為基本工具的現代化語言文字信息處理系統正在世界範圍內形成,這標誌著高度發展的信息化社會的到來。計算語言學正是為擔當這一歷史使命而誕生和發展的。

發展歷史

NLP於20世紀50年代早期開始於美國,當時美國害怕在空間競賽中落敗,需要翻譯大量俄文科技文獻,於是開發機器翻譯系統,特別是俄英機器翻譯系統,做法是採用詞到詞的翻譯。由於成本高而效率低,漸漸撤去了資金支持。60年代開發的自然語言理解系統,大都沒有真正意義上的語法分析,而主要依靠關鍵字匹配技術來識別輸入句子的意義。在這些系統中設計者事先存放了大量包含某些關鍵字的模式,每個模式都與一個或多個解釋(又叫回響式)相對應。系統將當前輸入句子同這些模式逐個進行匹配,一旦匹配成功便立即得到了這個句子的解釋,而不再考慮句子中那些不屬於關鍵字的成分對句子意義會有什麼影響。進入70年代以後,一批採用句法—語義分析技術的自然語言理解系統脫穎而出,在語言分析的深度和難度方面都比早期系統有了長足的進步。這個時期的代表作是LUNAR,SHRDLU和MARGIE系統。進入80年代以來自然語言理解系統的最大特點就是實用化和工程化。其重要標誌就是一批商品化的自然語言人----機接口和機器翻譯系統出現在國際市場上。著名的有美國人工智慧公司(AIC)生產的英語人—機接口系統Intellect,美國弗雷公司生產的Themis人----機接口,美國加利福尼亞工學院研製的ASK接口;歐洲共同體在美國喬治敦大學開發的機譯系統SYSTRAN的基礎上成功地進行了英、法、德、西、意、葡等多語對的機器翻譯,加拿大蒙特婁大學開發的服務於天氣預報領域的英法機譯系統TAUM—METE0,日本富士通公司開發的ATLAS英日、日英機譯系統,日本日立公司開發的HICATS英日、日英機譯系統等等。國內“七五”期間由中國軟體總公司開發的商品化英漢機譯系統“譯星”(TRANSTAR),也是這方面的一個範例。
1990年8月,在赫爾辛基召開的第13屆國際計算語言學大會上,大會組織者首次提出了處理大規模真實文本的戰略目標,並在會前組織了“大型語料庫在建造自然語言系統中的作用”、“詞典知識的獲取與表示”和“電子詞典”等專題講座,預告了語言信息處理的一個新的歷史階段即將到來。

基本內容

計算語言學發展到今天,按其工作性質和複雜程度,可以歸結為以下3個方面:①自動編排:這是計算機最擅長的工作,也是計算語言學中最成熟的部分。對各種語言素材進行統計、分類、排序,編輯各種詞表、索引和詞典,建立語料庫、術語資料庫等等,已經得到廣泛運用。由於這些技術已經相當成熟,因而已有現成的軟體包提供服務。②自動分析:這是一種較複雜的語言自動處理。這種自動分析系統是根據事先存入計算機內的特定語言信息進行工作,目的在於得到預先規定的結論,例如讓計算機查詞典或進行語法測試,均屬此類。若結論有誤,就證明詞典或語法不夠完備,需要對原先的數據或規則加以修訂或補充。這類系統一般尚處於試驗研究階段。③自動研究:這是一種更複雜的語言自動處理。這種自動研究系統是根據計算機記憶體儲的一般語言信息進行工作,藉助統計、比較、類推等手段,得出自己推斷的結論。人工智慧研究中的某些自然語言理解系統正在朝這方面努力,但目前還沒有比較成熟的研究成果。

成果

計算語言學可以說是計算機和語言學相結合的產物。這種結合已經得到豐碩的成果,除了上面說到的那些套用課題以外,還表現在對語言學理論和方法的影響上。語言的定義擴展了:語言已不僅是人類重要的交際工具,而且也是人機之間的交際工具。為了滿足計算機加工的要求,計算語言學最大的特點就是要求語言的形式化,因為只有形式化,才能算法化、自動化。根據這項要求,制定出一系列面向語言信息處理的自動分析方法,其中包括預示分析法從屬分析法中介成分體系優選語義學擴充轉移網路概念從屬論等等。這些自動分析方法,已在機器翻譯自然語言理解的系統中得到套用,並證明有效。語言的形式化是分層進行的。語法的形式化相對來說比較簡單,人們已做了不少工作;語義的形式化則是一個複雜的問題,人們進行的工作還不多。而語義形式化問題解決得好壞,將大大影響語言自動加工的成效。因此,繼續發掘行之有效的形式結構分析方法和語義分析方法,研究它們之間的關係,以及探討它們在不同系統中各自使用的限度,這是計算語言學中的重點研究課題。
第五代計算機要求人們賦予它聽覺(識別口語)和更強的視覺(自動識別文字),賦予它說話能力(合成言語)和聽寫能力(語音打字),同時還要求人們賦予它理解自然語言並把某種(或多種)自然語言翻譯成另一種(或多種)自然語言的能力。這樣,計算語言學工作者又需要提供各種物理參數、語言機率性等方面的數據和各種套用軟體,以便同有關的專家、工程師一道共同解決為計算機增添“翅膀”這個重大課題,使之真正成為“萬能的智慧型機器”。
完成上述任務,必須靠整個語言學界的努力和合作。儘管面向機器的語言學有其獨特性,在許多方面都要另起爐灶,但是實踐證明:傳統語言學的基礎雄厚與否對解決一些新任務有很大關係,例如傳統的英漢對比語言學研究得好,就會給英漢機器翻譯提供很多方便。從這個意義上講,計算語言學只有很好地吸取傳統語言學的成果並加以改造,才能得到迅速發展。

熱點

機器翻譯是當前計算語言學研究的熱點和難點。它是利用計算機實現從一種自然語言(源語言)文本到另一種或多種自然語言(目標語言)文本的翻譯;而用以翻譯的軟體叫做機譯系統。機譯涉及語言學、計算機科學、認知科學、數學等多個學科,是一門前沿交叉學科。這一充滿挑戰的研究領域,被列為21世紀世界十大科技難題的第一位。
不過就已有的機譯成就來看,機譯系統的譯文質量離終極目標仍相差甚遠;而機譯質量是機譯系統成敗的關鍵。中國數學家、語言學家周海中教授曾在論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程式設計問題;單靠若干程式來做機譯系統,肯定是無法提高機譯質量的。另外在人類尚未明了大腦是如何進行語言的模糊識別邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的。

套用

計算語言學和自然語言信息處理研究的核心問題是語言的自動理解(Language Understanding)和自動生成(Language Generation)。前者從句子表層的詞語符號串識別句子的句法結構,判斷成分之間的語義關係,最終弄清句子表達的意思;後者從要表達的意思出發選擇詞語,根據詞語間的語義關係構造各個成分之間的語義結構和句法結構,最終造出符合語法和邏輯的句子。
計算語言學的研究也像其他學科一樣,有科學研究與技術研究兩個層次。科學研究的目的是發現語言的內在規律、探索語言理解和生成的計算方法、建設語言信息處理的基礎資源;而技術研究則藉助套用目標來驅動,根據社會的實際需要,設計和開發實用的語言信息處理系統。
自然語言信息處理的套用目標是使人與計算機之間用自然語言進行交流。具體說,是建立各種處理自然語言的計算機套用軟體系統,譬如:機器翻譯自然語言理解、語音自動識別與合成、文字自動識別、計算機輔助教學、信息檢索、文本自動分類、自動文摘,還有文本中的信息提取、網際網路上的智慧型搜尋,以及各種電子詞典和術語資料庫。
隨著網際網路的廣泛普及,語言信息處理的社會需求越來越大,人們迫切需要用自動化的手段處理海量的語言信息。然而,由於學科理論發展的局限和漢語本身的複雜性,目前我國計算語言學理論和方法的研究還不能為開發漢語信息處理套用系統提供足夠的支持。多年來國內計算語言學和自然語言處理學科發展的特點之一是,套用型研究和實用系統開發的目標比較明確,投入相對較多,也取得了一些成果;而基礎理論和方法的研究則相對薄弱。1998年-2002年期間的研究情況和發展態勢依然如此。在本文上述的各種套用目標中,研究力量比較集中的項目有:文本信息檢索、文獻自動分類、自動文摘、語音自動識別與合成、機器翻譯,還有文本信息提取和過濾。另外,語言資源的建設和基於語料庫的語言分析方法也受到了格外關注,取得了比較快的進展。下面先簡要敘述計算語言學和語言信息處理領域有代表性的基礎研究,再介紹面向套用的研究和實用系統的研製,然後談談語言資源的建設,最後介紹有關的學術會議和期刊、論著。這些工作都以書面語為研究對象,針對口語的研究將作為語音識別與合成專題另文介紹。

相關詞條

熱門詞條

聯絡我們