英語語料庫與自動語法分析

內容簡介

語料庫語言學和計算語言學為促進自然語言處理技術快速發展的兩門基礎學科。《英語語料庫與自動語法分析》系這兩個領域的一本專著，它以國際英語語料庫為背景，著重探討大型語料庫的語法分析，尤其是英語口語材料給計算機自動處理帶來的一系列難題，書中涉及基於機率的自動詞類識別和基於實例的自動句法分析這兩大技術，並有專門章節來探討句法分析的評測問題，對AUTASYS和THE SURVEY PARSER這兩個軟體系統的實際表現進行了深入的量化評測。此外，本書還探討了介詞短語的自動分析，特別是這類短語的句法功能的自動判定，並對自動語法分析在語音合成及語音識別中的套用做了相應的說明。

作者方稱宇博士曾任英國倫敦大學學院英語用法調查中心副主任，協助著名語法學家Sidney Greenbaum教授進行國際英語語料庫的創建與研究，隨後在英國倫敦大學學院的語音和語言學系任高級研究員。現執教於香港城市大學，在中文、翻譯及語言學系教授計算語言學、語料庫語言學和認知語言學等課程，並任韓禮德語言研究智慧型套用中心核心成員。

本書為純英文，適合英語類語言工作專業人員閱讀。

圖書前言

從1993年到2005年，我在倫敦大學學院(University College London，簡稱UCL)從事科研和教學工作。本書記載了我多年來在語料庫語言學和計算語言學這兩個領域的主要研究心得和成果。

上世紀90年代，是英國語料庫語言學發展的黃金時期。倫敦的Randolph Quirk教授和Sidney Greenbaum教授、蘭開斯特的Geoffrey Leech教授、伯明罕的John Sinclair教授都在進行語料庫的開發工作。

當時，Sidney Greenbaum教授任UCL的英語用法調查中心(Survey of English Usage)主任，正在從事國際英語語料庫(The International Corpus of English)的創建工作。100萬字的英國英語語料已經採集完畢，語法標碼也己完成，但句法分析遇到不少困難。一是所用的句法分析系統不適用，每輸入一個語句，常生成幾十、上百、甚至上千棵句法樹，然後再人工選取，十分耗時耗力。二是所用的形式語法不適用。當時的語法為英語書面語所寫，而100萬字的英國英語語料包含60萬字的口語，所以幾乎每天都要開會討論一些語句的具體處理，語法的某些部分乾脆需要重寫，尤其是不同層次上的並列結構。儘管如此，最後還是有大約30%的語句，自動句法分析系統根本無法應付。

於是，Sidney Greenbaum教授和我在1994年一同撰寫了一份項目申請書，然後約見了英國工程及物理科學研究委員會(Engineering and Physical Sciences Research Council)的有關人員，其中包括Nigel Birch先生和Mark Tatham教授，提出了我們的研究構想。這份申請最後通過了委員會的評審，獲得了一筆約50萬英鎊的資助，專門用於研製一個新的自動句法分析系統並重寫一部新的、可用於英語口語分析的形式語法。

英語語料庫與自動語法分析

基本介紹

內容簡介

圖書前言

圖書目錄

相關詞條

熱門詞條