中文自動分詞

中文自動分詞指的是使用計算機自動對中文文本進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認為是中文自然語言處理中的一個最基本的環節。

基本介紹

  • 中文名:中文自動分詞
  • 類別:人工智慧
  • 詞性:名詞
介紹,自然語言處理,現有方法,

介紹

何謂自動分詞?自動分詞就是將用自然語言書寫的文章、句段經電子計算機處理後,以詞為單位給以輸出,為後續加工處理提供先決條件。此技術對於信息分析、情報檢索、機器翻譯、自動標引人工智慧等IT套用方面有著關鍵性的作用。
自動分詞的實現,對於拉丁語系來說並不困難,其語言文字的形成結構中,詞與詞之間本身就有著明顯的間隔符(如:空格、標點符號等),但對於中文來說,就是一個至今仍未能得以很好解決的技術難題,中文詞與詞之間沒有著明顯的間隔符,甚至連標點符號都沒有的古文更是為難了。當今,國內外IT界的一些仁人志士們還在為此技術不懈努力著。
當今世界已經進入大數據時代,縱觀下來中文自動分詞還很落後,還停留在字元串段比較搜尋階段。

自然語言處理

自然語言處理(英語:natural language processing縮寫NLP)是人工智慧語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言處理包括多方面和步驟,基本有認知、理解、生成等部分。
自然語言認知和理解,讓計算機把輸入的語言變成有意思的符號和關係,然後根據目的再處理。
自然語言生成系統把計算器數據轉化為自然語言。

現有方法

  • 基於詞典的匹配
  • 前向最大匹配
  • 後向最大匹配
基於字的標註
  • 最大熵模型
  • 條件隨機場模型
  • 感知器模型
其它方法
  • 與詞性標註結合
  • 與句法分析結合

相關詞條

熱門詞條

聯絡我們