IKAnalyzer

IKAnalyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。

基本介紹

  • 中文名:IKAnalyzer
  • 性質:中文分詞工具包
  • 語言:java語言
  • 推出時間:2006年12月
相關簡介,相關特性,運行環境,最新版本,

相關簡介

從2006年12月推出1.0版開始,IKAnalyzer已經推出 了3個大版本。最初,它是以開源項目Lucene為套用主體的,結合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer3.0則發展為 面向Java的公用分詞組件,獨立於Lucene項目,同時提供了對Lucene的默認最佳化實現。

相關特性

採用了特有的“正向疊代細粒度切分算法“,具有60萬字/秒的高速處理能力。
採用了多子處理器分析模式,支持:英文字母(IP位址、Email、URL)、數字(日期,常用中文數量詞羅馬數字科學計數法),中文辭彙(姓名、地名處理)等分詞處理。
對中英聯合支持不是很好,在這方面的處理比較麻煩.需再做一次查詢,同時是支持個人詞條的最佳化的詞典存儲,更小的記憶體占用。
支持用戶詞典擴展定義。
針對Lucene全文檢索最佳化的查詢分析器IKQueryParser;採用歧義分析算法最佳化查詢關鍵字的搜尋排列組合,能極大的提高Lucene檢索的命中率。

運行環境

授權協定: LGPL
開發語言: Java
作業系統: 跨平台

最新版本

當前最新版本為IKAnalyzer2012
IK Analyzer 2012特性:
1.採用了特有的“正向疊代最細粒度切分算法“,支持細粒度和智慧型分詞兩種切分模式;
2.在系統環境:Core2 i7 3.4G雙核,4G記憶體,window 7 64位, Sun JDK 1.6_29 64位 普通pc環境測試,IK2012具有160萬字/秒(3000KB/S)的高速處理能力。
3.2012版本的智慧型分詞模式支持簡單的分詞排歧義處理和數量詞合併輸出。
4.採用了多子處理器分析模式,支持:英文字母、數字、中文辭彙等分詞處理,兼容韓文、日文字元
5.最佳化的詞典存儲,更小的記憶體占用。支持用戶詞典擴展定義。特別的,在2012版本,詞典支持中文,英文,數字混合詞語。

相關詞條

熱門詞條

聯絡我們