中文信息檢索

中文信息檢索

(Information Retrieval)是指信息按一定的方式組織起來,並根據信息用戶的需要找出有關的信息的過程和技術。 狹義的信息檢索就是信息檢索過程的後半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Information Search 或Information Seek)。

基本介紹

  • 中文名:中文信息檢索
  • 外文名:Chinese information retrieval
  • 檢索手段:手工、光碟、在線上、網路
  • 出現年代:1974年
信息檢索,中文信息檢索,技術簡介,數據預處理,索引生成,查詢處理,檢索,研究現狀,

信息檢索

信息檢索的手段
(1)手工檢索 (2)光碟檢索
(3)在線上檢索 (4) 概括起來分為手工檢索和機械檢索:
手工檢索:指利用印刷型檢索書刊檢索信息的過程,優點是回溯性好,沒有時間限制,不收費,缺點是費時,效率低。
機械檢索:指利用計算機檢索資料庫的過程,優點是速度快,缺點是回溯性不好,且有時間限制。
計算機檢索、網路文獻檢索將成為信息檢索的主流。
網路信息檢索,也即網路信息搜尋,是指網際網路用戶在網路終端,通過特定的網路搜尋工具或是通過瀏覽的方式,查找並獲取信息的行為。

中文信息檢索

【Chinese information retrieval】對中文文獻進行儲存、檢索和各種管理的方法和技術。中文文獻檢索技術出現在1974年,20世紀80年代得到了快速增長,90年代主要研究支持複合文檔的文檔管理系統。中文信息檢索在90年代之前都被稱為情報檢索,其主要研究內容有:包括布爾檢索模型、向量空間模型和機率檢索模型在內的信息檢索數學模型;如何進行自動錄入和其它操作的文獻處理;進行詞法分析的提問和詞法處理;實現技術;對查全率和查準率研究的檢索效用;標準化;擴展傳統信息檢索的範圍等。中文信息檢索主要書目的檢索,用於政府部門、信息中心等部門。
中文信息檢索

技術簡介

總體上,系統可分為四個部分:1. 數據預處理,2.索引生成,3. 查詢處理,4. 檢索。下面我們分別對各個部分採用的技術加以介紹。

數據預處理

如今檢索系統的主要數據來源是Web,格式包括網頁、WORD 文檔、PDF 文檔等,這些格式的數據除了正文內容之外,還有大量的標記信息,因此從多種格式的數據中提取正文和其他所需的信息就成為數據預處理的主要任務。此外,眾所周知,中文字元存在多種編碼,比如GB2312、BIG5、Unicode(CJK 區),而原始數據集往往包含多種編碼,因此要正確地檢索到結果必須進行統一編碼轉換。研究者們對預處理部分要提取哪些信息並沒有共識,這與後續處理所需的信息密切相關,一般來說,正文、錨文本和連結地址都是要提取出來的。

索引生成

對原始數據建索引是為了快速定位查詢詞所在的位置,為了達到這個目的,索引的結構非常關鍵。如今主流的方法是以詞為單位構造倒排文檔表,每個文檔都由一串詞組成,而用戶輸入的查詢條件通常是若干關鍵字,因此如果預先記錄這些詞出現的位置,那么只要在索引檔案中找到這些詞,也就找到了包含它們的文檔。為了進一步提高查詢的速度,在組織索引時還可以採用一些更複雜的方法,比如B樹、TRIE 樹、哈希表等。這個階段還需要對預處理之後的文檔進行詞法分析,這是因為很多語言的文本都不宜直接把正文中的字元串用於建立索引。例如,中文裡的詞與詞之間不存在分隔設定,因此必須先進行分詞,而英文中的詞存在很多變形,比如“compute”就存在“computes”、“computing”、“computed”等多種變形,應先進行詞根還原。此外,有些詞雖然出現頻率很高,但對於查詢沒有任何幫助,比如“的”、“了”等,就無需放入索引,為此需要預備一個停用詞表(stop word list)對這類詞進行過濾。

查詢處理

用戶輸入的查詢條件可以有多種形式,包括關鍵字、布爾表達式、自然語言形式的描述語句甚至是文本,但如果把這些輸入僅當作關鍵字去檢索,顯然不能準確把握用戶的真實信息需求。很多系統採用查詢擴展來克服這一問題。各種語言中都會存在很多同義詞,比如查“計算機”的時候,包含“電腦”的結果也應一併返回,這種情況通常會採用查詞典的方法解決。但完全基於詞典所能提供的信息有限,而且很多時候並不適宜簡單地以同義詞替換方法進行擴展,因此很多研究者還採用相關反饋、關聯矩陣等方法對查詢條件進行深入挖掘。

檢索

最簡單的檢索系統只需要按照查詢詞之間的邏輯關係返回相應的文檔就可以了,但這種做法顯然不能表達結果與查詢之間的深層關係。為了把最符合用戶需求的結果顯示在前面,還需要利用各種信息對結果進行重排序。目前有兩大主流技術用於分析結果和查詢的相關性:連結分析和基於內容的計算。許多研究者發現,WWW 上超鏈結構是個非常豐富和重要的資源,如果能夠充分利用的話,可以極大地提高檢索結果的質量。基於這種連結分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法,同年J.Kleinberg 提出了HITS 算法,其它一些學者也相繼提出了另外的連結分析算法,如SALSA,PHITS,Bayesian等算法。這些算法有的已經在實際的系統中實現和使用,並且取得了良好的效果。而基於內容的計算則沿用傳統的文本分類方法,多採用向量空間模型、機率模型等方法來逐一計算用戶查詢和結果的相似度(相關性)。兩者各有優缺點,而且恰好互補。連結分析充分利用了Web 上豐富的連結結構信息,但它很少考慮網頁本身的內容,而直觀上看,基於內容的計算則較為深入地揭示了查詢和結果之間的語義關係,但忽略了不同網頁之間的指向關係,因此如今很多系統嘗試把兩者結合起來,以達到更好的性能。

研究現狀

評價指標
為便於理解評測結果所代表的意義,我們先來介紹一下評測中常用的指標。評測指標直接關係到參評系統的最終評價,指標不合理會導致對系統的評價也不合理,因此規範化的評測會議對於評價指標的選擇都是很慎重的。
早期常用的評測指標包括準確率(Precision)、召回率(Recall)、F1 值等。
召回率考察系統找全答案的能力,而準確率考察系統找準答案的能力,兩者相輔相成,從兩個不同側面較為全面地反映了系統性能。F1 值是一個把準確率和召回率結合起來的指標。考慮到某些情況下不同系統的準確率召回率互有高低,不便於直接比較,而使用F1 值就可以更直觀地對系統性能進行排序。
隨著測試集規模的擴大以及人們對評測結果理解的深入,更準確反映系統性能的新評價指標逐漸出現,包括:
1. 平均準確率(Mean Average Precision, 即MAP):單個主題的MAP 是每篇相關文檔檢索出後的準確率的平均值。主題集合的MAP 是每個主題的MAP 的平均值。MAP 是反映系統在全部相關文檔上性能的單值指標。
2. R-Precision:單個主題的R-Precision 是檢索出R 篇文檔時的準確率。其中R 是測試集中與主題相關的文檔的數目。主題集合的R-Precision 是每個主題的R-Precision 的平均值。
3. P@10:P@10 是系統對於該主題返回的前10 個結果的準確率。考慮到用戶在查看搜尋引擎結果時,往往希望在第一個頁面(通常為10 個結果)就找到自己所需的信息,因此設定了這樣一個擬人化的指標,P@10 常常能比較有效地反映系統在真實套用環境下所表現的性能。

相關詞條

熱門詞條

聯絡我們