通用信息索引

技術介紹

經過網頁預處理後，可以建立索引資料庫。對於數目龐大的文檔資料庫使用簡單匹配方法是不可行的，需要對文檔的表示建立索引。為了提高檢索效率，應該按照一定的規則建立索引。索引檔案一般是按照倒排檔案的格式存放的，通用的信息索引的建立包括：

(1) 分析：處理檔案中可能的錯誤；

(2) 索引：完成分析的檔案被編碼存入索引資料庫；

(3) 排序：將索引資料庫按照一定的規則排序，產生全文索引。

順排索引

順排索引的主要思想是將文檔中的每一條記錄依次去匹配用戶的檢索提問集合，文檔處理完畢後，將各提問的命中結果歸併分發給有關用戶。順排索引是用文檔中記錄一條一條去匹配提問的，是順序對文檔記錄檢索的方法，所以也稱為順排文檔檢索。常用的順排索引方法主要有：表展開法、邏輯樹法等。

順排索引的關鍵技術是採用列表(正派表)處理方法將提問邏輯式(檢索式)變換成等價的提問展開式，按提問展開表的內容對順排文檔的每篇文獻進行檢索。

正排表是以文檔的ID為關鍵字，表中記錄文檔中每個字的位置信息，查找時掃描表中每個文檔中字的信息直到找出所有包含查詢關鍵字的文檔。正排表結構如圖1所示，這種組織方法在建立索引的時候結構比較簡單，建立比較方便且易於維護；因為索引是基於文檔建立的，若是有新的文檔加入，直接為該文檔建立一個新的索引塊，掛接在原來索引檔案的後面。若是有文檔刪除，則直接找到該文檔號文檔對應的索引信息，將其直接刪除。但是在查詢的時候需對所有的文檔進行掃描以確保沒有遺漏，這樣就使得檢索時間大大延長，檢索效率低下。

倒排索引

倒排文檔是一種而向單詞的索引機制，相對順排文檔而言，是將順排文檔中可檢索欄位的作者名、關健詞、分類號等取出，按一定規則排序，歸併相同辭彙，並把在順排文檔中相關記錄的記錄號集合賦予其後，以保證通過某一特徵詞能夠快速、方便地獲取相關記錄。圖2是倒排索引的結構圖。

倒排表以字或詞為關鍵字進行索引，表中關鍵字所對應的記錄表項記錄了出現這個字或詞的所有文檔，一個表項就是一個字表段，它記錄該文檔的ID和字元在該文檔中出現的位置情況。

由於每個字或詞對應的文檔數量在動態變化，所以倒排表的建立和維護都較為複雜，但是在查詢的時候由於可以一次得到查詢關鍵字所對應的所有文檔，所以效率高於正排表。在全文檢索中，檢索的快速回響是一個最為關鍵的性能，而索引建立由於在後台進行，儘管效率相對低一些，但不會影響整個搜尋引擎的效率。倒排表的結構圖如圖3所示。

倒排文檔

組成

倒排文檔的組成元素主要包括：關鍵字(作者、主題詞、分類號等)、目長(含有該關鍵字記錄的條數)、記錄號集合(所有與該關鍵字有關的記錄號)。

建立

倒排文檔的建立是建築在順排文檔(主文檔)的基礎之上，它是從主文檔中提取可檢索欄位內容，也有採取自動從標題、文摘或全文中提取關鍵字，利用所得到的這些屬性詞來建立倒排文檔。

通用信息索引

基本介紹

技術介紹

順排索引

倒排索引

倒排文檔

組成

建立

索引的建立

簡單法

合併法

更新策略

完全重建

再合併

原地更新

混合

相關詞條

熱門詞條