資訊索引技術

簡介

資訊是用戶因為及時地獲得它並利用它而能夠在相對短的時間內給自己帶來價值的信息，資訊有時效性和地域性，它必須被消費者利用。並且“提供－使用（閱讀或利用）－反饋”之間能夠形成一個長期穩定的CS鏈，具有這些特點才可以稱之為資訊。從嚴格的意義上講，新聞是一種資訊。資訊是一種信息，涵蓋的不只是新聞，還可以包括其他媒介。如親臨專家講座等等；新聞的目標客群相對寬泛，沒有嚴格的客群劃分，學語言的人可以去閱讀科技新聞。學技術的也完全可以去閱讀文學新聞，而資訊的客群的目標性相對比較強烈。

在關係資料庫中，索引是一種單獨的、物理的對資料庫表中一列或多列的值進行排序的一種存儲結構，它是某個表中一列或若干列值的集合和相應的指向表中物理標識這些值的數據頁的邏輯指針清單。索引的作用相當於圖書的目錄，可以根據目錄中的頁碼快速找到所需的內容。所謂的資訊索引技術，就是從大量非結構的資料，例如網頁，根據某些關鍵字，找出具有此關鍵字的檔案。

影響因素

關鍵字的選擇

關鍵字(Keyword)是最常用的檢索策略，我們可以利用單字或辭彙找到在特定欄位中出現相同單字或辭彙的資料。當我們做關鍵字檢索時，代表讓資料庫去找全部資料中有出現關鍵字的所有記錄。所以，我們所用的關鍵字就決定了檢索結果的好壞。

用Keyword(關鍵字)檢索要得到滿意的結果，必須注意下面幾個原則：

(1)選用涵蓋主要概念的辭彙

我們選擇的關鍵字要能正確傳達研究主題的中心概念。關鍵字必須能清楚地界定研究主題，儘量選用意義明確的字彙，如冰淇淋，而少用一般的、共通性的字彙，如食品。

(2)選用的片語不宜太長

選用單字或簡短的片語關鍵字在進行檢索時，系統是到資料庫中去比對我們所輸入的辭彙，如果我們輸入的片語或詞組太長，找到完全吻合的機率就較小，因為作者發表文章時並不見得就剛好用我們所輸入的片語或詞組。例如：不要用"引用水中含砷量的處理"當成一個檢索詞，而應該以「飲用水」、「砷」、「處理」來進行檢索。

(3)專門用語與一般用語之使用時機

當我們檢索的是專科資料庫（subject-specific database）時，不能用一般性的單字來作關鍵字，而必須參考資料庫里的專門術語。例如我們用"agriculture"來查農業方面的專門資料庫AGRICOLA，檢索出來的資料筆數必定相當龐大。

(4)利用布爾邏輯運算元

檢索能力

選擇資料庫的能力

選擇檢索系統的能力

使用布林邏輯結合概念的能力

使用辭彙表達概念的能力

了解資料庫結構及資料庫索引法的能力

使用檢索指令的能力

使用檢索技巧改進檢索的能力

一些和檢索有關的個人特質，如彈性、接受新知程度、及突發事件的反應能力等

轉換資訊需求為檢索敘述的能力

Term	D1	D2	D3
way	1	0	0
avoid	1	0	0
linear	1	0	0
scan	1	0	0
index	1	0	0
document	1	1	0
advance	1	0	0
model	0	1	1
view	0	1	0
set	0	1	0
word	0	1	0
discuss	0	0	1
size	0	0	1
assumption	0	0	1

資訊索引技術

基本介紹

簡介

影響因素

關鍵字的選擇

檢索能力

方法

布爾邏輯檢索

倒排索引

正排索引

相關詞條

熱門詞條