計算機科學叢書：現代信息檢索

基本介紹

內容簡介

緊隨這一演變趨勢，在本書第1版出現以後的短短几個月內，我們在巴西和智利就開始了搜尋引擎的研究。後來，我們進入谷歌和雅虎這兩個主要的搜尋引擎公司工作，對搜尋引擎的一切行為有了更深入的了解。因此， Ricardo Baeza-Yates和Berthier Ribeiro-Neto的《現代信息檢索(原書第2版)》不僅反映了信息檢索領域的變化，也反映了我們自己正在研究、開發和實現的信息檢索技術，以及將其套用於web的經驗。

作者簡介

作者：（智利）貝澤—耶茨（Ricardo Baeza—Yates）（巴西）Berthier Ribeiro—Neto 譯者：黃萱菁張奇邱錫鵬

貝澤—耶茨（Ricardo Baeza—Yates）於加拿大滑鐵盧大學獲得計算機科學博士學位，現為雅虎歐洲和拉丁美洲研究院副總裁，主管雅虎在巴塞羅納（西班牙）和聖地亞哥（智利）的研究中心，並監管海法研究中心。他曾擔任智利計算機科學學會主席、智利大學計算機科學系Web研究中心主任、ICREA教授，並且他還在巴塞羅納法布拉大學創立了信息與通信技術系Web研究組。現在他仍是智利大學和法布拉大學的兼職教授。他的主要研究方向為算法與數據結構、信息檢索、用戶界面以及可視化在資料庫中的套用等。Berthier Ribeiro—Neto，於加利福尼亞大學洛杉磯分校獲得計算機科學博士學位，現任巴西Mitqas Gerais聯合大學計算機科學系副教授，同時也是ACM、ASIS及IEEE會員。他的主要研究方向是信息檢索系統、數字圖書館、Web界面及視頻點播。

圖書目錄

出版者的話
譯者序
第2版前言
第1版前言
第2版致謝
第1版致謝
出版商致謝
第1章引言
1.1信息檢索
1.1.1信息檢索的早期發展
1.1.2圖書館和數字圖書館中的信息檢索
1.1.3舞台中央的信息檢索
1.2信息檢索問題
1.2.1用戶的任務
1.2.2信息檢索與數據檢索
1.3信息檢索系統
1.3.1信息檢索系統的軟體架構
1.3.2檢索和排序過程
1.4web
1.4.1web簡史
1.4.2電子出版時代
1.4.3web如何改變搜尋
1.4.4web上的實際問題
1.5本書的組織結構
1.5.1本書的重點
1.5.2本書的內容
1.6本書的教學資源網站
1.7文獻討論
第2章用戶搜尋界面
2.1介紹
2.2人們如何搜尋
2.2.1信息查找與探索式搜尋
2.2.2信息搜尋的經典模型與動態模型
2.2.3導航與搜尋
2.2.4對搜尋過程的觀察
2.3現今的搜尋界面
2.3.1啟動搜尋
2.3.2查詢描述
2.3.3查詢描述界面
2.3.4檢索結果顯示
2.3.5查詢重構
2.3.6組織搜尋結果
2.4搜尋界面的可視化
2.4.1可視化布爾語法
2.4.2可視化查詢結果中的查詢項
2.4.3可視化詞語和文檔間的關係
2.4.4文本挖掘的可視化
2.5搜尋界面的設計和評價
2.6趨勢和研究問題
2.7文獻討論
第3章信息檢索建模
3.1信息檢索模型
3.1.1建模和排序
3.1.2信息檢索模型描述
3.1.3信息檢索模型的分類體系
3.2經典信息檢索
3.2.1基本概念
3.2.2布爾模型
3.2.3項權重
3.2.4TF—IDF權重
3.2.5文檔長度歸一化
3.2.6向量模型
3.2.7機率模型
3.2.8經典模型之間的簡單比較
3.3其他集合論模型
3.3.1基於集合的模型
3.3.2擴展布爾模型
3.3.3模糊集模型
3.4其他代數模型
3.4.1廣義向量空間模型
3.4.2潛在語義索引模型
3.4.3神經網路模型
3.5其他機率模型
3.5.1BM25模型
3.5.2語言模型
3.5.3隨機差異模型
3.5.4貝葉斯網模型
3.6其他模型
3.6.1超文本模型
3.6.2基於Web的模型
3.6.3結構化文本檢索
3.6.4多媒體檢索
3.6.5企業和垂直搜尋
3.7趨勢和研究問題
3.8文獻討論
第4章檢索評價
4.1介紹
4.2Cranfield範式
4.2.1歷史簡述
4.2.2參考集
4.3檢索指標
4.3.1精度和召回率
4.3.2單值總結：Pen，MAP，MRR，F
4.3.3面向用戶的指標
4.3.4折扣累積增益
4.3.5二元偏好
4.3.6排序相關性測度
4.4參考文檔集
4.4.1TREC參考集
4.4.2其他參考集
4.4.3其他小規模測試文檔集
4.5基於用戶的評價
4.5.1實驗室中的人工實驗
4.5.2並排面板
4.5.3A/B測試
4.5.4眾包
4.5.5使用點擊數據的評價
4.6實踐說明
4.7趨勢和研究問題
4.8文獻討論
第5章相關反饋與查詢擴展
5.1介紹
5.2反饋方法的框架
5.3顯式相關反饋
5.3.1向量模型的相關反饋：Rocchio方法
5.3.2機率模型的相關反饋
5.3.3相關反饋的評價
5.4基於點擊的顯式反饋
5.4.1眼動追蹤和相關性評價
5.4.2用戶行為
5.4.3點擊作為用戶偏好的指標
5.5通過局部分析的隱式反饋
5.5.1通過局部聚類的隱式反饋
5.5.2通過局部上下文分析的隱式反饋
5.6通過全局分析的隱式反饋
5.6.1基於相似度同義詞典的查詢擴展
5.6.2基於統計同義詞典的查詢擴展
5.7趨勢和研究問題
5.8文獻討論
第6章文檔：語言及屬性
6.1介紹
6.2元數據
6.3文檔格式
6.3.1文本
6.3.2多媒體
6.3.3圖形和虛擬現實
6.4標記語言
6.4.1sGML
6.4.2HTML
6.4.3XML
6.4.4RDF
6.4.5HyTime
6.5文本屬性
6.51資訊理論
6.5.2自然語言建模
6.5.3文本相似度
6.6文檔預處理
6.6.1文本的辭彙分析
6.6.2去除禁用詞
6.6.3詞幹提取
6.6.4關鍵字選擇
6.6.5同義詞典
6.7組織文檔
6.7.1分燈體系法
6.7.2分眾分類法
6.8文本壓縮
6.8.1基本概念
6.8.2統計方法
6.8.3統計方法：建模
6.8.3統計方法：建模
6.8.4統計方法：編碼
6.8.5字典方法
6.8.6壓縮預處理
6.8.7文本壓縮技術的比較
6.8.8結構化文本壓縮
6.9趨勢和研究問題
6.10文獻討論
第7章查詢：語言及屬性
7.1查詢語言
71.1基於關鍵字的查詢
7.1.2非關鍵字查詢
7.1.3結構化查詢
7.1.4查詢協定
7.2查詢屬性
7.2.1Web查詢的特徵
7.2.2用戶搜尋行為
7.2.3查詢意圖
7.2.4查詢主題
7.2.5查詢會話與任務
7.2.6查詢難度
7.3趨勢和研究問題
7.4文獻討論
第8章文本分類
8.1介紹
8.2文本分類的特性描述
8.2.1機器學習
8.2.2文本分類問題
8.2.3文本分類算法
8.3無監督算法
8.3.1聚類
8.3.2樸素文本分類
8.4監督算法
8.4.1決策樹
8.4.2k近鄰分類器
8.4.3Rocchio分類器
8.4.4機率樸素貝葉斯文檔分類
8.4.5支持向量機分類器
8.4.6集成分類器
8.4.7關於監督算法的結束語
8.5特徵選擇或降維
8.5.1項—類別出現列聯表
8.5.2索引項文檔頻率
8.5.3TF—IDF權重
8.5.4互信息
8.5.5信息增益
8.5.6卡方檢驗
8.5.7特徵選擇的作用
8.6評價指標
8.6.1列聯表
8.6.2準確率和錯誤率
8.6.3精度和召回率
8.6.4F測度和F1
8.6.5交叉檢驗
8.6.6標準文檔集
8.7類別組織——構建分類體系
8.8趨勢和研究問題
8.9文獻討論
第9章索引和搜尋
9.1介紹
9.2倒排索引
9.2.1基本概念
9.2.2完全倒排索引
9.2.3搜尋
9.2.4排序
9.2.5構建
9.2.6壓縮的倒排索引
9.2.7結構化查詢
9.3簽名檔案
9.4後綴樹和後綴數組
9.4.1結構：trie樹和後綴樹
9.4.2簡單字元串搜尋
9.4.3複雜模式的搜尋
9.4.4構建
9.4.5壓縮的後綴數組
9.5序列搜尋
9.5.1簡單字元串：Horspool
9.5.2複雜模式：自動機和位並行
9.5.3更快的位並行算法
9.5.4正則表達式
9.5.5多重模式
9.5.6近似搜尋
9.5.7搜尋壓縮文本
9.6多維索引
9.7趨勢和研究問題
9.8文獻討論
第10章並行與分散式信息檢索
10.1介紹
10.2分散式信息檢索系統的分類
10.3數據劃分
10.3.1文檔集劃分
10.3.2文檔集選擇
10.3.3倒排索引劃分
10.3.4劃分其他索引
10.4並行信息檢索
10.4.1介紹
10.4.2在MIMD架構上的並行信息檢索
10.4.3在SIMD架構上的並行信息檢索
10.5基於集群的信息檢索
10.6分散式信息檢索
10.6.1介紹
10.6.2索引
10.6.3查詢處理
10.6.4Web問題
10.7聯合搜尋
10.8在對等網路中的檢索
10.9趨勢和研究問題
10.10文獻討論
第11章Web檢索
11.1介紹
11.2一個有挑戰性的問題
11.3Web
11.3.1特性
11.3.2Web圖的結構
11.3.3對Web建模
11.3.4連結分析
11.4搜尋引擎架構
11.4.1基本架構
11.4.2基於集群的架構
11.4.3快取
11.4.4多級索引
11.4.5分散式架構
11.5搜尋引擎排序
11.5.1排序信號
11.5.2基於連結的排序
11.5.3簡單的排序函式
11.5.4排序學習
11.5.5學習排序函式
11.5.6質量評價
11.5.7Web垃圾
11.6管理Web數據
11.6.1為文檔分配標識符
11.6.2元數據
11.6.3壓縮Web圖
11.6.4處理重複數據
11.7搜尋引擎用戶互動
11.7.1搜尋矩形範式
11.7.2搜尋引擎結果頁面
11.7.3培養用戶
11.8測覽
11.8.1扁平瀏覽
11.8.2結構導向的瀏覽和Web目錄
11.9瀏覽之外
11.9.1超文本和Web
1.9.2搜尋與瀏覽相結合
11.9.3Web查詢語言
11.9.4動態搜尋
11.10相關問題
11.10.1計算廣告學
11.10.2Web挖掘
11.10.3元搜尋
11.11趨勢和研究問題
11.11.1靜態文本數據之外
11.11.2目前的挑戰
11.12文獻討論
……
第12章web爬取
第13章結構化文本檢索
第14章多媒體信息檢索
第15章企業搜尋
第16章圖書館系統
第17章數字圖書館
附錄a開源搜尋引擎
附錄b作者簡介
參考文獻
索引

計算機科學叢書：現代信息檢索

基本介紹

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條