信息檢索：實現和評價搜尋引擎:基本信息,內容簡介,目錄,譯者序,前言,序言,

《信息檢索：實現和評價搜尋引擎》是2012年1月機械工業出版社出版的一本圖書，作者是(美)Stefan Büttcher， (加)Charles L.A.Clarke， (加)Gordon V.Cormack。

基本介紹

書名：信息檢索：實現和評價搜尋引擎
作者：(美)Stefan Büttcher (加)Charles L.A.Clarke (加)Gordon V.Cormack
譯者：陳健黃晉
ISBN：9787111359906

基本信息,內容簡介,目錄,譯者序,前言,序言,

基本信息

叢書名：計算機科學叢書出版社：機械工業出版社

上架時間：2011-12-16

出版日期：2012 年1月

開本：16開

頁碼：1

版次：1-1

所屬分類：計算機

內容簡介

《信息檢索：實現和評價搜尋引擎》從多個視角對信息檢索技術進行了深入講解，內容涵蓋了信息檢索系統的架構、基礎技術、詞條和詞項、靜態和動態倒排索引、查詢處理、索引壓縮技術、機率模型、語言模型、分類和過濾、融合和元學習、評價方法以及並行信息檢索、web檢索和xml檢索等具體套用。本書以模組化的方式進行組織，理論性強，體系完整，同時強調實踐。作者以認真嚴謹的態度實現了書中絕大部分的主要方法，並詳盡地描述了各種方法的適用環境以及取得的效果。

《信息檢索：實現和評價搜尋引擎》可作為高等院校信息管理與信息系統、計算機科學與技術、情報學、圖書館學以及電子商務等專業的高年級本科生和研究生的教材和參考書，對於從事信息檢索與網路分析等實際工作的從業人員也具有較高的參考價值。

譯者序

Information Retrieval: Implementing and Evaluating Search Engines

由於手機、個人電腦、網際網路等信息工具的快速發展和進化，個人可獲取和管理的信息量呈爆發式增長，如何快速準確地找到所需的信息成為信息處理中的一個難題。信息檢索技術是解決該問題的主要方法，其最初來源於圖書內容的索引和檢索，近些年來由於網際網路的發展，以此為基礎的搜尋引擎技術使其受到了廣泛的關注和研究。國內無論是高等院校相關專業方向的研究生，還是對搜尋技術感興趣的研究者和開發人員，都迫切需要一本全面專業的信息檢索書籍。

國內引進了多本信息檢索領域的書籍，本書是其中較新較有特色的一本。它以模組化的方式進行組織，從多個視角對信息檢索技術進行了深入的解析，並補充了相關學科的基本知識，例如通用的符號數據壓縮技術、統計分析、機器學習、資料庫、Web結構、XML等等，使讀者免去了查閱大量資料和其他書籍的麻煩。這本書理論性強，體系完整，同時也很強調實踐。作者以認真嚴謹的態度對書中絕大部分的主要方法給出了實現細節和分析，並通過實驗對比了這些方法，詳盡地描述了各種方法的適用環境以及取得的效果，為信息檢索在具體環境下的套用提供了很好的參考。在每一章最後的延伸閱讀和參考文獻部分，讀者還可以了解到該章相關知識點的研究歷史、發展和目前最新狀況，也可據此對相關內容進行更深入的了解和研究。課後練習也經過了精心的設計，各章習題彼此關聯、循序漸進，能夠幫助讀者更好地理解各章的知識點。

感謝原著作者無私地分享了他們在信息檢索領域內的獨特見解和研究成果。在過去幾個月中，胡清蘭、吳燦榮、李仕釗、黃錦捷、李蕾、黃蕉平、黃璡都參與了部分翻譯、審校工作。感謝徐亞波老師及其學生給出的寶貴意見。當然，本書的翻譯工作得以順利完成，還要感謝機械工業出版社的王春華編輯和其他所有工作人員在各方面的支持和幫助。最後，對於給予我們無私幫助的那些人致以誠摯的謝意。

由於譯者水平有限，書中疏漏在所難免，敬請讀者批評指正。

陳健、黃晉

2011年6月29日

前言

Information Retrieval: Implementing and Evaluating Search Engines

信息檢索奠定了現代搜尋引擎的基石。在這本教材中，我們針對計算機科學、計算機工程和軟體工程的研究生以及專業人員介紹了信息檢索。選擇的主題引起了大部分讀者的興趣，涵蓋了算法、數據結構、索引、檢索和評價的核心主題，為讀者今後的學習提供廣博的基礎。同時考慮Web搜尋引擎、並行系統和XML檢索在已有和新的套用場景的特性。

我們的目的是在理論與實踐之間取得平衡，稍微偏向於實踐，強調實現和實驗。只要有可能，本書中的方法都通過實驗進行了對比和驗證。每一章都包含了練習和學生項目。本書其中一位作者開發的一個多用戶開源信息檢索系統Wumpus，提供了模型實現，可作為學生練習的基礎。可以通過

獲取Wumpus。

本書組織

本書以模組化結構組織，可分為5個部分。第一部分提供了介紹性的材料。第二至第四部分，每部分專注於一個重要主題領域：索引、檢索和評價。閱讀完第一部分後，第二至第四部分都可以分別單獨閱讀。第五部分主要基於前面部分的內容來介紹具體的套用領域。

第一部分涵蓋了信息檢索的基礎知識。第1章討論基本概念，包括信息檢索系統的架構、術語、文本特徵、文檔格式、詞項分布、語言模型和測試集。第2章介紹3個重要主題（索引、檢索和評價）的基礎。這3個主題稍後在各自所屬的部分（第二至第四部分）有詳細介紹。這一章也為讀者可以獨立閱讀每個主題或多或少地提供了基礎。第一部分的最後一章，即第3章，繼續介紹了在第1章中引入、在第2章中結束的部分主題。它涉及的問題與具體的自然（即人類）語言相關，特別是分詞（tokenization）——為了進行索引和檢索而將一個文檔轉化成一個詞項序列的過程。一個信息檢索系統必須能夠處理由多種自然語言混合的文檔，而這一章就是從這方面討論幾種主要語言的重要特性。

第二部分主要討論倒排索引的創建、訪問和維護。第4章討論建立和訪問靜態（static）索引的算法，這種索引適用於不常變動的文檔集，即當文檔發生變動時，有足夠的時間來重新從頭建立索引。第5章討論索引訪問和查詢過程，這一章介紹一種輕量級的方法來處理文檔結構，並使用這種方法來支持布爾約束。第6章介紹索引壓縮。第7章提出用於維護動態（dynamic）文檔集的算法，也就是文檔的更新相對於查詢次數是頻繁的，同時要求更新必須迅速。

第三部分介紹了檢索方法和算法。第8章和第9章介紹並比較兩種基於文檔內容的重要排名檢索方法：機率模型和語言模型。通過使用文檔結構、反饋和查詢擴展，可考慮利用一些顯式的相關信息來提高這些方法的有效性。我們討論了每種方法的細節。第10章介紹用於文檔分類和過濾的技術，包括用於分類的基本的機器學習算法。第11章介紹將證據和參數調整進行整合的技術，以及元學習算法及其在排名中的套用。

信息檢索評價是第四部分的主題，用獨立的章節分別介紹了有效性和效率。第12章給出了基本的有效性度量指標，探討了用於評價有效性的統計基礎，並討論了一些在最近10年裡提出的度量指標，它們已經超出了傳統信息檢索評價方法的範圍。第13章介紹了從回響時間和吞吐量來評價信息檢索系統性能的方法。

第五部分是全書的最後一部分，內容涉及一些具體的套用領域，借用並擴展了來自前四個部分的一些基本內容。第14章介紹了並行搜尋引擎的架構和操作。第15章討論了關於Web搜尋引擎的一些主題，包括連結分析、抓取和重複檢查。第16章介紹了XML文檔集上的信息檢索。

書中的每一章都包含了一個小節為深入閱讀提供了參考文獻，還提供了一組練習題。練習題一般偏向於考查和擴展相應章節介紹的概念。有些練習只需用鉛筆和紙花上幾分鐘就能做好；有些則是需要大量編程的項目。這些參考文獻和練習題同時也為我們提供了機會來學習一些在該章的正文部分沒有涵蓋的重要概念和主題。

下面的示意圖展示了本書的各章和各部分之間的關係。箭頭表示各章之間的依賴關係。本書的組織使得讀者可以關注主題的不同方面。從資料庫系統實現的觀點來教授的課程可以包括第1~2、4~7和13~14章。專注於理論的傳統信息檢索課程可以包括第1~3、8~12和16章。關於Web檢索基礎的課程可以包括第1~2、4~5、8和13~15章。每一種涵蓋的章節數約占全書的1/2~2/3，可以在一個3~4個月的研究生課程中完成。

本書的組織。各章之間的箭頭表示它們之間的依賴關係

背景

我們假設讀者擁有計算機科學、計算機工程、軟體工程或相關學科的本科相當的基本背景知識，包括：（1）基本數據結構的概念，例如鍊表數據結構、B?樹和哈希函式；（2）算法和時間複雜度分析；（3）作業系統、磁碟設備、記憶體管理和檔案系統。另外，我們假設一些讀者熟悉初等機率論和統計學，包括如隨機變數、分布和機率群分布函式等概念。

致謝

我們的很多同事花費了大量的時間幫助我們審閱了與其專業領域相關的章節的草稿。我們在這裡特別感謝Eugene Agichtein，Alina Alt，Lauren Griffith，Don Metzler，Tor Myklebust，Fabrizio Silvestri，Mark Smucker，Torsten Suel，Andrew Trotman，Olga Vechtomova，William Webber和Justin Zobel為我們提出了很多寶貴的意見。同時感謝匿名審稿人為我們提供了積極的意見和反饋。

有幾個班的研究生起草了早期的一些材料。我們感謝他們的耐心和忍耐。4個學生——Mohamad Hasan Ahmadi，John Akinyemi，Chandra Prakash Jethani和Andrew Kane——非常嚴謹地審閱了草稿，幫助我們找出和解決了很多問題。另外3個學生——Azin Ashkan，Maheedhar Kolla和Ian Mackinnon——志願幫助我們在2007年秋季學期進行了一次課內評價，對第一部分中的很多練習有很大的貢獻。Jack Wang校對了第3章中關於CJK語言的材料。Kelly Itakura提供了日文輸入。

Web站點

序言

Information Retrieval: Implementing and Evaluating Search Engines

學術巨匠齊聚一堂編撰了一部信息檢索的優秀教材。Stefan Büttcher、Charles Clarke和Gordon Cormack以合計超過五十年的研究經驗，組成了橫跨三代的信息檢索研究泰斗組合。Büttcher是Clarke的博士生，而Clarke是Cormack的博士生。他們三人都以對信息檢索的深入洞察和建立實用搜尋系統的熱情而聞名，這種組合在一個充滿世界級的研究專家的領域中是很少見的。

本書涵蓋了搜尋引擎的各個重要組成部分，從爬蟲到索引到查詢過程。大部分章節用於介紹索引、檢索方法和評價的核心主題。重點放在實現和實驗上，以讓讀者了解到信息檢索系統的底層細節，包括索引壓縮和索引更新策略，同時讓讀者理解在實際中哪一種方法效果更好。關於評價的兩章提供了評價搜尋引擎的方法論和統計學基礎，使得讀者能夠知道：例如改變搜尋引擎的排名公式是否對檢索結果的質量有一個正面的影響。關於分類的一章介紹了對高級搜尋操作非常有用的機器學習技術，例如如何將查詢限制在某種特定語言書寫的文檔中，或者如何過濾搜尋結果中的不良信息。關於並行信息檢索和Web搜尋的章節描述了從一個基本的信息檢索系統變為一個涵蓋數十億文檔並同時為成千上萬的用戶服務的大規模檢索服務系統時所必須做出的改變。

通過引用數以百計的研究文獻，作者對當今信息檢索研究狀況給出了指導性的概述，這個概述的高度遠遠超過了那些一般的綜述。通過使用一個運行樣例集和一個通用框架，他們具體描述了在每個環節中的重要方法——為什麼這些方法行得通，它們是如何實現的，以及它們是如何工作的。為了寫這本書，作者幾乎實現和測試了每一個重要的方法，進行了數百次實驗，並增加了對實驗結果的闡述。每一章最後的練習題鼓勵讀者自己動手去建立系統並進行探索。

這本書是所有信息檢索研究者和從業人員的必讀教材！

Amit Singhal，Google Fellow

信息檢索：實現和評價搜尋引擎

基本介紹

基本信息

內容簡介

目錄

譯者序

前言

序言

相關詞條

熱門詞條