開發自己的搜尋引擎：Lucene2.0+Heritrix

內容簡介

《開發自己的搜尋引擎:Lucene2.0+Heritrix》共分為14章，內容包括搜尋引擎與信息檢索基礎，Lucene入門實例，Lucene索引的建立，使用Lucene構建搜尋，Lucene的排序，Lucene的分析器，對Word、Excel和PDF格式文檔的解析，Compass搜尋引擎框架，Lucene分散式和GoogleSearchAPI，爬蟲Heritrix，綜合實例之準備篇，綜合實例之HTMLParser篇，綜合實例之DWR篇，綜合實例之Web編。

《開發自己的搜尋引擎:Lucene2.0+Heritrix》是一本介紹如何使用Lucene2.0和Heritrix來構建搜尋引擎的書。通過對相關API和原始碼的分析，力求使讀者在掌握套用的基礎上能夠深入其核心，自行擴展和開發相應組件，開發出更有創意的搜尋引擎產品。

作者簡介

邱哲，北京理工大學碩士，現為某公司技術經理，主要從事歐美軟體外包開發。在J2EE方面有4年的開發經驗，在搜尋引擎與“爬蟲”方面有3年的開發經驗，著有《征服Ajax+Lucene構建搜尋引擎》一書。

編輯推薦

《開發自己的搜尋引擎:Lucene2.0+Heritrix》參加人郵社買書送禮活動,數量有限趕快搶購!詳情請點擊

第一本講解如何使用Lucene和Heritrix來構建搜尋引擎的書

一步一步帶領您親手構建企業級搜尋引擎網站

國內資深搜尋引擎開發專家車東推薦

配有一個完整的搜尋引擎案例。這個案例有很強的實用價值，只需稍加修改，就能套用於實際項目，市場價值在30000元以上！

Google技術經理車東推薦

國內第一本詳細介紹搜尋引擎開發過程的圖書

採用最新的Lucene2.0

網際網路搜尋的使用水平可以反映全民的信息處理能力，幾年前有研究發現美國用戶比歐洲用戶的網際網路使用水平領先半年左右，主要是根據誰搜尋時平均使用的關鍵字的個數多。中文用戶的搜尋使用水平相對於西文用戶目前仍然處於比較初級的階段，而中文網站搜尋功能的缺失也是一個重要的因素。

網站擁有了較多內容後，最先會考慮基於目錄的內容分類，以解決信息快速定位的問題，隨著內容量的進一步增加，很多內容在發表之後就很快被湮沒，成為“信息孤島”，而不斷加深的目錄結構也會讓用戶逐漸失去耐心，這時，關鍵字檢索的優勢就體現出來了：

關鍵字檢索可以讓處於“信息孤島”狀態的內容以一種更直接的方法提供給用戶；

開發自己的搜尋引擎：Lucene2.0+Heritrix

基本介紹

內容簡介

作者簡介

編輯推薦

目錄

相關詞條

熱門詞條