解密搜尋引擎技術實戰

內容簡介

本書主要包括總體介紹部分、爬虫部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬虫部分介紹了網頁遍歷方法和如何實現增量抓取，並介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發，包括了中文分詞與詞性標註的理論與實現以及在搜尋引擎中的實用等細節，同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹並總結了實現方法。在全文檢索部分，結合Lucene3.0介紹了搜尋引擎的原理與進展。用簡單的例子介紹了Lucene的最新套用方法。包括完整的搜尋實現過程：從完成索引到搜尋用戶界面的實現。本書還進一步介紹了實現準實時搜尋的方法，展示了Solr 1.4版本的用法以及實現分散式搜尋服務集群的方法。最後介紹了在地理信息系統領域和戶外活動搜尋領域的套用。

本書是獵兔搜尋開發團隊的軟體研發和教學實踐的經驗匯總。本書總結搜尋引擎相關理論與實際解決方案，並給出了Java實現，其中利用了流行的開源項目Lucene和Solr，而且還包括原創的實現。

解密搜尋引擎技術實戰

基本介紹

內容簡介

目錄

相關詞條

熱門詞條