Lucene Java精華版

內容簡介

本書是獵兔搜尋開發團隊的軟體研發和教學實踐的經驗匯總。

本書主要包括總體介紹部分、爬虫部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬虫部分介紹了網頁遍歷方法和如何實現增量抓取，並介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發，包括了中文分詞與詞性標註的理論與實現以及在搜尋引擎中的實用等細節，同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹並總結了實現方法。在全文檢索部分，結合Lucene 3.0介紹了搜尋引擎的原理與進展。用簡單的例子介紹了Lucene的最新套用方法。本書包括完整的搜尋實現過程：從完成索引到搜尋用戶界面的實現。本書還進一步介紹了實現準實時搜尋的方法，展示了Solr 1.4版本的用法以及實現分散式搜尋服務集群的方法。最後介紹了在地理信息系統領域和戶外活動搜尋領域的套用。

前言

2011年3月23日，百度公司股價報收於132.58美元，其市值達到了460.7億美元，超過了騰訊控股前日收盤時的市值，成為中國網際網路企業的老大。為什麼一個搜尋引擎技術公司能有如此高的市值呢？因為搜尋引擎技術本身的套用潛力。筆者相信，智慧型系統會越來越多地改進人們的生活，可以把搜尋引擎作為智慧型系統中先驗知識的來源。例如在遭遇核泄漏事故的日本福島核電站搶險中，已經開始使用機器人在高輻射區域進行監控和輻射水平檢測。但是這樣的機器人只能解決特定問題，清除核輻射的機器人看起來像一個高級的遙控玩具車，而不是一個全功能的機器人。最近幾年，IBM科學家們一直在努力研究一個當前最先進的問答系統，取名為“Watson”（華森）。IBM的智慧型系統華森還只能回答英文問題。如果要讓機器人有更通用的用處，還需要更多的先驗知識作為基礎。

很多搜尋相關的技術已經得到了初步的解決。在國內產業界也已經有很多公司掌握了基本的搜尋開發技術並擁有專業的搜尋技術開發人員。但是越來越多有價值的資訊對現有技術的處理能力仍然是一個挑戰。

為了相對完整地闡述相關知識體系，這本書偏厚，讀者可以直接翻到感興趣的那一頁開始閱讀。如果有心情，從頭開始往下讀當然也很好。為了方便實踐，需要有良好實現的代碼作為參考。為了節約篇幅，書中的代碼只是核心片段。本書相關代碼的完整版本在附帶光碟中可以找到。

作者羅剛在參加編寫本書之前，還獨立撰寫過《自己動手寫搜尋引擎》一書，與王振東共同編寫過《自己動手寫網路爬蟲》。經過10多年的技術積累以及獵兔搜尋技術團隊每年若干的研發投入，相信獵兔已經能夠比以前做得更好。但越是深入接觸客戶的需求，越感覺到技術本身仍需要更多進展，才能滿足實用的需要。寫這本書也是考慮到，也許還需要更多的前進，才能使技術產生質的飛躍。

掌握搜尋開發技術需要有效的學習方法。可以考慮每天學一個算法，就好像降龍十八掌，每天學一種掌法，每天都能感覺到自己的提高。對於有一些基礎的讀者，一個月下來就能感覺到明顯的提升。當然，這樣的學習需要堅持一段時間，然後才能熟練套用。就好像做菜，先大火燒開，然後轉小火慢燉出滋味。

Lucene Java精華版

基本介紹

內容簡介

前言

目錄

相關詞條

熱門詞條

Lucene Java精華版

基本介紹

內 容 簡 介

前 言

目 錄

相關詞條

熱門詞條

內容簡介

前言

目錄