自己動手寫搜尋引擎

宣傳語

·首次揭示商業級搜尋引擎實現秘密。

·業內知名開發團隊傾情奉獻。

·引領Lucene開發技術升級。

內容簡介

《自己動手寫搜尋引擎》是獵兔企業搜尋開發團隊的軟體產品研發和項目實踐的經驗匯總。本書主要包括爬蟲、自然語言處理和搜尋實現部分。爬虫部分介紹了網頁遍歷方法和從網頁提取主要內容的方法。

本書是獵兔企業搜尋開發團隊的軟體產品研發和項目實踐的經驗匯總。本書全方位展現出一個商用級別的Lucene搜尋解決方案，主要包括爬蟲、自然語言處理和搜尋實現部分。

爬虫部分介紹了網頁遍歷方法和從網頁提取主要內容的方法。

自然語言處理部分包括了中文分詞從理論到實現以及在搜尋引擎中的實用等細節。

其他自然語言處理的經典問題與實現包括：文檔排重、文本分類、自動聚類、語法解析樹、拼寫檢查、拼音轉換等理論與實現方法。

在實現搜尋方面，本書用簡單的例子介紹了完整的搜尋實現過程，覆蓋了從索引庫的設計和索引庫與資料庫的同步到搜尋用戶界面設計與實現。搜尋用戶界面包括實現布爾邏輯查詢、按區間範圍查詢、搜尋結果按日期排序等。本書還進一步介紹了搜尋排序的最佳化方法。

最後以基於Lucene的搜尋伺服器Solr為例，展示了Lucene的最新套用方法。

前言

15 在中國，隨著網際網路從城市到農村的普及，搜尋引擎對日常生活產生越來越大的影響。例如，筆者自己一般每天就有15個左右的問題需要求助於搜尋引擎。從04年開始筆者也從資料庫相關軟體開發轉入搜尋引擎相關開發工作。

Google 20世紀末，在美國國家科學基金會的支持下，史丹福大學的兩個學生在他們的教授指導下開始了一個數字圖書館項目。後來，他們創建了Google公司，開創了通過網際網路搜尋技術共享人類信息的新紀元。Google通過網路廣告取得了巨大的商業回報，到現在仍然是世界500強企業中贏利能力最強的公司之一。NASDAQ證券交易市場的最高股價是Google公司的股票。搜尋引擎開發成為一項極有含金量的技術。

Web開始寫作《自己動手寫搜尋引擎》這本書以前，已經有一些介紹搜尋理論或者搜尋開發工具的圖書，但是往往表現出來的是純粹的理論推導和公式定理，或者僅僅是現成開源軟體的介紹、分析和使用，並沒有介紹其理論依據。有的讀者是數學專業的博士，對於相關的數學模型一看就明白，但對於算法實現可能仍然缺少經驗。有的讀者是培訓學校畢業的學生，可能對Web開發框架和軟體工具的使用很熟悉，但缺少理論基礎和深入創新的能力。本書的一個特點在於前面是原理介紹，接著是具體的代碼實現。不僅講解抽象的知識，更重要的是把知識轉化成具體軟體套用的過程也展示出來。

Lucene 《自己動手寫搜尋引擎》是獵兔企業搜尋開發團隊的軟體產品研發和項目實踐的經驗匯總。感謝Lucene，它把搜尋引擎開發工作變成了廣大程式設計師都能夠參與的遊戲。所以本書選用Lucene來全方位展現一個商用級別的搜尋解決方案。中文分詞當前仍然是實現中文搜尋的熱門話題之一。本書重點介紹了中文分詞的相關理論和代碼實現，以及在搜尋引擎中實用中文分詞等細節。本書用簡單的例子介紹了搜尋引擎完整的實現過程，同時也沒有忽略一些經典的算法實現。

自己動手寫搜尋引擎

基本介紹

宣傳語

內容簡介

前言

目錄

相關詞條

熱門詞條

自己動手寫搜尋引擎

基本介紹

宣傳語

內 容 簡 介

前 言

目 錄

相關詞條

熱門詞條

內容簡介

前言

目錄