搜尋引擎原理

引擎結構

搜尋引擎基本結構一般包括:搜尋器、索引器、檢索器、用戶接口等四個功能模組。

1）搜尋器，也叫網路蜘蛛，是搜尋引擎用來爬行和抓取網頁的一個自動程式，在系統後台不停歇地在網際網路各個節點爬行，在爬行過程中儘可能快的發現和抓取網頁。

2）索引器。它的主要功能是理解搜尋器所採集的網頁信息，並從中抽取索引項。

3）檢索器。其功能是快速查找文檔，進行文檔與查詢的相關度評價，對要輸出的結果進行排序。

4）用戶接口。它為用戶提供可視化的查詢輸入和結果輸出的界面。

分類

全文搜尋引擎一般都有一種叫作“網路機器人”或“網路蜘蛛”的軟體，這些軟體能遍歷WEB空間，掃描一定IP範圍內的網站，並延著網路上的連結從一個網頁到另一個網頁，從一個網站到另一個網站採集網頁資料。為了保持網頁資料的最新，它還會回訪已抓取的網頁。對已經抓取到的網頁，搜尋引擎還會用一定的程式進行分析，根據一定的相關度算法建立網頁索引，添加到索引資料庫中。全文搜尋引擎因為依靠軟體進行採集網頁，所以資料庫的容量非常龐大，但是，它的查詢結果往往不夠準確。我們平時看到的全文搜尋引擎，實際上是只是一個搜尋引擎的搜尋界面。當我們輸入關鍵字進行查詢時，搜尋引擎便會從寵大的索引資料庫中找到包含該關鍵字的所有相關網頁的索引，並按一定的排名規則呈現給我們。不同的搜尋引擎，網頁索引資料庫也不同，排名規則也不盡相同，所以當我們以同一關鍵字在不同的搜尋引擎上進行查詢時，搜尋的結果和排列順序通常也不相同。

2、分類目錄搜尋引擎

和全文搜尋引擎一樣，分類目錄搜尋引擎的整個工作過程同樣也經過收集信息、分析信息和查詢信息三部分，只不過分類目錄搜尋引擎的前兩部分，收集信息和分析信息全部由人工來完成。分類目錄一般都有專門的編輯人員，負責收集網站的信息。分類目錄依靠人工收集和整理網站，能夠提供更為準確的查詢結果，但收集的內容卻非常有限。

3、元搜尋引擎

這類搜尋引擎一般都沒有自己的網頁搜尋軟體以及資料庫，它的搜尋結果是通過調用、控制和最佳化其它多個獨立搜尋引擎的搜尋結果並以一定的格式在同一界面集中顯示。通常元搜尋引擎在索引請求提交、檢索接口代理和檢索接口顯示等方面，均有自己開發的具有特色的元搜尋技術。在搜尋結果上，這些元搜尋引擎往往搜尋範圍更大一些。

4、集成搜尋引擎

集成搜尋引擎是通過網路技術在一個網頁上連結很多個獨立的搜尋引擎，查詢時，點選或指定搜尋引擎，一次輸入，多個搜尋引擎同時查詢。搜尋的結果由各個搜尋引擎分別以不同的頁面顯示。

工作原理

搜尋引擎的工作原理是從網際網路上抓取網頁，建立索引資料庫，在索引資料庫中搜尋排序。它的整個工作過程大體分為信息採集、信息分析、信息查詢和用戶接口四部分。信息採集是網路機器人掃描一定IP位址範圍內的網站，通過連結遍歷Web空間，來進行採集網頁資料，為保證採集的資料最新，網路機器人還會回訪已抓取過的網頁；信息分析是通過分析程式，從採集的信息中提取索引項，用索引項表示文檔並生成文檔庫的索引表，從而建立索引資料庫；信息查詢是指用戶以關鍵字查找信息時，搜尋引擎會根據用戶的查詢條件在索引庫中快速檢索文檔，然後對檢出的文檔與查詢條件的相關度進行評價，最後根據相關度對檢索結果進行排序並輸出。

搜尋引擎原理

基本介紹

引擎結構

分類

工作原理

工作流程

爬行和抓取

建立索引

搜尋詞處理

排序

數據結構

相關詞條

熱門詞條