搜尋引擎技術

搜尋引擎技術

隨著網際網路的迅猛發展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜尋引擎技術恰好解決了這一難題。搜尋引擎是指網際網路上專門提供檢索服務的一類網站,這些站點的伺服器通過網路搜尋軟體或網路登錄等方式,將Intenet上大量網站的頁面信息收集到本地,經過加工處理建立信息資料庫和索引資料庫,從而對用戶提出的各種檢索作出回響,提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵字檢索、分類檢索及其他特殊信息的檢索。下面以網路搜尋機器人為例來說明搜尋引擎技術。

基本介紹

  • 中文名:搜尋引擎技術
  • 外文名:Search Engine Technology
  • 歸類:網際網路/信息技術
  • 目的:方便迅速準確尋找信息
簡介,架構,智慧型技術,索引技術,處理技術,搜尋套用,抓取優先,

簡介

SEOSEO
搜尋技巧
類別中搜尋
許多搜尋引擎(如Yahoo)都顯示類別,如計算機和Internet、商業和經濟。如果您單擊其中一個類別,然後再使用搜尋引擎,您將可以選擇搜尋整個Internet還是搜尋當前類別。顯然,在一個特定類別下進行搜尋所耗費的時間較少,而且能夠避免大量無關的Web站點。
當然,您或許還想搜尋整個Internet,以搜尋特定類別之外的信息。
使用具體的關鍵字
如果想要搜尋以鳥為主題的Web站點,您可以在搜尋引擎中輸入關鍵字“鳥(bird)”。但是,搜尋引擎會因此返回大量無關信息,如談論高爾夫的“小鳥球(birdie)”或烹飪game birds不同方法的Web站點。為了避免這種問題的出現,請使用更為具體的關鍵字,如“ornithology”(鳥類學,動物學的一個分支)。您所提供的關鍵字越具體,搜尋引擎返回無關Web站點的可能性就越小。
使用多個關鍵字
您還可以通過使用多個關鍵字來縮小搜尋範圍。例如,如果想要搜尋有關佛羅里達州邁阿密市的信息,則輸入兩個關鍵字“邁阿密(Miami)”和“佛羅里達州(Florida)”。如果只輸入其中一個關鍵字,搜尋引擎就會返回諸如Miami Dolphins足球隊或Florida Marlins棒球隊的無關信息。一般而言,您提供的關鍵字越多,搜尋引擎返回的結果越精確。
引擎返回的結果
搜尋引擎返回的Web站點順序可能會影響人們的訪問。好的搜尋引擎會鑑別Web站點的內容,並據此安排它們的順序,但其他搜尋引擎大概不會這么做。
此外,因為搜尋引擎經常對最為常用的關鍵字進行搜尋,所以許多Web站點在自己的網頁中隱藏了同一關鍵字的多個副本。這使得搜尋引擎不再去查找Internet,以返回與關鍵字有關的更多信息。
正如讀報紙、聽收音機或看電視新聞一樣,請留意您所獲得的信息的來源。搜尋引擎能夠幫您找到信息,但無法驗證信息的可靠性。因為任何人都可以在網上發布信息,它不能知道誰的信息更準確,只要網上出現不算違法的信息都會抓取。

架構

下圖是一個通用的搜尋引擎架構示意圖:
搜尋引擎由很多技術模組構成,各自負責整體功能的一部分,相互紀合形成了完善的整體架構。
搜尋引擎架構搜尋引擎架構

智慧型技術

網路機器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Internet上的信息。一般定義為“一個在網路上檢索檔案且自動跟蹤該檔案的超文本結構並循環檢索被參照的所有檔案的軟體”。機器人利用主頁中的超文本連結遍歷WWW,通過URL引用從一個HTML文檔爬行到另一個HTML文檔。網上機器人收集到的信息可有多種用途,如建立索引、HIML檔案合法性的驗證、URL連結點驗證與確認、監控與獲取更新信息、站點鏡像等。
機器人安在網上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機器人一般都用於生成索引資料庫。所有WWW的搜尋程式都有如下的工作步驟:
(1)機器人從起始URL列表中取出URL並從網上讀取其指向的內容;
(2)從每一個文檔中提取某些信息(如關鍵字)並放入索引資料庫中;
(3)從文檔中提取指向其他文檔的URL,並加入到URL列表中;
(4)重複上述3個步驟,直到再沒有新的URL出現或超出了某些限制(時間或磁碟空間);
(5)給索引資料庫加上檢索接口,向網上用戶發布或提供給用戶檢索。
搜尋算法一般有深度優先和廣度優先兩種基本的搜尋策略。機器人以URL列表存取的方式決定搜尋策略:先進先出,則形成廣度優先搜尋,當起始列表包含有大量的WWW伺服器地址時,廣度優先搜尋將產生一個很好的初始結果,但很難深入到伺服器中去;先進後出,則形成深度優先搜尋,這樣能產生較好的文檔分布,更容易發現文檔的結構,即找到最大數目的交叉引用。也可以採用遍歷搜尋的方法,就是直接將32位的IP位址變化,逐個搜尋整個Internet。
量販式搜尋引擎最佳化是一個技術含量很高的網路套用系統。它包括網路技術、資料庫技術動標引技術、檢索技術、自動分類技術,機器學習等人工智慧技術

索引技術

索引技術是搜尋引擎的核心技術之一。搜尋引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜尋引擎的核心是分詞技術。分詞技術是利用一定的規則和詞庫,切分出一個句子中的詞,為自動索引做好準備。索引多採用Non—clustered方法,該技術和語言文字的理解有很大的關係,具體有如下幾點:
(1)存儲語法庫,和辭彙庫配合分出句子中的辭彙;
(2)存儲辭彙庫,要同時存儲辭彙的使用頻率和常見搭配方式;
(3)辭彙寬,應可劃分為不同的專業庫,以便於處理專業文獻;
(4)對無法分詞的句子,把每個字當作詞來處理。
索引器生成從關鍵字到URL的關係索引表。索引表一般使用某種形式的倒排表(inverted list),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰關係或接近關係,並以特定的數據結構存儲在硬碟上。
不同的搜尋引擎系統可能採用不盡相同的標引方法。例如:Webcrawler利用全文檢索技術,對網頁中每一個單詞進行索引;Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和詞組檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。

處理技術

檢索器的主要功能是根據用戶輸入的關鍵字在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
通過搜尋引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。這裡的相關度是指搜尋關鍵字在文檔中出現的額度。當額度越高時,則認為該文檔的相關程度越高。能見度也是常用的衡量標準之一。一個網頁的能見度是指該網頁入口超級連結的數目。能見度方法是基於這樣的觀點:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。結果處理技術可歸納為:
(1)按頻次排定次序,通常,如果一個頁面包含了越多的關鍵字,其搜尋目標的相關性應該越好,這是非常合乎常理的解決方案。
(2)按頁面被訪問度排序 在這種方法中,搜尋引擎會記錄它所搜尋到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜尋用戶,而因為大部分的搜尋引擎都不是專業性用戶,所以這種方案也比較適合一般搜尋引擎使用。
(3)二次檢索 進一步淨化(比flne)結果,按照一定的條件對搜尋結果進行最佳化,可以再選擇類別、相關詞進行二次搜尋等。
由於搜尋引擎還不具備智慧型,除非知道要查找的文檔的標題,否則排列第一的結果未必是“最好”的結果。所以有些文檔儘管相關程度高,但並不一定是用戶最需要的文檔。

搜尋套用

搜尋引擎的行業套用一般指類似於千瓦通信提供的多種搜尋引擎行業與產品套用模式,大體上分為如下幾種形式:
1、 政府機關行業套用
實時跟蹤、採集與業務工作相關的信息來源。
全面滿足內部工作人員對網際網路信息的全局觀測需求。
及時解決政務外網、政務區域網路的信息源問題,實現動態發布。
快速解決政府主網站對各地級子網站的信息獲取需求。
全面整合信息,實現政府內部跨地區、跨部門的信息資源共享與有效溝通。
節約信息採集的人力、物力、時間,提高辦公效率。
2、企業行業套用
實時準確地監控、追蹤競爭對手動態,是企業獲取競爭情報的利器。
及時獲取競爭對手的公開信息以便研究同行業的發展與市場需求。
為企業決策部門和管理層提供便捷、多途徑的企業戰略決策工具。
大幅度地提高企業獲取、利用情報的效率,節省情報信息收集、存儲、挖掘的相關費用,是提高企業核心競爭力的關鍵。
提高企業整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的競爭情報數據倉庫,是提高企業核心競爭力的神經中樞。
3、新聞媒體行業套用
快速準確地自動跟蹤、採集數千家網路媒體信息,擴大新聞線索,提高採集速度。
支持每天對數萬條新聞進行有效抓取。監控範圍的深度、廣度可以自行設定。
支持對所需內容智慧型提取、審核。
實現網際網路信息內容採集、瀏覽、編輯、管理、發布的一體化。
4、 行業網站套用
實時跟蹤、採集與網站相關的信息來源。
及時跟蹤行業的信息來源網站,自動,快速更新網站信息。動態更新信息。
實現網際網路信息內容採集、瀏覽、編輯、管理、發布的一體化。
針對商務網站提出商務管理模式,大大提高行業網站的商務套用需求。
針對資訊網站分類目錄生成,提出用戶生成網站分類結構。並可以實時增加與更新分類結構。不受級數限制。從而大大利高行業的套用性。
提供與CCDC呼叫搜尋引擎的廣告合作。建立行業網站聯盟,提高行業網站知名度。
5) 網路信息監察與監控
網路輿情系統。如“千瓦通信-網路輿情雷達監測系統”
網站信息與內容監察與監控系統,如“千瓦通信-網站信息與內容監測與監察系統(站內神探)。”

抓取優先

百度搜尋引擎是通過蜘蛛抓取網站信息的,蜘蛛的抓取方式一般可以分為積累式抓取和增量式抓取兩種。積累式抓取是指從某個時間開始,通過遍歷的方式抓取系統所能允許存儲和處理的所有頁面,而增量式抓取是指在具有一定量規模的網頁集合的基礎上,採用更新數據的方式選取已經在集合中的過時網頁進行抓取,以保證所抓取到的數據與真實網路數據做夠接近。
那么是搜尋引擎的抓取優先權呢?在信息抓取階段搜尋引擎掌握的信息往往是局部的,因而為搜尋引擎設計一個好的抓取優先權策略並不是一件容易的事情,這裡說的是一個深度抓取的優先策略。深度優先抓取它是以抓取到連線結構關係中的所有內容為主要目的的,具體實現方式是沿著樹形的深度遍歷樹的節點,儘可能深的搜尋樹的分支,如果發現目標,則算法中止。
深度優先抓取過程中,抓取程式從起始頁開始,一個連結一個連結跟蹤下去,處理完這條線路最低端之後再轉入下一個起始頁,繼續跟蹤連結。由於深度優先策略在面臨數據量爆炸性增長的全球資訊網環境時具有容易陷入抓取“黑洞”等缺陷,因此很少被現代搜尋引擎的抓取子系統所採用。

相關詞條

熱門詞條

聯絡我們