搜尋引擎算法

搜尋引擎算法

搜尋引擎算法: 獲得網站網頁資料,建立資料庫並提供查詢的系統,我們都可以把它叫做搜尋引擎。搜尋引擎的資料庫是依靠一個叫“網路機器人(crawlers)”或叫“網路蜘蛛(Spider)”的軟體,通過網路上的各種連結自動獲取大量網頁信息內容,並按一定的規則分析整理形成的。Google、百度都是比較典型的搜尋引擎系統。 為了更好的服務網路搜尋,搜尋引擎的分析整理規則---即搜尋引擎算法是變化的。

基本介紹

  • 中文名:搜尋引擎算法
  • 搜尋引擎舉例:Google、百度
  • 變革意義:引領第四代搜尋引擎的升級
  • 依賴軟體:網路機器人或叫網路蜘蛛
定義,公式,因子分析,關鍵字分數,域名權重,外鏈分數,用戶數據,內容質量分數,人工干預,搜尋引擎,搜尋引擎蜘蛛,基本概述,抓取網頁策略,訪問網站許可權,常見的算法,

定義

搜尋引擎算法:獲得網站網頁資料,建立資料庫並提供查詢的系統,我們都可以把它叫做搜尋引擎。搜尋引擎的資料庫是依靠一個叫“網路機器人(crawlers)”或叫“網路蜘蛛(Spider)”的軟體,通過網路上的各種連結自動獲取大量網頁信息內容,並按一定的規則分析整理形成的。Google、百度都是比較典型的搜尋引擎系統。 為了更好的服務網路搜尋,搜尋引擎的分析整理規則---即搜尋引擎算法是變化的。搜尋引擎算法的變革將引領第四代搜尋引擎的升級。

公式

GoogleScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) +(Inbound Link Score * 0.25) + (User Data * 0.1) + (Content QualityScore * 0.1) + (Manual Boosts) – (Automated & Manual Penalties)
翻譯:
Google分數=(相關關鍵字分數X0.3)+(域名權重X0.25)+(外鏈分數X0.25)+(用戶數據X0.1)+(內容質量分數X0.1)+(人工加分)-(自動或人工降分)

因子分析

從公式中我們可以清楚的知道,影響pagerank分數的因素依次是“相關關鍵字”、“域名”、“外鏈”、“用戶數據”、“內容質量”以及“人工干預”六個方面。那么又是哪些因素影響到了這幾個方面呢?

關鍵字分數

1.網頁title中關鍵字的處理
2.H標籤(h1-h6)中關鍵字的處理
3.文本內容中關鍵字的密度
4.外鏈中關鍵字的選擇
5.域名中的關鍵字

域名權重

1.域名註冊前的歷史問題
2.域名註冊時間的長短
3.外鏈網站的權重
4.外鏈、給出連結的相關度
5.是否使用歷史、連結形式

外鏈分數

1.連結域名權重
2.是否錨文本
3.連結數量/連結權重(PR或其他參數)
4.外鏈網頁的主題相關度
5.連結的時間

用戶數據

1.搜尋引擎結果頁面(SERPs)的點擊率
2.用戶在網頁上呆的時間
3.域名或URL搜尋量
4.訪問量及其他*可以監測到的數據(工具條、GA等)

內容質量分數

1.內容的相關度
2.內容的原創性
3.內容的獨特性
4.內容的搶先性和長效性

人工干預

1.投票人員干預
2.關鍵字人工加(扣)分
3.機器算法干預

搜尋引擎

搜尋引擎工作內容
1、收錄頁面:
一般收錄頁面需要有百度蜘蛛抓取完成,通過抓取算法來決定收錄那些頁面,在百度的算法調整後,對於偽原創、採集站點予以強烈的打擊,所以百度在收錄頁面方面變得更加的嚴格了,高質量內容頁面以及權重高的站點一般收錄頁面的幾率會高很多。對於收錄頁面這方面相信很多的站長都是很清楚,每天百度蜘蛛都在分分秒秒不停地收錄著,但是你會發現其實大部分的站點的收錄都減少了,這是為什麼呢?因為百度需要過濾頁面。
2、過濾頁面:
很多頁面被百度收錄之後,百度認為該頁面對用戶沒有太大的價值,或者是質量度比較低的頁面,百度必然就會過濾,這也是用戶體驗好的一種表現,很多站點以最佳化為目的,絲毫不考慮用戶的體驗,例如一些橋頁、跳轉頁面這些就是典型,百度的k站就是一種過濾頁面的表現,把那些作弊的站點的頁面全部的過濾掉。很多人抱怨6.22和6.28百度k站事件,尤其是那些屌絲站長們整天在論壇抱怨這個抱怨那個,為什麼k你的站,很顯然你的站點真的是以用戶體驗為核心運營站嗎?做SEO的人大多都是為了最佳化而運營站點,每天寫的站內的更新、做外鏈肯定一部分是為了最佳化而最佳化,百度k你的站是犧牲少部分人的利益,更多的用戶是從中獲益的,要知道多少人在使用百度,如果搜尋出來的信息是你為了最佳化而運營的站點,低質量的頁面,那百度其實是拿自己未來的前途給你最佳化站點做鋪墊的。所以過濾頁面這方面百度非常的嚴格,大家也不要使用seo作弊技術了。
3、建立索引:
經過了收錄頁面以及過濾頁面的工作之後,百度會對這些頁面逐一進行標記和識別,並將這信息進行儲存為結構化的數據,儲存到百度的搜尋的伺服器中,這些儲存的數據有網頁的信息、網頁的標題關鍵字頁面描述等標籤、網頁外鏈及描述、抓取記錄。還會將網頁中的關鍵字信息進行識別和儲存,以便與用戶搜尋的內容進行匹配。建立完善的索引資料庫,方便呈現出最佳的顯示信息
4、顯示信息:
用戶輸入的關鍵字,百度會對其進行一系列複雜的分析,並根據分析的結論在索引庫中尋找與之最為匹配的一系列網頁,按照用戶輸入的關鍵字所體現的需求強弱和網頁的優劣進行打分,並按照最終的分數進行排列,展現給用戶。一般顯示出最佳信息需要是最適合匹配關鍵字相關的頁面,包括站內最佳化站外最佳化的因素。

搜尋引擎蜘蛛

基本概述

搜尋引擎蜘蛛即Search Engine Spider,是一個很形象的名字。把網際網路比喻成一張蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。搜尋引擎蜘蛛是通過網頁的連結地址來尋找網頁,從 網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個網際網路當成一個網,那么搜尋引擎蜘蛛就可以用這個原理把網際網路上所有節點的網頁都抓取下來。
由於網際網路上無數的網站頁面,搜尋引擎蜘蛛無法將所有的頁面都下載保存到伺服器。因此,許多搜尋引擎的網路蜘 蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的連結廣泛度(及外部連結的數量與質量)。

抓取網頁策略

在抓取網頁的時候,搜尋引擎蜘蛛一般有兩種策略:廣度優先和深度優先(如下圖所示)。廣度優先是指搜尋引擎蜘蛛會先抓取起始網頁中連結的所有網頁,然後再選擇其中 的一個連結網頁,繼續抓取在此網頁中連結的所有網頁。這是最常用的方式,因為這個方法可以讓搜尋引擎蜘蛛並行處理,提高其抓取速度。深度優先是指搜尋引擎蜘蛛會從 起始頁開始,一個連結一個連結跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤連結。這個方法有個優點是搜尋引擎蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的說明會更加明確。由於不可能抓取所有的網頁,有些搜尋引擎蜘蛛對一些不太重要的網站,設定了訪問的層數。例如,在上圖中,A為起始網頁,屬於0層,B、C、D、E、F屬於第1 層,G、H屬於第2層,I屬於第3層。如果搜尋引擎蜘蛛設定的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜尋引擎上搜尋 到,另外一部分不能被搜尋到。 對於網站設計者來說,扁平化的網站結構設計有助於搜尋引擎抓取其更多的網頁。

訪問網站許可權

搜尋引擎蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁許可權的問題,有些網頁是需要會員許可權才能訪問。當然,網站的所有者可以通過協定讓搜尋引擎蜘蛛不去抓取,但對於一些出售報告的網站,他們希望搜尋引擎能搜尋到他們的報告,但又不能完全免費的讓搜尋者查看,這樣就需要給搜尋引擎蜘蛛提供相應的 用戶名和密碼。搜尋引擎蜘蛛可以通過所給的許可權對這些網頁進行網頁抓取,從而提供搜尋。而當搜尋者點擊查看該網頁的時候,同樣需要搜尋者提供相應的許可權驗證。

常見的算法

百度的石榴算法,綠蘿算法,綠蘿算法2.0,颶風算法、原創星火計畫、白楊算法、輕舟算法,驚雷算法、
天網算法、烽火算法、細雨算法、石榴算法、極光算法、閃電算法、藍天算法、冰桶算法。
谷歌的熊貓算法,企鵝算法

相關詞條

熱門詞條

聯絡我們