百度搜尋引擎網頁質量白皮書

此前百度站長平台在《百度網頁搜尋質量白皮書》綱要中簡單地從內容質量、網頁瀏覽體驗和可訪問性三個角度闡述了百度的評判標準。2014年8月7日,《百度搜尋引擎網頁質量白皮書》完整版終於正式上線了!

基本介紹

  • 中文名:百度搜尋引擎網頁質量白皮書
  • 發布時間:2014年8月7日
  • 維度綜合考慮:三個
  • 評判方式:打分
引言,衡量網頁質量的維度,網際網路網頁資源現狀,百度搜尋引擎給站長的建議,

引言

網頁質量是一個網頁滿足用戶需求能力的衡量,是搜尋引擎確定結果排序的重要依據。 在網頁資源內容與用戶需求有相關性的基礎上,內容是否完整、頁面是否美觀、對用戶是否 友好、來源是否權威專業等因素,共同決定著網頁質量的高低。
對於搜尋引擎來說,給用戶呈現的網頁質量直接影響了最終的搜尋效果和用戶的需求滿 足;而對於廣大的站長來說,整體網頁質量的提高有助於在搜尋引擎中獲得良好的排序和展現,從而吸引更多用戶,獲得更多流量。
百度搜尋綜合用戶對不同網頁的實際感受,制定了一套評判網頁質量的標準,基於這個標準,在百度搜尋的收錄、排序、展現環境進行調整,給高質量的網頁更多的收錄、展現機會,同時對一些影響用戶體驗、欺騙搜尋引擎的惡劣低質網頁進行打壓。
網際網路上的網頁,僅有 7%可以達到高質量標準,百度作為最大的中文搜尋引擎, 希望從網際網路生態角度出發,跟站長們一起努力建立良好的網際網路生態圈,更好地為網民服 務,也讓內容優質的網站得到更好的發展。
此外,搜尋引擎之前相對封閉,一直以來,站長需要通過不斷的摸索發現搜尋引擎對網頁的判斷標準,指導站點內容的建設。此次推出《網頁質量白皮書》,目的是開放百度在網 頁質量方面的判斷標準,給站長提供參考,希望有更多、更優質的內容產生,滿足搜尋引擎 用戶的需求,同時為站長帶來流量,實現共贏。

衡量網頁質量的維度

百度搜尋引擎在衡量網頁質量時,會從以下三個維度綜合考慮給出一個質量打分。下面 會一一介紹這些影響網頁質量判斷的維度特徵:
內容質量
瀏覽體驗
可訪問性
一個訪問流暢,內容質量高且瀏覽體驗好的網頁具有較高的質量;反之,任何一個維度 出現問題,都會影響網頁的整體質量。下面我們具體介紹下這三個維度。
2.1 衡量網頁質量的維度——內容質量
網頁主體內容是網頁的價值所在,是滿足用戶需求的前提基礎。百度搜尋引擎評價網頁 內容質量主要看其主體內容的好壞,以及主體內容是否可以讓用戶滿意。
不同類型網頁的主體內容不同,百度搜尋引擎判斷不同網頁的內容價值時,需要關注的 點也有區別,如:
首頁:導航連結和推薦內容是否清晰、有效。
1、 文章頁:能否提供清晰完整的內容,圖文並茂更佳。
2、 商品頁:是否提供了完整真實的商品信息和有效的購買入口。
3、 問答頁:是否提供了有參考價值的答案。
4、 下載頁:是否提供下載入口,是否有許可權限制,資源是否有效。
5、 文檔頁:是否可供用戶閱讀,是否有許可權限制。
6、 搜尋結果頁:搜尋出來的結果是否與標題相關。
百度搜尋引擎考量網頁內容質量的維度非常多,最為重要的是:成本;內容完整;信息真實有效以及安全。下面我們通過舉例來感受一下百度搜尋引擎是如何對網頁的內容質量進 行分類的,請站長對比自己站點的頁面,站在搜尋引擎和用戶的角度為自己打分:
1、內容質量好:
百度搜尋引擎認為內容質量好的網頁,花費了較多時間和精力編輯,傾注了編者的經驗和專業知識;內容清晰、完整且豐富;資源有效且優質;信息真實有效;安全無毒;不含任何作弊行為和意圖,對用戶有較強的正收益。對這部分網頁,百度搜尋引擎會提高其展現在用戶面前的機率。例如:
專業醫療機構發布的內容豐富的醫療專題頁面;
資深工程師發布的完整解決某個技術問題的專業文章;
專業視頻網站上,播放清晰流暢的正版電影或影視全集頁面;
知名 B2C 網站上,一個完整有效的商品購買頁;
權威新聞站原創或經過編輯整理的熱點新聞報導;
經過網友認真編輯,內容豐富的詞條;
問答網站內,回答的內容可以完美解決提問者的問題。
2、內容質量中:
內容質量中等的網頁往往能滿足用戶需求,但未花費較多時間和精力進行製作編輯,不能體現出編者的經驗和專業知識;內容完整但並不豐富;資源有效但質量欠佳;信息雖真實 有效但屬採集得來;安全無毒;不含作弊行為和意圖。在網際網路中,中等質量網頁其實是一 個比較大的數量集合,種類面貌也繁雜多樣,百度搜尋引擎在評價這類網頁時往往還要考慮 其它非常多因素。在這裡,我們僅部分舉例來讓各位感受一下:
論壇類網站裡一個普通的帖子;
一個普通的問答網頁;
沒有進行任何編輯,直接轉載其它網站的新聞;
無版權資訊的普通電影播放頁;
採集知名小說網站的盜版小說頁。
3、內容質量差:
百度搜尋引擎認為主體內容信息量較少,或無有效信息、信息失效過期的都屬於內容質量差網頁,對用戶沒有什麼實質性的幫助,應該減少其展現的機會。同時,如果一個網站內該類網頁的占比過大,也會影響百度搜尋引擎對站點的評級,尤其是 UGC 網站、電商網站、 黃頁網站要尤其重視對過期、失效網頁的管理。例如:
已下架的商品頁,或已過期的團購頁;
已過有效期的招聘、交易頁面;
資源已失效,如視頻已刪除、軟體下載後無法使用等。
4、沒有內容質量可言:
沒有內容質量可言的網頁指那些製作成本很低,粗製濫造;從別處採集來的內容未經最起碼的編輯整理即放置線上;掛木馬等病毒;含有作弊行為或意圖;完全不能滿足用戶需求, 甚至含有欺騙內容的網頁。例如:
內容空短,有很少量的內容,卻不能支撐頁面的主要意圖;
問答頁有問無答,或回答完全不能解決問題;
站內搜尋結果頁,但沒有給出相關信息
除上述網頁外,欺騙用戶和搜尋引擎的網頁在無內容質量可言集合里占很高比例。百度搜尋引擎對作弊網頁的定義是:不以滿足用戶需求為目的,通過不正當手段欺騙用戶和搜尋引擎從而獲利的網頁。網際網路上這部分網頁還屬少數,但作弊網頁的價值是負向的,對用戶的傷害非常大,對這類網頁,搜尋引擎持堅決打擊態度。
2.2 衡量網頁質量的維度——瀏覽體驗
不同質量的網頁帶給用戶的瀏覽體驗會有很大差距,一個優質的網頁給用戶的瀏覽體驗應該是正向的。用戶希望看到乾淨、易閱讀的網頁,排版混亂、廣告過多會影響用戶對網頁主體內容的獲取。在百度搜尋引擎網頁質量體系中,用戶對網頁主體內容的獲取成本與瀏覽體驗呈反比,即獲取成本越高,瀏覽體驗越低。面對內容質量相近的網頁,瀏覽體驗佳者更容易獲得更高的排位,而對於瀏覽體驗差的網頁,百度搜尋引擎會視情況降低其展現的機率甚至拒絕收錄。
影響用戶瀏覽體驗好壞的因素很多,百度搜尋引擎主要從內容排版、廣告影響兩方面對網頁進行考量。
內容排版
用戶進入網頁第一眼看到的就是內容排版,排版決定了用戶對網頁的第一印象,也決定了用戶對內容獲取的成本。
廣告影響
百度搜尋引擎理解網站的生存發展需要資金支持,對網頁上放置正當廣告持支持態度。網頁應該以滿足用戶需求為主旨,最佳狀態即“主體內容與廣告一起滿足用戶 需求,內容為主,廣告為輔”,而不應讓廣告成為網頁主體。
下面我們通過舉例來感受一下百度搜尋引擎是如何對網頁的瀏覽體驗進行分類的,站長可以據此對比檢驗自己站點的瀏覽體驗如何:
1、瀏覽體驗好:
頁面布局合理,用戶獲取主體內容成本低,一般具有以下特徵:
排版合理,版式美觀,易於閱讀和瀏覽;
用戶需要的內容占據網頁最重要位置;
能夠通過頁面標籤或頁面布局十分清楚地區分出哪些是廣告;
廣告不搶占主體內容位置,不阻礙用戶對主要內容的獲取;
2、瀏覽體驗差:
頁面布局和廣告放置影響了用戶對主體內容的獲取,提高了用戶獲取信息的成本,令用戶反感。包括但不僅限於以下情況:
正文內容不換行或不分段,用戶閱讀困難;
字型和背景顏色相近,內容辨別困難;
頁面布局不合理,網頁首屏看不到任何有價值的主體內容;
廣告遮擋主體內容;或者在通用解析度下,首屏都是廣告,看不到主體內容;
彈窗廣告過多;
影響閱讀的浮動廣告過多
點擊連結時,出現預期之外的彈窗;
廣告與內容混淆,不易區分;
2.3 衡量網頁質量的維度——可訪問性
用戶希望快速地從搜尋引擎獲取到需要的信息,百度搜尋引擎儘可能為用戶提供能一次性直接獲取所有信息的網頁結果。百度搜尋引擎認為不能直接獲取到主體內容的網頁對用戶是不友好的,會視情況調整其展現機率。
百度搜尋引擎會從正常打開、許可權限制、有效性三方面判斷網頁的可訪問性,對於可以正常訪問的網頁,可以參與正常排序;對於有許可權限制的網頁,再通過其它維度對其進行觀察;對於失效網頁,會降權其展現機制甚至從資料庫中刪除。
1、可正常訪問的網頁
無許可權限制,能直接訪問所有主體內容的網頁。
2、有許可權限制的網頁
此類網頁分為兩種:打開許可權和資源獲取許可權
1)打開許可權
指打開網頁都需要登錄許可權,沒有許可權完全無法看到具體內容,普通用戶無法獲取或獲取成本很高,百度搜尋引擎會降低其展現機率。不包括以登錄為主要功能的網頁。
2)資源獲取許可權
指獲取網頁主要內容,如文檔、軟體、視頻等,需要許可權或者需要安裝外掛程式才能獲得完 整內容。此時會分三種情況:
提供優質、正版內容的網站,由於內容建設成本很高,儘管查看全文或下載時需要許可權或安裝外掛程式,但屬於用戶預期之內,百度搜尋引擎也不認為許可權行為對用戶造成傷害,給予與正常可訪問頁面相同的對待。
對於一些非優質、非正版的資源,來自於用戶轉載甚至機器採集,本身成本較低,內容也不獨特,用戶獲取資源還有許可權限制——需要用戶註冊登錄或者付費查看,百度搜尋引擎會根據具體情況決定是否調整其展現。
還有一些視頻、下載資源頁,也許自身資源質量並不差,但需要安裝非常冷門的外掛程式才能正常訪問,比如要求安裝“xx 大片播放器”,百度搜尋引擎會懷疑其有惡意傾向。
3、失效網頁
往往指死鏈和主體資源失效的網頁。百度搜尋引擎認為這部分網頁無法提供有價值信息, 如果站點中此類網頁過多,也會影響百度搜尋引擎對其的收錄和評級。建議站長對此類網頁 進行相應設定,並及時登錄百度站長平台,使用死鏈提交工具告知百度搜尋引擎。
失效網頁包括但不僅限於:
404、403、503 等網頁;
程式代碼報錯網頁;
打開後提示內容被刪除,或因內容已不存在跳轉到首頁的網頁;
被刪除內容的論壇帖子,被刪除的視頻頁面(多出現在 UGC 站點)

網際網路網頁資源現狀

CNNIC2014 年年初發布的《中國網際網路發展狀況統計報告》中稱:截至 2013 年 12 月,中國網頁數據為 1500 億,相比 2012 年同期增長了 22.2%。2013 年中國單個網站的 平均網頁數和單個網頁的平均位元組數均維持增長,顯示出中國網際網路上的內容更為豐富:平 均網站的網頁數達到 4.69 萬個,較去年同期增長 2.3%。
為了保證搜尋質量、提高用戶使用滿意度,百度搜尋引擎每周都會進行網頁質量抽樣評 估。然而從近一年的評估數據中我們發現,優質網頁的絕對數量非常少,且幾乎沒有增長; 普通網頁的占比在下降,相應的,質差網頁的比例卻有明顯上漲。截至 2014 年 5 月,統計 數據顯示,在百度網頁搜尋發現的海量網頁中,優質網頁僅占 7.4%,質差網頁高達 21%, 其餘普通網頁為 71.6%。
百度網頁搜尋通過一系列篩選、識別、分析、賦權等工作,努力將更多優質網頁呈現在 用戶面前,每天約打擊上萬質量差網站,涉及網頁達百萬量級,儘可能減少質量差網頁給用 戶帶來的干擾。從下圖 2014 年 5 月的網頁展現分析數據顯示,展現在用戶面前的網頁 質量分布中,優質網頁占比為 40%,質量差網頁降為 11%——雖然這個變化已經非常明顯, 但百度網頁搜尋還是希望能和廣大站長一起努力,將質量差占比降到更低。
上述質量差網頁包括低質網頁和垃圾網頁兩部分,低質網頁問題分布如下圖所示:
從上圖我們看出,目前低質網頁中最嚴重的問題即因廣告過多、占據網頁主要位置以及 超預期彈窗帶來的瀏覽體驗差,內容空短、網頁需要許可權才能獲取資源和過期信息也是低質 網頁的重要組成部分。
質量差網頁中除了低質網頁外,無任何質量可言的垃圾頁面的問題分布如下圖所示:
死鏈對用戶、網站和搜尋引擎來說都已沒有存在的意義,垃圾網頁中占比最大。其次是 對用戶和搜尋引擎傷害巨大的作弊網頁,資源無效、有問無答和不相關搜尋結果頁這些極大 浪費用戶時間的網頁也是搜尋引擎不希望呈現給用戶的。

百度搜尋引擎給站長的建議

上面介紹了百度搜尋引擎對網頁質量的判定標準,與這些標準相應的,站長在實際工作 中應該遵循幾項原則:
設計網頁時主要考慮的是用戶,而非搜尋引擎
永遠將用戶體驗放在首位
根據用戶需求製作內容
多考慮如何讓自己的網站具有獨特價值
將目光放長遠,濫放廣告弊大於利
及時刪除低質內容
不要企圖用任何方式欺騙用戶和搜尋引擎

相關詞條

熱門詞條

聯絡我們