頁面去重

頁面去重,搜尋引擎最佳化中,網站內部最佳化至關重要,其中網站內部還需要注意頁面的重複。即:同一篇文章經常會重複出現在同一個網站的不同網址上。

搜尋引擎並不喜歡這種重複性的內容。用戶搜尋時,如果在前兩頁看到的都是來自不同網站的同一篇文章,用戶體驗就太差了。雖然都是內容相關的。搜尋引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重複內容,這個過程就成為“最佳化去重”。
去重的基本方法是對頁面特徵關鍵字計算指紋,也就是說從頁面主題內容中選取最有代表性的一部分關鍵字(經常是出現頻率最高的關鍵字),然後計算這些關鍵字的數字指紋。這裡的關鍵字選取是在分詞,去停止詞,消噪之後。實驗表明,通常選取10個特徵關鍵字就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高的貢獻也就不大了。
典型的指紋計算方法如MD5算法(信息摘要算法第五版)和Rabin指紋計算方法等。這類指紋算法的特點是,輸入(特徵關鍵字)有任何微小的變化,都會導致計算出的指紋有很大差距。
了解了搜尋引擎的去重算法,SEO人員就應該知道簡單地增加“的”“地”“得”,調換段落順序 還有的甚至是直接將文字替換這種所謂偽原創,並不能逃過搜尋引擎的去重算法,因為這樣的操作無法改變文章的特徵關鍵字。而且所搜引擎的去重算法很可能不止於頁面級別(頁面權重),而是進行到段落級別,混合不同文章、交叉調換段落順序也不能使轉載和抄襲變成原創。

相關詞條

熱門詞條

聯絡我們