網站收錄

網站收錄

網站收錄就是與網際網路用戶共享網址,網站收錄前提是網站首頁提交給搜尋引擎,蜘蛛才會光顧,每次抓取網頁時都會向索引中添加並更新新的網站,站長只需提供頂層網頁即可,不必提交各個單獨的網頁。抓取工具能夠找到其他網頁。符合相關標準提交的網址,會在1個月內按搜尋引擎收錄標準被處理。

基本介紹

  • 中文名:網站收錄
  • 外文名:Website embody
  • 同義:與網際網路用戶共享網址
  • 收錄的時間:一個月內
  • 收錄的由來:網站連結
  • 收錄的後果:有利有弊
定義,方法,禁忌,減少原因,收錄入口,特點分析,外部因素,收錄原理,收集待索引網頁,網頁的索引與收錄,數據中心間的同步,

定義

網站收錄的由來:是一種網站連結的模式,具有非常重要的意義!
網站收錄的含義:顧名思義就是網站已經被收錄。網站收錄是網際網路發展到一定階段而出現的行業產物!
網站收錄多並非是優勢,有時候也會變成劣勢
那些大的網站有優勢,他們的優勢在於如何最大化的將這些內容區分到一塊一塊,然後整體性的再組裝起來,成為了一個又一個可以傳遞出來的權重點,這也是行業網站那些大而全的網站所擁有的各種長尾優勢,從整體上而言,這些行業網站的大而全是非常具有優勢,畢竟如此多的類目整合在一起,成為了相互關聯的一部分,這一點之中,一些小的網站的確是望塵莫及的,但是呢,並非所有的網站都是具有行業網站所具有的得天獨厚的的前景的,很多朋友還在努力堅持著自己的小網站,想要把收錄做的更多,但是也可能會遇到以下的問題。

方法

  1. 站點發布優質的原創內容易被收錄。網站內部結構混亂對網站是致命的傷害,這一點筆者有深刻的體會。代碼最佳化,對站內圖片加上注釋,定義圖片大小,首頁加上關鍵字錨文本連結等等。這些操作都是細節問題,但往往一個細節就會影響的站點收錄情況。
  2. 內容原創性。原創是最受青睞的,一個網站的內容如果都是原創的,那么搜尋引擎將會賦予此站很高的權重,當然收錄和快照就不會有很大問題了。之前我的文章很多的是偽原創的,而且偽原創程度也不是很高,所以發了很多文章都沒有被收錄。
  3. 友情連結。還好有一個好心的網友說,我的網站主題和內容不一致,這樣會讓搜尋引擎分不清你的網站是做什麼的。隨後,我就不在自己的網站裡發布這些文章了,可以發到其它相關平台。對於新站,可以找一些相關的友情連結交換平台,每天做三四個友鏈,堅持一周左右,你的網站會有很大變化。友情跟外鏈一樣,也要多樣性,比如可以跟相關論壇友鏈,還可以找一些相關部落格進行友鏈,再者可以找相關行業進行友鏈。
增加外鏈並被更快收錄的方法
  1. 通過最佳化網站程式推廣,也就是所謂的SEO
  2. 多發原創性的文章
  3. 提升PR值。
  4. 在高質量的網站發布帶有連結的軟文,引導搜尋引擎前來光顧,進而實現收錄。
  5. 網站要有規律的更新,每次更新文章要不少於2篇。
  6. 網站打開速度和空間的穩定性也是影響網站收錄的因素。
  7. 增加網站自身的權重,是更快收錄的根本原因。
增加方法
  1. 採用扁平型的站點架構,也就是俗稱的樹狀結構。可以這樣說就是只有三層欄目結構,分別是首頁,欄目列表,內容頁,這樣形成樹幹型的分支形狀,一層一層提升每個細分欄目的權重,從而來增加收錄的面積。對於網站的架構有很多站長提過這樣的一個構想就是用CMS+論壇的架構形式提升站點收錄,也不要小看了這種架構,很多站長試用過的效果都是很不錯的,如果你細心會發現現 在大多數收錄過百萬的站點都是在採用這種形式。還有的站長採用百科等其他方式也產生了不錯的效應。這其中免不了人力財力的大力支持,但對於其產生的效果還是很值得投入的。
  2. 製作站點地圖。站點地圖的效用不必多說,重要的是網站內容的每日更新,相信能如此做得站長很少,雖然說起來容易但每天去執行很難有人能堅持,在我所觀察中,那些多用戶部落格站點,它們每日更新所帶來的豐碩成果我想大家很難想的到。其實每日更新用不了多長時間的,做一個list頁面相信很快大家就會完成的。在完成更新後要養成習慣,時間久了,就會自然地去做了,這對於搜尋引擎的收錄有很好的正面效果,那些內容展示較少的站點就更要這么去做了。
  3. 增加高質量原創內容,避免內容的高度重複。都知道搜尋引擎跟人一樣,喜歡新鮮的東西,所以一定要用高質量的原創內容來餵養它,把它餵養好了,收錄和權重,自然而然就上來了。
  4. 整理本站結構,去除無效連結
不論站長們做的是哪種類型的網站,其站內結構一定要簡潔明了,這是做站的站長們必備知識之一。一般的網站在設計時頁面層次不要超過三層,現 在很多的倉儲貨架的網站層次都超過了三層。頁面檔案名稱可以用字母或者數字,但千萬不要用很長的中文轉英文外掛程式,那樣做對收錄沒任何好處。並且做站過程中添加內容時建議大家都採用生成靜態或者偽靜態技術處理,這樣有利網站在搜尋引擎中的友好度。
  1. 控制外鏈來源,保證連結質量
  2. 當經過我們的苦心經營之後,我們的網站基本成型了,這個時候外鏈就成為關鍵之一了。很多站長們在做外鏈時利用工具,有時幾天不發布,有時一天發布幾天的量,這些都是要不得的。外連結是需要持續,穩定的發布才有效果的。貴在堅持,我們站長任何時候都不要忘記這點。
  3. 長期積累,豐富自身資源
  4. 毫無疑問,對於推廣來說“人脈”是毫無疑問的重點,而網站收錄就相當於向搜尋引擎推廣。有些人為什麼做網站推廣很輕鬆?因為他們手上有資源,有人脈!你沒有怎么辦?簡單,慢慢積累!路不是一步就到目的地,飯也不可能一口吃成個胖子,只有長期豐富自身資源,積累久了之後,你也和那些“高人”同一個段位了。
  5. 用好meta標籤,強化收錄保障
  6. 不管是老站長還是新站長一般都很容易忽視HTML標籤META的強大功效,那就是一個好的META標籤設計可以大大提高你站長被搜尋到的可能性。利用好Keywords和Description的設定。編輯好語句可以讓搜尋引擎能準確的發現你,從而吸引更多的人訪問你的站點!
  7. 確保伺服器質量,維護站內空間穩定
  8. 網站使用的空間好壞直接關係到搜尋引擎的拜訪速度和效率從而影響到網站內容收錄,這是大家應該都知道的問題之一。當你每天例行檢查自己的網站快照,發現很長時間沒更新或是更新進度太過緩慢時,你就有必要去查看同IP位址下別的網站的收錄情況,如果收錄都不好的話,你就應該果斷的去換個空間了,網站的空間就好比網站最根本的基礎,如果它也不好的話收錄是一定不會上去的。

禁忌

1 首頁做成flash
真正的搜尋引擎對圖片的識別能力很差,首頁做成flash,不僅不利於搜尋引擎排名,而且還減慢了進入主頁的速度,在一定程度上為你的客戶儘快找到你又設定了一道小障礙。
2 用大量的圖片組成首頁
任何一個搜尋引擎都喜歡結構明顯,而不喜歡把網站做成一張皮,讓搜尋引擎分不清你的重點所在。
3 把導航做成圖片連線
因為搜尋引擎是一個很大的資料庫,而不是一個圖片庫,搜尋引擎首頁搜尋引擎到的是你的標題,接著才通過你的導航系統搜尋到你網站的其他內頁,所以如果你的網站導航是文字連線,搜尋引擎就很容易搜尋到你其他的頁面,使網站的整體形象得意完美展示,如果圖片連線則不能達到這個效果。
付費推廣要注意,不要被忽悠:
4 通用網址
一個網站80%的流量來源於搜尋引擎,其他的20%則通過直接輸入網址和導航網站的連線,用通用網址的人不到0.5%。因為3721網路實名的成功,通用網址只不過是想借中國網際網路不成熟的時機撈一把而已。你懂網路嗎?懂就不要用通用網址。
5 相信網路公司的承諾
如果你是公司的老闆或者是網站負責人,你就會聽到很多網路公司的業務人員,為了讓你作一個推廣,就會給你一些不切合實際的承諾,如推廣在手,銷售不愁,今天作了推廣,一定可以給你帶來數十萬的銷售額,有時候還會給你說,我們那個客戶推廣後一年在銷售幾百萬。這些都是推廣的功勞嗎?這樣的幾率有多大,1%還是千分之一呢?
6 被中搜的廉價垃圾服務所騙
很直白的說,中搜不是搜尋引擎,因為沒有流量,很多個人網站的流量都要比他大的多,最關鍵還是技術問題一直沒有很好的解決。
7 做第一頁以後的廣告
經常瀏覽百度的人就會發現,遇到一些熱門的關鍵字,如,手機,數位相機,掌上電腦,電影,等熱門關鍵字,前四五頁就是推廣的。前三可以攔截 80%的客戶和流量,第一頁可以攔截60%的客戶和流量,第二頁的點擊機會只有20%到30%,更不要說第三第四頁了,一句話,沒效果,白花錢。
勞而無功的推廣:
8 用垃圾郵件來推廣你的網站
這是網路禮節的關鍵規則。無論何時何地、對任何人,大量不請自來的電子郵件都是讓人不能容忍的。有成百上千的傢伙試圖賣給你資料庫和用來發垃圾郵件的軟體,但是不要相信他們。濫發郵件會給你招來敵人而不是朋友,它還會使你的站點被大的isp禁止,減少你的訪問量。 如今沒有人不討厭垃圾郵件,因為它已經給人們的工作帶來了很多負面影響,會閱讀垃圾郵件的幾率不到千分之一,更不會去考慮你的服務和產品了。很影響企業形象。
9 過多的友情連線.
一些人為了省錢,把希望寄托在免費資源上,更可笑的是有人想通過單純的瘋狂的友情連線希望增加自己網站的流量,提高在搜尋引擎的排名,吸引一個客戶。
10 為難電子商務師
很多公司為了追趕電子商務浪潮,專門找一個學習電子商務專業的學生或者是一個對網路了解的人,不再花其他的錢,來成功運行公司網站,最終使網站盈利。千萬不要為難那些電子商務師,他們也想把公司網站運作好,但是他們本身那也不是很懂。他們只能來維護你的網站。

減少原因

1、Refresh跳轉刷新問題
如果你在某頁面頭部使用META Refresh跳轉到另一個頁面的話,也屬於作弊行為,很容易導致收錄劇減,甚至被K!
還有一個要補充的問題就是GOOGLE搜尋引擎要比搜尋引擎先進得多,相比就等於一輛賓士與一輛解放牌的車。對於網站的整站更新,GOOGLE幾天就能改過來,而搜尋引擎那個蠢傢伙幾個月都緩不過來,要說數據量大GOOGLE包含了全球大多數網站的主要數據,不會比搜尋引擎少吧?這也說明搜尋引擎收錄容量有限的原因,要說重複不能收錄,那人家GOOGLE怎么又會對重複的數據照收不誤呢?
2、cn域名
由於cn域名較便宜,形成很多人群利用cn域名做垃圾網站,從而影響到很多cn網頁在搜尋引擎收錄變少或沒收錄!
3、空間問題
自己伺服器的IP下站點的收錄情況不良及空間穩定性差僅會影響到搜尋引擎收錄變少或沒收錄!
4、網站改版
不要隨意更改程式,隨意修改首頁分類和標題,搜尋引擎就不知所措,如果你一定要換程式,建議你把網站完全關閉1個月再重新上傳你的程式,這樣搜尋引擎就以為你是新站,收錄起來就容易得多。
5、模板、內容嚴重的重複
任何一款模板拿到手,記得先修改。
大家都用同一類型的模板,內容都是來自於採集,由於現 在做電影站的特別多,采來採去的都是那十來個採集件,試問有幾萬個內容相同的站,叫搜尋引擎那個機器怎么收錄?
6、關鍵字過多
關鍵字不要做得太熱,有些人把自己的網站題目就是“土豆電影”或“優酷視頻”,你到搜尋引擎看看有多少能真正收錄?就算收錄了也很快就會被K掉,因為搜尋引擎認為要是真的收錄了你,你的流量就會變得很大,這豈不是天上掉餡餅?堆積標題和關鍵字過多會造成搜尋引擎收錄變少或沒收錄!
7、網站連結這點很重要
經常檢查你的外部連線,看看有沒有打不開的網站、垃圾網站、沒被搜尋引擎收錄的網站,被搜尋引擎被降權的網站,被搜尋引擎K的網站僅會影響搜尋引擎收錄變少或沒收錄!
8、SEO最佳化
搜尋引擎對SEO過分的網站懲罰制度越來越嚴厲,SEO最佳化過度會造成搜尋引擎收錄變少或沒收錄!

收錄入口

百度收錄
網站收錄
Google收錄
Yahoo收錄
Bing收錄
百萬站收錄
Sogou收錄
Alexa收錄
中國搜尋收錄
有道搜尋收錄
搜搜收錄

特點分析

五大搜尋引擎收錄網站的特點分析
一. 百度收錄
百度是全球最大的中文搜尋引擎,百度收錄網站的原則基本上就是原創為王,複製內容的站基本上不收錄或少收錄。百度已占了中國大半江山,我們做站一定要把百度給養好了,堅持原創。百度一旦把你的站拿入觀察期,你可就要小心了,有可能要不了一個月就會全部給你清0。百度對網站改關鍵字和改版可是最敏感的,改版時可一定要小心,一點一點的改,不要一下就給全部改頭換面了。百度收錄網站從某種意義上來說,人為處理的因素多,有時顯得不是很公平,以至搜尋結果也不是那么讓人感到理想。
二. 谷歌收錄
谷歌收錄網站原則,谷歌比較重視外鏈還有內頁的想關性,對新站基本上能在一個星期給你收錄大部分,對新站的權重相對於百度來說要重一些。谷歌是先收錄後打壓,減小收錄。收錄得快,刪除收錄數量也快。可能谷歌的算法和國外人的習慣有關吧,總是體現在一個效率上。谷歌我個人的感覺是對原創的內容,如果你是一個新站,在谷歌下的排名會非常差。如果你的站堅持天天更新原創的話,你就能發現這一點。在這方面谷歌給人的感覺就是等級制非常分明。所以說如果你的站是想做谷歌收錄的話,大可不必的複製內容上去,讓它收錄個夠。
三.雅虎收錄
雅虎收錄網站原則,基本上是在百度和谷歌中間的位置,就是不向百度那么重視原創,也不向谷歌那么的等級制收錄。雅虎收錄顯得比較公正,人為處理搜尋結果比較少。在國外占的搜尋市場份額比較高,在中國好象不是很高,光有收錄,能給你網站帶來的流量是少之又少。但是我們可以常利用一下雅虎的收錄,來衡量一個站。
四.有道收錄
有道收錄網站原則,基本上突出在一個快字。比如你的網站改版,基本上能在一個星期全部給你更新收錄過。在其它搜尋引擎是做不到的。有道對網站的一舉一動比其它搜尋引擎都要嚴格,有變化基本上能在三天內給你作出快速的反映。雖然有道不能給我們帶來更多的流量,但是它的快速,可以讓我們更加早的發現網站的一些問題,以便及時的作出補救。可以說是監查網站的一個首選.
五.中搜收錄
中搜收錄網站原則,收錄慢,慢得比蝸牛還慢。你不去提交,它是不會收錄你站的。收錄結果也不是很正確。我以前有一個站,中搜收錄了五千多頁,網站就關了一年了,搜尋結果還在。中搜能給你網站帶來的流量可以說比其它幾個網站都少。
還有一些假搜尋網站,我們就不談了,但是有一個我不得不談,就是騰訊旗下的搜搜,這個搜搜用的是谷歌的收錄數據,但是也不是照搬谷歌收錄的結果,好象還是有一定的算法來處理結果,搜搜的收錄結果都要比谷歌有先知先覺一些。比如谷歌要減少你的收錄數量,搜搜的結果往往都要比谷歌先反映出來。所以說如果你是做谷歌收錄的話,搜搜是查看谷歌收錄網站數量的首選。

外部因素

定義
增加外部連結,能讓搜尋引擎有效地抓取和收錄網頁
增加外部連結的方法
1,自己主動性地增加連結;
2,發表優質文章、內容,吸引別人主動連結。
3,交換友情連結,比較容易簡單的辦法;
4,提交分類目錄、網路書籤,簡單未必十分有效;
5,購買文本連結,需要有一定成本投入,且連結不持久;
6,組建連結網路,建立網站群、部落格群,投入成本高,耗時較長,後期效果明顯;
7,群發連結,留言板垃圾留言、論壇簽名連結……

收錄原理

收集待索引網頁

Internet上存在的網頁數量絕對是個天文數字,每天新增的網頁也不計其數,搜尋引擎需要首先找到要索引收錄的對象。
具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區別存在爭議——至於是否叫這么兩個名字更是眾說紛紜。
主流的看法是,在Google的robots中,的確存在著相當部分專門為真正的索引收錄頁頁準備“素材”的robots——在這裡我們姑且仍稱之為FreshBot吧
它們的任務便是每天不停地掃描Internet,以發現並維護一個龐大的url列表供DeepBot使用,換言之,當其訪問、讀取其一個網頁時,目的並不在於索引這個網頁,而是找出這個網頁中的所有連結。當然,這樣似乎在效率上存在矛盾,有點不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網頁時不具備“排它性”。也即是說,位於Google不同的數據中心的多個robots可能在某個很短的時間周期,比如說一天甚至一小時,訪問同一個頁面,而DeepBot在索引、快取頁面時則不會出現類似的情況。即Google會限制由某個數據中心的robots來完成這項工作的,而不會出現兩個數據中心同時索引網頁同一個版本的情況,如果這種說法沒有破綻的話,則似乎可以從伺服器訪問日誌中時常可以看到源自不同IP的GoogleBot在很短的時間內多次訪問同一個網頁證明FreshBot的存在。
因此,有時候發現GoogleBot頻繁訪問網站也不要高興得太早,也許其根本不是在索引網頁而只是在掃描url。
FreshBot記錄的信息包括網頁的url、TimeStamp(網頁創建或更新的時間戳),以及網頁的Head信息(註:這一點存在爭議,也有不少人相信FreshBot不會去讀取目標網頁信息的,而是將這部分工作交由DeepBot完成。
不過,筆者傾向於前一種說法,因為在FreshBot向DeepBot提交的url列表中,會將網站設定禁止索引、收錄的頁面排除在外,以提高效率,而網站進行此類設定時除使用robots.txt外還有相當部分是通過mata標籤中的“noindex”實現的,不讀取目標網頁的head似乎是無法實現這一點的),如果網頁不可訪問,比如說網路中斷或伺服器故障,FreshBot則會記下該url並擇機重試,但在該url可訪問之前,不會將其加入向DeepBot提交的url列表。
總的來說,FreshBot對伺服器頻寬、資源的占用還是比較小的。最後,FreshBot對記錄信息按不同的優先權進行分類,向DeepBot提交,根據優先權不同,主要有以下幾種:
A:新建網頁;B:舊網頁/新的TimeStamp,即存在更新的網頁;C:使用301/302重定向的網頁;D:複雜的動態url:如使用多個參數的動態url,Google可能需要附加的工作才能正確分析其內容。
——隨著Google對動態網頁支持能力的提高,這一分類可能已經取消;E:其他類型的檔案,如指向PDF、DOC檔案的連結,對這些檔案的索引,也可能需要附加的工作;
F:舊網頁/舊的TimeStamp,即未更新的網頁,注意,這裡的時間戳不是以Google搜尋結果中顯示的日期為準,而是與Google索引資料庫中的日期比對;G:錯誤的url,即訪問時返回404回應的頁面;

網頁的索引與收錄

接下來才進入真正的索引與收錄網頁過程。從上面的介紹可以看出,FreshBot提交的url列表是相當龐大的,根據語言、網站位置等不同,對特定網站的索引工作將分配至不同的數據中心完成。
整個索引過程,由於龐大的數據量,可能需要幾周甚至更長時間才能完成。
正如上文所言,DeepBot會首先索引優先權較高的網站/網頁,優先權越高,出現在Google索引資料庫及至最終出現在Google搜尋結果頁面中的速度便越快。
對新建網頁而言,只要進入到這個階段,即使整個索引過程沒有完成,相應的網頁便已具備出現在Google索引庫中的可能,相信許多朋友在Google中使用“site”搜尋時常常看到標註為補充結果只顯示網頁url或只顯示網頁標題與url但沒有描述的頁面,此即是處於這一階段網頁的正常結果。
當Google真正讀取、分析、快取了這個頁面後,其便會從補充結果中逃出而顯示正常的信息。
——當然,前提是該網頁具有足夠的連結,特別是來自權威網站的連結,並且,索引庫中沒有與該網頁內容相同或近似的記錄(DuplicateContent過濾)。
對動態url而言,雖然如今Google宣稱在對其處理方面已不存在障礙,不過,可以觀察到的事實仍然顯示動態url出現在補充結果中的幾率遠大於使用靜態url的網頁,往往需要更多、更有價值的連結才能從補充結果中逸出。
而對於上文中之“F”類,即未更新的網頁,DeepBot會將其時間戳與Google索引資料庫中的日期比對,確認儘管可能搜尋結果中相應頁面信息未來得及更新但只要索引了最新版本即可——考慮網頁多次更新、修改的情況——;至於“G”類即404url,則會查找索引庫中是否存在相應的記錄,如果有,將其刪除。

數據中心間的同步

前文我們提到過,DeepBot索引某個網頁時會由特定的數據中心完成,而不會出現多個數據中心同時讀取該網頁,分別獲得網頁最近版本的情況,這樣,在索引過程完成後,便需要一個數據同步過程,將網頁的最新版本在多個數據中心得到更新。
這就是之前著名的GoogleDance。不過,在BigDaddy更新後,數據中心間的同步不再像那樣集中在特定的時間段,而是以一種連續的、時效性更強的方式進行。

相關詞條

熱門詞條

聯絡我們