robots

robots簡介

搜尋引擎通過一種程式robot（又稱spider），自動訪問網際網路上的網頁並獲取網頁信息。

您可以在您的網站中創建一個純文本檔案robots.txt，在這個檔案中聲明該網站中不想被robot訪問的部分，這樣，該網站的部分或全部內容就可以不被搜尋引擎收錄了，或者指定搜尋引擎只收錄指定的內容。

robots.txt（統一小寫）是一種存放於網站根目錄下的ASCII編碼的文本檔案，它通常告訴網路搜尋引擎的漫遊器（又稱網路蜘蛛），此網站中的哪些內容是不能被搜尋引擎的漫遊器獲取的，哪些是可以被（漫遊器）獲取的。因為一些系統中的URL是大小寫敏感的，所以robots.txt的檔案名稱應統一為小寫。robots.txt應放置於網站的根目錄下。如果想單獨定義搜尋引擎的漫遊器訪問子目錄時的行為，那么可以將自定的設定合併到根目錄下的robots.txt，或者使用robots元數據。

Robots.txt協定並不是一個規範，而只是約定俗成的，所以並不能保證網站的隱私。注意Robots.txt是用字元串比較來確定是否獲取URL，所以目錄末尾有和沒有斜槓“/”這兩種表示是不同的URL，也不能用"Disallow: *.gif"這樣的通配符。

其他的影響搜尋引擎的行為的方法包括使用robots元數據：

這個協定也不是一個規範，而只是約定俗成的，通常搜尋引擎會識別這個元數據，不索引這個頁面，以及這個頁面的鏈出頁面

robots.txt檔案放在哪裡?

robots.txt檔案應該放在網站根目錄下。舉例來說，當robots訪問一個網站時，首先會檢查該網站中是否存在這個檔案，如果機器人找到這個檔案，它就會根據這個檔案的內容，來確定它訪問許可權的範圍。

使用誤區

誤區一：我的網站上的所有檔案都需要蜘蛛抓取，那我就沒必要在添加robots.txt檔案了。反正如果該檔案不存在，所有的搜尋蜘蛛將默認能夠訪問網站上所有沒有被口令保護的頁面。

每當用戶試圖訪問某個不存在的URL時，伺服器都會在日誌中記錄404錯誤（無法找到檔案）。每當搜尋蜘蛛來尋找並不存在的robots.txt檔案時，伺服器也將在日誌中記錄一條404錯誤，所以你應該做網站中添加一個robots.txt。

誤區二：在robots.txt檔案中設定所有的檔案都可以被搜尋蜘蛛抓取，這樣可以增加網站的收錄率。

網站中的程式腳本、樣式表等檔案即使被蜘蛛收錄，也不會增加網站的收錄率，還只會浪費伺服器資源。因此必須在robots.txt檔案里設定不要讓搜尋蜘蛛索引這些檔案。


無線搜尋	Baiduspider-mobile
圖片搜尋	Baiduspider-image
視頻搜尋	Baiduspider-video
新聞搜尋	Baiduspider-news
百度搜藏	Baiduspider-favo
百度聯盟	Baiduspider-cpro
商務搜尋	Baiduspider-ads
網頁以及其他搜尋	Baiduspider

robots

基本介紹

robots簡介

使用誤區

使用技巧

robots.txt檔案的格式

robots.txt語法教程

robot.txt在SEO中的作用

非標準擴展協定

常見Robots名字

Robots META標籤的寫法

禁止抓取圖片

禁止快照

百度robots中的user-agent

相關詞條

熱門詞條