網頁爬取器

基本原理

概念

網路蜘蛛即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那么Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁，從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後通過這些連結地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完為止。如果把整個網際網路當成一個網站，那么網路蜘蛛就可以用這個原理把網際網路上所有的網頁都抓取下來。

搜尋引擎效率低

對於搜尋引擎來說，要抓取網際網路上所有的網頁幾乎是不可能的，從目前公布的數據來看，容量最大的搜尋引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸，無法遍歷所有的網頁，有許多網頁無法從其它網頁的連結中找到；另一個原因是存儲技術和處理技術的問題，如果按照每個頁面的平均大小為20K計算（包含圖片），100億網頁的容量是100×2000G位元組，即使能夠存儲，下載也存在問題（按照一台機器每秒下載20K計算，需要340台機器不停的下載一年時間，才能把所有網頁下載完畢）。同時，由於數據量太大，在提供搜尋時也會有效率方面的影響。因此，許多搜尋引擎的網路蜘蛛只是抓取那些重要的網頁，而在抓取的時候評價重要性主要的依據是某個網頁的連結深度。

抓取網頁策略

在抓取網頁的時候，網路蜘蛛一般有兩種策略：廣度優先和深度優先。

廣度優先是指網路蜘蛛會先抓取起始網頁中連結的所有網頁，然後再選擇其中的一個連結網頁，繼續抓取在此網頁中連結的所有網頁。這是最常用的方式，因為這個方法可以讓網路蜘蛛並行處理，提高其抓取速度。深度優先是指網路蜘蛛會從起始頁開始，一個連結一個連結跟蹤下去，處理完這條線路之後再轉入下一個起始頁，繼續跟蹤連結。這個方法有個優點是網路蜘蛛在設計的時候比較容易。兩種策略的區別，下圖的說明會更加明確。

由於不可能抓取所有的網頁，有些網路蜘蛛對一些不太重要的網站，設定了訪問的層數。例如，在上圖中，A為起始網頁，屬於0層，B、C、D、E、F屬於第1層，G、H屬於第2層，I屬於第3層。如果網路蜘蛛設定的訪問層數為2的話，網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜尋引擎上搜尋到，另外一部分不能被搜尋到。對於網站設計者來說，扁平化的網站結構設計有助於搜尋引擎抓取其更多的網頁。

網路蜘蛛在訪問網站網頁的時候，經常會遇到加密數據和網頁許可權的問題，有些網頁是需要會員許可權才能訪問。當然，網站的所有者可以通過協定讓網路蜘蛛不去抓取（下小節會介紹），但對於一些出售報告的網站，他們希望搜尋引擎能搜尋到他們的報告，但又不能完全**的讓搜尋者查看，這樣就需要給網路蜘蛛提供相應的用戶名和密碼。網路蜘蛛可以通過所給的許可權對這些網頁進行網頁抓取，從而提供搜尋。而當搜尋者點擊查看該網頁的時候，同樣需要搜尋者提供相應的許可權驗證。

網路蜘蛛

網路蜘蛛需要抓取網頁，不同於一般的訪問，如果控制不好，則會引起網站伺服器負擔過重。今年4 月，就因為雅虎搜尋引擎的網路蜘蛛抓取其數據引起淘寶網伺服器的不穩定。網站是否就無法和網路蜘蛛交流呢？其實不然，有多種方法可以讓網站和網路蜘蛛進行交流。一方面讓網站管理員了解網路蜘蛛都來自哪兒，做了些什麼，另一方面也告訴網路蜘蛛哪些網頁不應該抓取，哪些網頁應該更新。

網頁爬取器

基本介紹

基本原理

網路蜘蛛

Robots.txt

內容提取

更新周期

周期掃描網頁

更新周期長短

判斷是否更新

相關詞條

熱門詞條