常用的反反爬蟲應(yīng)對策略

更新時間:2020年09月18日15時57分來源:傳智播客瀏覽次數(shù):

現(xiàn)如今因為搜索引擎的流行，網(wǎng)絡(luò)爬蟲已經(jīng)成了很普及的技術(shù)了，除了專門做搜索的Google、Yahoo、百度以外，幾乎每個大型門戶網(wǎng)站都會有自己的搜索引擎，更不用說還有各種不知名的小型爬蟲了。一些智能的搜索引擎爬蟲的爬取頻率比較合理，不會消耗過多網(wǎng)站的資源，但是，很多網(wǎng)絡(luò)爬蟲對網(wǎng)頁的爬取能力很差，經(jīng)常并發(fā)上百個請求循環(huán)重復(fù)爬取，這種爬蟲對中小型網(wǎng)站造成的訪問壓力非常大，很有可能會導(dǎo)致網(wǎng)站訪問速度緩慢，甚至無法訪問，因此現(xiàn)在的網(wǎng)站會采取一些反爬蟲措施來阻止爬蟲的不當(dāng)爬取行為。

對于采取了反爬蟲措施的網(wǎng)站，爬蟲程序需要針對這些措施采取相應(yīng)的應(yīng)對策略，才能成功地爬取到網(wǎng)站上的數(shù)據(jù)。常用的應(yīng)對策略包括以下幾種。

1. 偽裝User-agent

User-agent表示用戶代理，是HTTP協(xié)議中的一個字段，其作用是描述發(fā)出HTTP請求的終端信息，比如操作系統(tǒng)及版本、瀏覽器及版本等，服務(wù)器通過這個字段可以知道訪問網(wǎng)站的是誰。

每個正規(guī)的爬蟲都有固定的User-agent，因此，只要將這個字段設(shè)為知名的用戶代理，就能夠成功偽裝。不過，不推薦偽裝知名爬蟲，因為這些爬蟲很可能有固定的IP，如百度爬蟲。這里，我們推薦若干個瀏覽器的User-agent，在每次發(fā)送請求的時候，隨機(jī)從這些用戶代理中選擇一個就行，具體如下：

Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0

2. 使用代理IP

如果網(wǎng)站根據(jù)某個時間段以內(nèi)IP訪問的次數(shù)來判定是否為爬蟲，一旦這些IP地址被封掉后，User-agent偽裝就失效了。遇到這種情況，可以使用代理IP完成。所謂代理IP就是介于用戶和網(wǎng)站之間的第三者，即用戶先將請求發(fā)送給代理IP，之后代理IP再發(fā)送到服務(wù)器，這時服務(wù)器會將代理IP視為爬蟲的IP，同時用多個代理IP，可以降低單個IP地址的訪問量，極有可能逃過一劫。

有些網(wǎng)站提供了一大批代理IP，我們可以將其存儲起來以備不時之需。不過，很多代理IP的壽命比較短，需要有一套完整的機(jī)制來校驗已有代理IP的有效性。

3. 降低訪問頻率

如果沒有找到既免費又穩(wěn)定的代理IP，則可以降低訪問網(wǎng)站的頻率，這樣做可以達(dá)到與用戶代理一樣的效果，防止對方從訪問量上認(rèn)出爬蟲的身份，不過爬取效率會差很多。為了彌補(bǔ)這個缺點，我們可以基于這個思想適時調(diào)整具體的操作。例如，每抓取一個頁面就休息若干秒，或者限制每天抓取的頁面數(shù)量。

4. 驗證碼限制

雖然有些網(wǎng)站不登陸就能訪問，但是它一檢測到某IP的訪問量有異常，就會馬上提出登陸要求，并隨機(jī)提供一個驗證碼。碰到這種情況，大多數(shù)情況下需要采取相應(yīng)的技術(shù)識別驗證碼，只有正確輸入驗證碼，才能夠繼續(xù)爬取網(wǎng)站。不過，識別驗證碼的技術(shù)難度還是比較大的。

猜你喜歡：

python爬蟲可以用來做什么?

聚焦爬蟲工作原理介紹

爬蟲分類分析：網(wǎng)絡(luò)爬蟲有哪些分類?

Python下載和安裝圖文教程

上一篇：聚焦爬蟲工作原理介紹 下一篇：使用Python語言開發(fā)爬蟲有什么優(yōu)勢？