Python爬蟲(chóng)被封禁如何應(yīng)對(duì)防爬策略?

更新時(shí)間:2021年04月27日17時(shí)37分來(lái)源:傳智教育瀏覽次數(shù):

好口碑IT培訓(xùn)

現(xiàn)如今因?yàn)樗阉饕娴牧餍?，網(wǎng)絡(luò)爬蟲(chóng)已成為很普及的技術(shù)，除了專門做搜索的Google、Yahoo、百度以外，幾乎每個(gè)大型門戶網(wǎng)站都有自己的搜索引擎。一些智能的搜索引擎爬蟲(chóng)的爬取頻率比較合理，不會(huì)消耗過(guò)多的網(wǎng)站資源，但是，很多網(wǎng)絡(luò)爬蟲(chóng)對(duì)網(wǎng)頁(yè)的爬取能力很差，經(jīng)常并發(fā)上百個(gè)請(qǐng)求循環(huán)重復(fù)爬取，這種爬蟲(chóng)對(duì)中小型網(wǎng)站造成的訪問(wèn)壓力非常大，很可能會(huì)導(dǎo)致網(wǎng)站訪問(wèn)速度緩慢，甚至無(wú)法訪問(wèn)，因此現(xiàn)在的網(wǎng)站會(huì)采取一些防爬蟲(chóng)措施來(lái)阻止爬蟲(chóng)的不當(dāng)爬取行為。

對(duì)于采取了防爬蟲(chóng)措施的網(wǎng)站，爬蟲(chóng)程序需要針對(duì)這些措施采取相應(yīng)的應(yīng)對(duì)策略，才能成功地爬取到網(wǎng)站上的數(shù)據(jù)。常用的應(yīng)對(duì)策略包括以下幾種:

1.設(shè)置User-Agent

User-Agent表示用戶代理，是HTTP協(xié)議中的一個(gè)字段，其作用是描述發(fā)出HTTP請(qǐng)求的終端信息，如操作系統(tǒng)及版本、瀏覽器及版本等，服務(wù)器通過(guò)這個(gè)字段可以知道訪問(wèn)網(wǎng)站的用戶。

每個(gè)正規(guī)的爬蟲(chóng)都有固定的User-Agent,因此，只要將這個(gè)字段設(shè)為知名的用戶代理即可。

但是，不推薦偽裝知名爬蟲(chóng)，因?yàn)檫@些爬蟲(chóng)很可能有固定的IP，如百度爬蟲(chóng)。這里，推薦若干個(gè)瀏覽器的User Agent,在每次發(fā)送請(qǐng)求時(shí)，隨機(jī)從這些用戶代理中選擇一個(gè)即可。具體如下:

(1) Mozilla/5.0 (Windows NT 5.1;U; en; rv:1.8.1) Gecko/ 20061208Firefox/2.0.0 Opera 9.50。

(2) Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) opera 9.50。

(3) Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0。

2.使用代理IP

如果網(wǎng)站根據(jù)某個(gè)時(shí)間段以內(nèi)IP訪問(wèn)的次數(shù)來(lái)判定是否為爬蟲(chóng)，一日這此IP地址被封掉，User-Agent設(shè)置就會(huì)失效。遇到這種情況，可以使用代理IP完成。所謂代理IP就是介于用戶和網(wǎng)站之間的第三者，即用戶先將請(qǐng)求發(fā)送給代理IP，之后代理IP再發(fā)送到服務(wù)器，這時(shí)服務(wù)器會(huì)將代理IP視為爬蟲(chóng)的IP，同時(shí)用多個(gè)代理IP，可以降低單個(gè)IP地址的訪問(wèn)量，就能防止爬蟲(chóng)爬取數(shù)據(jù)的概率。

有些網(wǎng)站提供了一大批代理IP，可以將其存儲(chǔ)起來(lái)以備不時(shí)之需。不過(guò)，很多代理IP的壽命比較短，需要有一套完整的機(jī)制來(lái)校驗(yàn)已有代理IP的有效性。

3.降低訪問(wèn)頻率

如果沒(méi)有找到既免費(fèi)又穩(wěn)定的代理IP,則可以降低訪問(wèn)網(wǎng)站的頻率，這樣做可以達(dá)到與用戶代理一樣的效果，防止對(duì)方從訪問(wèn)量上認(rèn)出爬蟲(chóng)的身份，不過(guò)爬取效率會(huì)差很多。為了彌補(bǔ)這個(gè)缺點(diǎn)，可以基于這個(gè)思想適時(shí)調(diào)整具體的操作。例如，每爬取-一個(gè)頁(yè)面就休息若干秒，或者限制每天爬取的頁(yè)面數(shù)量。

4. 驗(yàn)證碼限制

雖然有些網(wǎng)站不登陸就能訪問(wèn)，但是它一檢測(cè)到某IP的訪問(wèn)量有異常，就會(huì)馬上提出登陸要求，并隨機(jī)提供一個(gè)驗(yàn)證碼。碰到這種情況，大多數(shù)情況下需要采取相應(yīng)的技術(shù)識(shí)別驗(yàn)證碼，只有正確輸入驗(yàn)證碼，才能夠繼續(xù)爬取網(wǎng)站。不過(guò)，識(shí)別驗(yàn)證碼的技術(shù)難度還是比較大的。

猜你喜歡：

三種分布式爬蟲(chóng)策略介紹

什么是分布式爬蟲(chóng)？分布式爬蟲(chóng)實(shí)現(xiàn)方法

爬蟲(chóng)適合使用Mysql還是Mongdb？

傳智教育python培訓(xùn)課程

上一篇： Python的標(biāo)準(zhǔn)模塊介紹：sys、os、random和time 下一篇：Django框架的優(yōu)點(diǎn)有哪些？