爬蟲分類分析：網(wǎng)絡(luò)爬蟲有哪些分類？

更新時間:2020年09月18日15時28分來源:傳智播客瀏覽次數(shù):

通用爬蟲和聚焦爬蟲

根據(jù)使用場景，網(wǎng)絡(luò)爬蟲可分為通用爬蟲和聚焦爬蟲兩種。通用爬蟲是捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分，主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地，形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。聚焦爬蟲，是“面向特定主題需求”的一種網(wǎng)絡(luò)爬蟲程序。接下來，就對這兩種爬蟲分別進(jìn)行介紹。

1. 通用爬蟲

通用爬蟲又稱全網(wǎng)爬蟲(Scalable Web Crawler)，它將爬取對象從一些種子 URL擴(kuò)充到整個Web上的網(wǎng)站，主要用途是為門戶站點搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)。

這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大，對于爬行速度和存儲空間要求較高，對于爬行頁面的順序要求相對較低，同時由于待刷新的頁面太多，通常采用并行工作方式，但需要較長時間才能刷新一次頁面。

2. 聚焦爬蟲

聚焦爬蟲(Focused Crawler)，又稱主題網(wǎng)絡(luò)爬蟲(Topical Crawler)，是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)的頁面的網(wǎng)絡(luò)爬蟲。

和通用爬蟲相比，聚焦爬蟲只需要爬行與主題相關(guān)的頁面，從而極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。

累積式和增量式爬蟲

根據(jù)爬取形式不同，可將爬蟲分為累積式爬蟲和增量式爬蟲。

1. 累積式爬蟲

累積式爬蟲是指從某一個時間點開始，通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下，經(jīng)過足夠的運(yùn)行時間，累積式抓取的策略可以保證抓取到相當(dāng)規(guī)模的網(wǎng)頁集合。但由于Web數(shù)據(jù)的動態(tài)特性，集合中網(wǎng)頁的被抓取時間點是不同的，頁面被更新的情況也不同，因此累積式抓取到的網(wǎng)頁集合事實上并無法與真實環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。

2. 增量式爬蟲

增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁面集合的基礎(chǔ)上，采用更新數(shù)據(jù)的方式選取已有集合中的過時網(wǎng)頁進(jìn)行抓取，以保證所抓取到的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進(jìn)行增量式抓取的前提是，系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁面，并具有這些頁面被抓取的時間信息。

和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會在需要的時候爬行新產(chǎn)生或發(fā)生更新的頁面，并不重新下載沒有發(fā)生變化的頁面，可有效減少數(shù)據(jù)下載量，及時更新已爬行的網(wǎng)頁，減小時間和空間上的耗費，但是增加了爬行算法的復(fù)雜度和實現(xiàn)難度。

面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中，通常既包括累積式抓取，也包括增量式抓取的策略。累積式抓取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式抓取則主要針對數(shù)據(jù)集合的日常維護(hù)與即時更新。