更新時(shí)間:2022年08月18日09時(shí)58分 來源:傳智教育 瀏覽次數(shù):
網(wǎng)絡(luò)爬蟲歷經(jīng)幾十年的發(fā)展,技術(shù)變得更加多樣化,并結(jié)合不同的需求衍生出類型眾多的網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)大致可以分為4種類型,分別是通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。接下來,對增量式爬蟲和深層網(wǎng)絡(luò)爬蟲這兩種爬蟲分別進(jìn)行介紹。
1.增量式爬蟲
增量式網(wǎng)終爬蟲(Incremental Web Crawler)是指對已下載的網(wǎng)頁采取增量式更新,只抓取新產(chǎn)生或者已經(jīng)發(fā)生變化的網(wǎng)頁的網(wǎng)絡(luò)爬蟲。增量式網(wǎng)絡(luò)爬蟲只會抓取新產(chǎn)生的或內(nèi)容變化的網(wǎng)頁,并不會重新抓取內(nèi)容未發(fā)生變化的網(wǎng)頁,這樣可以有效地減少網(wǎng)頁的下載量,減少訪問時(shí)間和存儲空間的耗費(fèi),但是增加了網(wǎng)頁抓取算法的復(fù)雜度和實(shí)現(xiàn)難度。
2.深層爬蟲
深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)是指抓取深層網(wǎng)頃的網(wǎng)絡(luò)爬蟲,它要抓取的網(wǎng)頁層次比較深,需要通過一定的附加策略才能夠自動抓取,實(shí)現(xiàn)難度較大。
表層網(wǎng)頁與深層網(wǎng)頁
網(wǎng)頁按存在方式可以分為表層網(wǎng)頁(Surface Web)和深層網(wǎng)頁(Deep Web),關(guān)于這兩類網(wǎng)頁的介紹如下。
表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面,主要以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁構(gòu)成的網(wǎng)頁。
深層網(wǎng)頁是指大部分內(nèi)容無法通過靜態(tài)鏈接獲取的,只能通過用戶提交一些關(guān)鍵詞才能獲取的網(wǎng)頁,如用戶注冊后內(nèi)容才可見的網(wǎng)頁。
北京校區(qū)