spider-定向抓取
生活随笔
收集整理的這篇文章主要介紹了
spider-定向抓取
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
網絡爬蟲(web crawler)又稱為網絡蜘蛛(web spider)是一段計算機程序,它從互聯網上按照一定的邏輯和算法抓取和下載互聯網的網頁,是搜索引擎的一個重要組成部分。一般的爬蟲從一部分start url開始,按照一定的策略開始爬取,爬取到的新的url在放入到爬取隊列之中,然后進行新一輪的爬取,直到抓取完畢為止。
我們看一下crawler一般會遇到什么樣的問題吧:
抓取的網頁量很大
網頁更新量也很大,一般的網站,比如新聞,電子商務網站,頁面基本是實時更新的
大部分的網頁都是動態的,多媒體,或者封閉的(facebook)
海量網頁的存在就意味著在一定時間之內,抓取只能的抓取其中的一部分,因此需要定義清楚抓取的優先級;網頁更新的頻繁,也就意味著需要抓取最新的網頁和保證鏈接的有效性,因此一個更有可能帶來新網頁的列表頁顯得尤為重要;對于新聞網站,新的網站一般出現在首頁,或者在指定的分類網頁,但是對于淘寶來說,商品的更新就很難估計了;動態網頁怎么辦呢?現在的網頁大都有JS和AJAX,抓取已經不是簡單的執行wget下載,現代的網頁結構需要我們的爬蟲更加智能,需要更靈活的應對網頁的各種情況。
因此,對一個通用的爬蟲個,我們要定義
抓取策略,那些網頁是我們需要去下載的,那些是無需下載的,那些網頁是我們優先下載的,定義清楚之后,能節省很多無謂的爬取
更新策略,監控列表頁來發現新的頁面;定期che 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
我們看一下crawler一般會遇到什么樣的問題吧:
抓取的網頁量很大
網頁更新量也很大,一般的網站,比如新聞,電子商務網站,頁面基本是實時更新的
大部分的網頁都是動態的,多媒體,或者封閉的(facebook)
海量網頁的存在就意味著在一定時間之內,抓取只能的抓取其中的一部分,因此需要定義清楚抓取的優先級;網頁更新的頻繁,也就意味著需要抓取最新的網頁和保證鏈接的有效性,因此一個更有可能帶來新網頁的列表頁顯得尤為重要;對于新聞網站,新的網站一般出現在首頁,或者在指定的分類網頁,但是對于淘寶來說,商品的更新就很難估計了;動態網頁怎么辦呢?現在的網頁大都有JS和AJAX,抓取已經不是簡單的執行wget下載,現代的網頁結構需要我們的爬蟲更加智能,需要更靈活的應對網頁的各種情況。
因此,對一個通用的爬蟲個,我們要定義
抓取策略,那些網頁是我們需要去下載的,那些是無需下載的,那些網頁是我們優先下載的,定義清楚之后,能節省很多無謂的爬取
更新策略,監控列表頁來發現新的頁面;定期che 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
總結
以上是生活随笔為你收集整理的spider-定向抓取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 热词统计发现算法3则
- 下一篇: 基于SIFT特征的全景图像拼接