python什么时候用框架_python爬虫-什么时候选择selenium框架框架?
不知不覺已經從事Python編程開發5年了,Python剛開始其實不是很起眼,但是隨著大數據越來越活,現在Python也越來越火了,但是目前我主要從事的Python工作還是以數據挖掘、數據爬蟲技術深度為主。
下面把這些年個人在編程爬蟲代碼時用過的一些爬蟲框架和爬蟲經驗給大家分享:
不同的網站選擇不通的技術策略和不同的框架組合。
(1)selenium框架: 我把這個框架取了一個名字叫:“無法阻擋爬蟲蜘蛛俠”,這個框架優點的個人覺得就是可以模擬瀏覽器,相當于您用程序調動瀏覽器讓瀏覽器打開您需要爬取的網站。這個好處其實就是可以大量避免被封。因為我們在用Python的requets庫發出網絡情況時候,您必須先構造http請求頭。但是有些網站反爬很嚴格,可以直接識別出來您當前的訪問是否正常用戶行為。所以如果在用request請求時被目標網站反爬識別,導致無法爬取的話,那么這個時候只有使用這個selenium框架就是最好技術選擇方式。他可以做到的是只要您網站用瀏覽器可以正常訪問,那么selenium就可以采集到網站數據,除非正常瀏覽器都不能訪問了。
selenium框架優點:反爬能力強,適合爬取哪種反爬很厲害的網站或者是那種需要點擊提交的網站,我在做商標網數據爬取的時候,當時老板要求要爬取全部網站幾千萬商標數據,但是這個網站反爬很厲害,而且需要點擊確定按鈕,然后才能進入商標綜合搜索頁面,然后再根據注冊號搜索進入列表頁,然后從列表頁點擊進入商標詳情頁,然后再從詳情頁點擊進入商標流程頁。這一連串的需要的模擬動作,當時為了解決一天爬取上百萬數據,剛開始我采用Python的request庫+代理IP池技術架構,然后開啟了多進程,但是遺憾是很快就被目標網站識別您的請求不是正常用戶,因為您太快了,所以最后不得不改用selenium+多進程技術價格組合。
selenium框架缺點:速度慢,適合每天爬取數據量要求不高的爬蟲工作, 因為selenium框架是必須要打開瀏覽器,然后模擬點擊網頁,這個過程和您用手打開瀏覽器打開網址去訪問網站一樣的速度。這個速度是比較慢。如果您要采集的數據,每天也就1-2萬條那么可以用這個selenium框架。因為比較穩定靠譜。
什么時候我們不能選擇selenium框架?
關于爬蟲技術,下一篇繼續給大家分享。
總結
以上是生活随笔為你收集整理的python什么时候用框架_python爬虫-什么时候选择selenium框架框架?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vba代码编程800例_一组实用的VBA
- 下一篇: a = 3 中3在栈还是堆_56.堆、栈