python爬虫requests设置代理ip_干货|Python爬虫如何设置代理IP
干貨|Python爬蟲如何設置代理IP
在學習Python爬蟲的時候,經常會遇見所要爬取的網站采取了反爬取技術導致爬取失敗。高強度、高效率地爬取網頁信息常常會給網站服務器帶來巨大壓力,所以同一個IP反復爬取同一個網頁,就很可能被封,這里講述一個爬蟲技巧,設置代理IP。
配置環境
安裝requests庫
安裝bs4庫
安裝lxml庫
具體代碼
函數get_ip_list(url, headers)傳入url和headers,最后返回一個IP列表,列表的元素類似122.114.31.177:808格式,這個列表包括國內髙匿代理IP網站首頁所有IP地址和端口。
函數get_random_ip(ip_list)傳入第一個函數得到的列表,返回一個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次運行都使用不同的IP訪問被爬取的網站,有效地避免了真實IP被封的風險。
proxies的格式是一個字典:{‘http’: ‘http://122.114.31.177:808‘},可以將下面的執行也封裝為方法。
代理IP的使用
運行上面的代碼會得到一個隨機的proxies,把它直接傳入requests的get方法中即可
?著作權歸作者所有:來自51CTO博客作者極光小編的原創作品,如需轉載,請注明出處,否則將追究法律責任
極光小編
6篇文章,2W+人氣,0粉絲
總結
以上是生活随笔為你收集整理的python爬虫requests设置代理ip_干货|Python爬虫如何设置代理IP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AUTOCAD——超级填充
- 下一篇: WPF 框架开发 ColumnDefin