爬虫之proxy(代理)
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                爬虫之proxy(代理)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                proxy簡介
proxy即為代理,我們爬蟲的時候肯定會有頻繁訪問某一網站的情況,這個時候有些服務器會識別到我們是非正常訪問,就會把我們的IP禁掉,這個時候就需要用代理了。
就好比現實生活中,我需要向A借一件東西,但是我跟A是仇人,直接向他借的話他不會借給我,這個時候我就讓B幫我像A借,就說他要用,然后B借到東西之后再把東西給我用,這時,B就是我的代理了。
常用的免費代理網站:http://www.goubanjia.com/。
爬蟲應該選擇什么樣的代理?
- 針對不需要用戶登錄,cookie驗證的網站,一般選擇動態高匿代理。
- 對于需要用戶登錄,身份認證的。一般選擇靜態IP
使用proxy的步驟
| 1 | proxy?=?{'http':'52.187.162.198:3128'} | 
| 1 | proxyHeader?=?request.ProxyHandler(proxy) | 
| 1 | opener?=?request.build_opener(proxyHeader) | 
| 1 | request.install_opener(opener) | 
示例
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | from?urllib?import?request # 設置代理地址 proxy?=?{'http':'52.187.162.198:3128'} # 創建ProxyHeader proxyHeader?=?request.ProxyHandler(proxy) # 創建Opener opener?=?request.build_opener(proxyHeader) # 安裝Opener request.install_opener(opener) # 然后剩下的就跟正常使用差不多,只不過此時的request已經是綁定了代理之后的request url?=?'https://www.taobao.com/' req?=?request.Request(url) response?=?request.urlopen(req) print(response.read().decode()) | 
總結
以上是生活随笔為你收集整理的爬虫之proxy(代理)的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 汽车公告弹簧片数12/1
- 下一篇: 星途lx1.5t星睿版6.8油耗怎么样?
