scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP
一、crawlera平臺注冊
? ? 首先申明,注冊是免費的,使用的話除了一些特殊定制外都是free的。
? ? 1、登錄其網(wǎng)站?https://dash.scrapinghub.com/account/signup/
????填寫用戶名、密碼、郵箱,注冊一個crawlera賬號并激活
????2、創(chuàng)建Organizations,然后添加crawlear服務(wù)
????
然后點擊 +Service ,在彈出的界面點擊Crawlear,輸入名字,選擇信息就創(chuàng)建成功了。
創(chuàng)建成功過后點擊你的Crawlear名字便可以看到API的詳細信息。
?
二、部署到srcapy項目
????1、安裝scarpy-crawlera
????pip install 、easy_install 隨便你采用什么安裝方式都可以
pip?install?scrapy-crawlera? ? 2、修改settings.py
????????如果你之前設(shè)置過代理ip,那么請注釋掉,加入crawlera的代理
DOWNLOADER_MIDDLEWARES?=?{#?'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware':?110,#?'partent.middlewares.ProxyMiddleware':?100, 'scrapy_crawlera.CrawleraMiddleware':?600 }????為了是crawlera生效,需要添加你創(chuàng)建的api信息(如果填寫了API key的話,pass填空字符串便可)
CRAWLERA_ENABLED?=?True CRAWLERA_USER?=?'<API?key>' CRAWLERA_PASS?=?''????為了達到更高的抓取效率,可以禁用Autothrottle擴展和增加并發(fā)請求的最大數(shù)量,以及設(shè)置下載超時,代碼如下
CONCURRENT_REQUESTS?=?32 CONCURRENT_REQUESTS_PER_DOMAIN?=?32 AUTOTHROTTLE_ENABLED?=?False DOWNLOAD_TIMEOUT?=?600????如果在代碼中設(shè)置有 DOWNLOAD_DELAY的話,需要在setting.py中添加
CRAWLERA_PRESERVE_DELAY?=?True????如果你的spider中保留了cookies,那么需要在Headr中添加
DEFAULT_REQUEST_HEADERS?=?{#?'Accept':?'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',#?'Accept-Language':?'zh-CN,zh;q=0.8','X-Crawlera-Cookies':?'disable' }三、運行爬蟲
????這些都設(shè)置好了過后便可以運行你的爬蟲了。這時所有的request都是通過crawlera發(fā)出的,信息如下
?
更多的crawlera信息請參考官方文檔:http://doc.scrapinghub.com/index.html
https://my.oschina.net/jhao104/blog/512384
總結(jié)
以上是生活随笔為你收集整理的scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机基础知识二进制转换,计算机基础知识
- 下一篇: 小型动漫知识图谱的构建 (Python+