pyspider爬虫框架
特點(diǎn):
去重處理,結(jié)果監(jiān)控,多進(jìn)程處理,pyquery提取,錯(cuò)誤重試,webUI管理,代碼簡(jiǎn)潔,JS渲染
安裝:
anaconda里邊沒(méi)搜到pyspider,所以手動(dòng)安裝
?
查看pyspider的命令:
?
啟動(dòng)pyspider所有組件:
在啟動(dòng)之前,要先安裝phantomjs瀏覽器,因?yàn)閜yspider組件中有phantomjs組件。
下載地址:http://phantomjs.org/download.html。安裝之后,配置環(huán)境變量(phantomjs.exe所在路徑):
之后,pyspider all命令開啟pyspider所有組件:
發(fā)現(xiàn)發(fā)生錯(cuò)誤:
ValueError: Invalid configuration:
- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.
錯(cuò)誤說(shuō),domaincontroller被棄用,建議用http_authenticator.domain_controller代替。
原因是因?yàn)閃sgiDAV發(fā)布了版本 pre-release 3.x。
解決方法如下:
在安裝包中找到pyspider的資源包,然后找到webui文件里面的webdav.py文件打開,修改第209行即可。
把
'domaincontroller': NeedAuthController(app),
修改為:
'http_authenticator':{
'HTTPAuthenticator':NeedAuthController(app),
},
然后再執(zhí)行pyspider all就能夠通過(guò)http://localhost:5000打開頁(yè)面了。
(原文:https://blog.csdn.net/qq_37253540/article/details/88196994 )
此時(shí)webui組件開啟成功,在端口5000上,則在瀏覽器中輸入http://localhost:5000打開pyspider的webui界面。
?
?
點(diǎn)擊create創(chuàng)建一個(gè)項(xiàng)目。之后,右邊是編輯器,左邊是請(qǐng)求的參數(shù)
?
轉(zhuǎn)載于:https://www.cnblogs.com/wisir/p/10587938.html
總結(jié)
以上是生活随笔為你收集整理的pyspider爬虫框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: LOJ2980 THUSC2017大魔法
- 下一篇: linux系统运维工资?