Scrapy框架学习记录
隨著Python爬蟲學(xué)習(xí)的深入,開始接觸Scrapy框架
記錄下兩個(gè)參考教程:
- 官網(wǎng)教程:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
- 知乎:https://zhuanlan.zhihu.com/p/26342933
官網(wǎng)教程可以說是比較權(quán)威比較全的,但是有一部分細(xì)節(jié)存沒有交代清楚,例如第一個(gè)Scrapy框架項(xiàng)目的建立,這個(gè)時(shí)候我們可以參考第二個(gè)知乎的教程,主要還是以官網(wǎng)教程為主滴。
首先,按照官網(wǎng)的Scrapy安裝教程安裝Scrapy
安裝指南
安裝Scrapy
注解
請(qǐng)先閱讀?平臺(tái)安裝指南.
下列的安裝步驟假定您已經(jīng)安裝好下列程序:
- Python?3.6.5
- Python Package:?pip?and?setuptools. 現(xiàn)在?pip?依賴?setuptools?,如果未安裝,則會(huì)自動(dòng)安裝?setuptools?。
- lxml. 大多數(shù)Linux發(fā)行版自帶了lxml。如果缺失,請(qǐng)查看http://lxml.de/installation.html
- OpenSSL. 除了Windows(請(qǐng)查看?平臺(tái)安裝指南)之外的系統(tǒng)都已經(jīng)提供。
您可以使用pip來安裝Scrapy(推薦使用pip來安裝Python package).
使用pip安裝:
pip install Scrapy在這過程中我遇到了這個(gè)錯(cuò)誤(原因是pip版本太低):注意一下黃色字體的說明,大致意思就是你的pip版本太低需要更新。
更新用cmd進(jìn)行,在cmd里面運(yùn)行python,輸入以下語句即可完成更新:
python -m pip install --upgrade pip在更新完pip后我們就可以按照Scrapy了。
如果lxml還沒安裝的童鞋,可以通過pip完成安裝,安裝語句:
pip install lxmlScrapy項(xiàng)目的建立
安裝好以上環(huán)境、包之后,打開cmd,輸入scrapy startproject liaoxuefeng,出現(xiàn)以下提示后,就說明你已經(jīng)成功創(chuàng)建一個(gè)scrapy的新項(xiàng)目:
該命令將會(huì)創(chuàng)建包含下列內(nèi)容的?tutorial?目錄:
tutorial/scrapy.cfgtutorial/__init__.pyitems.pypipelines.pysettings.pyspiders/__init__.py...這些文件分別是:
- scrapy.cfg: 項(xiàng)目的配置文件
- tutorial/: 該項(xiàng)目的python模塊。之后您將在此加入代碼。
- tutorial/items.py: 項(xiàng)目中的item文件.
- tutorial/pipelines.py: 項(xiàng)目中的pipelines文件.
- tutorial/settings.py: 項(xiàng)目的設(shè)置文件.
- tutorial/spiders/: 放置spider代碼的目錄.
CMD部分
輸入:“cd..”返回更目錄
輸入:“f:”進(jìn)入f盤
輸入:“cd”并將test文件夾拖入cmd中,回車,進(jìn)入test文件夾,然后就可以執(zhí)行我們的“scrapy startproject liaoxuefeng”語句了
備注:以管理員身份進(jìn)入cmd是不允許將文件(夾)拖入cmd中的,這個(gè)時(shí)候就比較麻煩需要手動(dòng)輸入文件地址了,一般我是不會(huì)以管理員身份進(jìn)入cmd。
總結(jié)
以上是生活随笔為你收集整理的Scrapy框架学习记录的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas教程(一)Series与Da
- 下一篇: Python--状态码的简介与获取方法