python的scrapy框架的安装_Python爬虫基础(四)--Scrapy框架的安装及介绍
Scrapy框架的介紹
安裝:
pip3 install Scrapy
安裝測試:
cmd命令行界面,輸入:scrapy -h
框架安裝完成;
scrapy框架:
分為五個模塊+兩個中間件(5+2結構):
spiders(用戶入口,需要配置):
解析download返回的響應
產生爬取項
產生額外的爬取請求
spider middleware中間件(用戶配置)--在spider和engine模塊之間:
對請求和爬取項的再處理:修改、丟棄、新增請求或爬取項
engine(不需要修改):
控制所有模塊之間的數據流
根據條件觸發事件
download middleware中間件(用戶配置)--在engine和downloader模塊之間:
實時engine、scheduler、download之間進行用戶可配置的控制,用于修改、丟棄、新增請求或相應
downloader(不需要修改):
根據請求下載網頁
scheduler(不需要修改):
對所有爬取請求進行調度管理
item pipelines(出口,需要配置):
以流水線方式處理spiders產生的爬取項
由一組操作順序組成,類似流水線,每個操作是一個item pipelines類型
可能操作包括:清理、檢驗和查重爬取項中的html數據,將數據存儲到數據庫
用戶重點編寫spider模塊和item piplines模塊,并且通過編寫中間件對數據流進行操作
scrapy爬蟲常用命令:
startproject:創建一個項目 scrapy startproject [dir]scrapy startproject pythondemo1
genspider:創建一個爬蟲 scrapy genspider [options]
setting:獲得爬蟲配置信息 scrapy setting [options]
crawl:運行一個爬蟲 scrapy crawl
list:列出所有的爬蟲 scrapy list
shell:啟動url調試命令 scrapy shell [url]
scrapy框架爬蟲示例:
1、創建一個爬蟲工程:scrapy startproject pythondemo123
工程目錄下結構:
最外層的pythondemo123為外層目錄
----pythondemo123/ scrapy框架的用戶自定義python代碼
--------__init__.py 初始化腳本,不需要修改
--------items.py item代碼模板(繼承類)一般情況下不需要修改
--------middlewares.py middlewares模板(繼承類) 如果需要擴展這個模塊的功能,則需要修改
--------pipelines.py pipelines代碼模板(繼承類)
--------setting.py scrapy爬蟲的配置文件 如果優化爬蟲功能,需要修改對應的配置項
--------spiders/ spiders代碼模板目錄(繼承類)
------------__init__.py
-----------pycache文件
----scrapy.py 部署scrapy爬蟲的配置文件(要執行scrapy服務器的配置信息,在本機執行的話不需要配置)
2、生成一個爬蟲:
scrapy genspider demo python123.io #在spiders文件夾下生成demo.py 域名為python123.io
3、配置產生的爬蟲
4、運行爬蟲,獲取網頁
scrapy crawl demo
最終獲取到demo.html
總結
以上是生活随笔為你收集整理的python的scrapy框架的安装_Python爬虫基础(四)--Scrapy框架的安装及介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sqlalchemy limit_SQL
- 下一篇: python3mysql包_python