Python爬虫框架--Scrapy
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫框架--Scrapy
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
常用命令
startproject??創建一個新工程 ????scrapy startproject [dir]
genspider?????創建一個爬蟲 ???????scrapy genspider [options]
settings ????????獲得爬蟲配置信息 scrapy settings [options] crawl
建立步驟
步驟1:建立一個Scrapy爬蟲工程
選取一個目錄(D:\pycodes\),然后執行如下命令
> scrapy startproject python123demo目錄結構
再來看一下 spider/文件夾
步驟2:在工程中產生一個Scrapy爬蟲
進入工程目錄(D:\pycodes\python123demo),然后執行如下命令,也可以手動創建
> scrapy genspider demo python123.io該命令作用:
(1) 生成一個名稱為demo的spider
(2) 在spiders目錄下增加代碼文件demo.py
(3)上述命令中demo是文件名,python123.io是demo.py文件中的start_urls
步驟3:配置產生的spider爬蟲
配置:(1)初始URL地址 (2)獲取頁面后的解析方式
# -*- coding: utf-8 -*- import scrapyclass DemoSpider(scrapy.Spider):name = 'demo'#allowed_domains = ['python123.io']start_urls = ['http://python123.io/ws/demo.html']def parse(self, response):fname = response.url.split('/')[-1]with open(fname,'wb') as f:f.write(response.body)self.log('Savad file %s.' % name)步驟4:運行爬蟲,獲取網頁
在命令行下,執行如下命令:
demo是/spiders/demo.py中的name變量的值
demo爬蟲被執行,捕獲頁面存儲在demo.html
完整的demo.py代碼
yield關鍵字的使用見
http://blog.csdn.net/co_zy/article/details/77191480
總結
以上是生活随笔為你收集整理的Python爬虫框架--Scrapy的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10安装scrapy
- 下一篇: Python--yield关键字的使用