Scrapy Spiders
生活随笔
收集整理的這篇文章主要介紹了
Scrapy Spiders
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Scrapy Spider
目錄
- Scrapy Spider
- 前言
- 一、如何運作
- 二、scrapy.Spider
- 屬性
- 方法
- 三、創建Spider
- 總結
前言
在scrapy中,spiders是定義如何抓取站點的類,里面包含了抓取的域名,已經如何抓取解析。是我們爬取數據時主要操作的文件。
一、如何運作
首先我們要知道他是如何運作的。
二、scrapy.Spider
所有spider的基類,所有其他spider都必須繼承它(包括自己編寫的蜘蛛)。
屬性
name:定義爬蟲的名稱,必須的。通常以網站名稱命名。例如baidu.com,我么可以定義為baiduallowed_domains:允許爬取的域名,是一個列表。例如:['baidu.com']start_urls:爬取的起始頁面custom_settings:一個字典。運行這個爬蟲時,需要覆蓋項目設置中的全局設置,也就是這個爬蟲會使用這里寫的設置,不會使用settings中默認的。此設置要在初始化前更新,所以必須定義成類變量。方法
start_requests():該方法只會調用一次。從start_urls中獲取url,并返回迭代器,生成請求。如果需要對其實url處理,例如需要post請求,可以進行重寫parse():默認start_requests()的回調函數。我們需要重寫里面的內容以完成我們的需求三、創建Spider
下面我們創建一個爬蟲文件
在命令行中:scrapy genspider baidu baidu.com
下面是生成的文件:
import scrapyclass BaiduSpider(scrapy.Spider):name = 'baidu'allowed_domains = ['baidu.com']start_urls = ['http://baidu.com/']def parse(self, response):"""編寫爬取邏輯"""pass我們可以發現這個爬蟲類就是繼承自scrapy.Spider。
總結
本節介紹了spider的一些基礎知識,我們要熟練掌握,畢竟日后我們寫項目時,我們創建新的spider文件,都是基于Spider這個基類的,爬取邏輯啥的都要寫在這里面
官方文檔:Spider
總結
以上是生活随笔為你收集整理的Scrapy Spiders的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 寂寞的电话
- 下一篇: c语言结构体投票系统,结构体之投票系统