當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Scrapy Spiders

發布時間：2023/12/16 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 Scrapy Spiders 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Scrapy Spider

前言

在scrapy中，spiders是定義如何抓取站點的類，里面包含了抓取的域名，已經如何抓取解析。是我們爬取數據時主要操作的文件。

一、如何運作

首先我們要知道他是如何運作的。

默認情況下，首先調用start_requests()獲取初始的URL，，并將返回的數據通過回調函數parse()處理。我們可以重寫star_requests,用我們自定義的方法進行處理。

回調函數通過選擇器解析網頁，解析結果可以分為兩類，一類是數據部分，另一類就是需要繼續爬取的url。所以可以返回item對象（進行后期處理儲存），或者request對象（再次提交請求，指定其他回調函數處理）

循環（2）直到完成所有請求，或者解析完所有數據

二、scrapy.Spider

所有spider的基類，所有其他spider都必須繼承它（包括自己編寫的蜘蛛）。

屬性

name:定義爬蟲的名稱，必須的。通常以網站名稱命名。例如baidu.com，我么可以定義為baiduallowed_domains:允許爬取的域名，是一個列表。例如：['baidu.com']start_urls:爬取的起始頁面custom_settings:一個字典。運行這個爬蟲時，需要覆蓋項目設置中的全局設置，也就是這個爬蟲會使用這里寫的設置，不會使用settings中默認的。此設置要在初始化前更新，所以必須定義成類變量。

方法

start_requests():該方法只會調用一次。從start_urls中獲取url，并返回迭代器，生成請求。如果需要對其實url處理，例如需要post請求，可以進行重寫parse():默認start_requests()的回調函數。我們需要重寫里面的內容以完成我們的需求

三、創建Spider

下面我們創建一個爬蟲文件
在命令行中：scrapy genspider baidu baidu.com

下面是生成的文件：

import scrapyclass BaiduSpider(scrapy.Spider):name = 'baidu'allowed_domains = ['baidu.com']start_urls = ['http://baidu.com/']def parse(self, response):"""編寫爬取邏輯"""pass

我們可以發現這個爬蟲類就是繼承自scrapy.Spider。

總結

本節介紹了spider的一些基礎知識，我們要熟練掌握，畢竟日后我們寫項目時，我們創建新的spider文件，都是基于Spider這個基類的，爬取邏輯啥的都要寫在這里面

官方文檔：Spider

總結

以上是生活随笔為你收集整理的Scrapy Spiders的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：寂寞的电话
下一篇： c语言结构体投票系统,结构体之投票系统

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

生活随笔