Scrapy中Spiders的用法
本文來自官方文檔
包括Spiders的簡介、一些參數(shù)的實例講解和一些例子。
Spiders
Spider類定義了如何爬取某個(或某些)網(wǎng)站。包括了爬取的動作(例如:是否跟進(jìn)鏈接)以及如何從網(wǎng)頁的內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)(爬取item)。 換句話說,Spider就是您定義爬取的動作及分析某個網(wǎng)頁(或者是有些網(wǎng)頁)的地方。
對spider來說,爬取的循環(huán)類似下文:
-
以初始的URL初始化Request,并設(shè)置回調(diào)函數(shù)。 當(dāng)該request下載完畢并返回時,將生成response,并作為參數(shù)傳給該回調(diào)函數(shù)。
spider中初始的request是通過調(diào)用 start_requests() 來獲取的。 start_requests() 讀取 start_urls 中的URL, 并以 parse 為回調(diào)函數(shù)生成 Request 。
-
在回調(diào)函數(shù)內(nèi)分析返回的(網(wǎng)頁)內(nèi)容,返回 Item 對象或者 Request 或者一個包括二者的可迭代容器。 返回的Request對象之后會經(jīng)過Scrapy處理,下載相應(yīng)的內(nèi)容,并調(diào)用設(shè)置的callback函數(shù)(函數(shù)可相同)。
-
在回調(diào)函數(shù)內(nèi),您可以使用 選擇器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 來分析網(wǎng)頁內(nèi)容,并根據(jù)分析的數(shù)據(jù)生成item。
-
最后,由spider返回的item將被存到數(shù)據(jù)庫(由某些 Item Pipeline 處理)或使用 Feed exports 存入到文件中。
雖然該循環(huán)對任何類型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認(rèn)spider。 之后將討論這些spider。
Spider參數(shù)
Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。 Spider并沒有提供什么特殊的功能。 其僅僅請求給定的 start_urls/start_requests ,并根據(jù)返回的結(jié)果(resulting responses)調(diào)用spider的 parse 方法。
name
定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化)spider,所以其必須是唯一的。 不過您可以生成多個相同的spider實例(instance),這沒有任何限制。 name是spider最重要的屬性,而且是必須的。
如果該spider爬取單個網(wǎng)站(single domain),一個常見的做法是以該網(wǎng)站(domain)(加或不加 后綴 )來命名spider。 例如,如果spider爬取 mywebsite.com ,該spider通常會被命名為 mywebsite 。
allowed_domains
這是一個可選屬性。包含了spider允許爬取的域名(domain)列表(list)。 當(dāng) OffsiteMiddleware 啟用時, 域名不在列表中的URL不會被跟進(jìn)。
比如之前的例子,如果yield生成的url不在allowed_domains的域名范圍內(nèi)則不會生效。
start_urls
URL列表。當(dāng)沒有制定特定的URL時,spider將從該列表中開始進(jìn)行爬取。 因此,第一個被獲取到的頁面的URL將是該列表之一。 后續(xù)的URL將會從獲取到的數(shù)據(jù)中提取。
custom_settings
運行此爬蟲時將從項目范圍配置中覆蓋setting里面的設(shè)置。必須將其定義為類屬性,因為在實例化之前更新了設(shè)置。
有關(guān)可用內(nèi)置設(shè)置的列表,請參閱: 內(nèi)置設(shè)定參考手冊。
下面舉例試驗一下:
先新建一個“知乎”爬蟲
可以在settings.py中看到DEFAULT_REQUEST_HEADERS屬性,我們先把它注釋掉。
注釋之后的爬蟲是沒有默認(rèn)請求頭的。
現(xiàn)在直接在命令行執(zhí)行
由于現(xiàn)在的請求沒有請求頭,對于知乎網(wǎng)站來說會返回400錯誤碼:
現(xiàn)在我們把注釋取消,重新運行爬蟲:
可以看到運行成功了(得到了200狀態(tài)碼)
現(xiàn)在我們在ZhihuSpider這個類中定義custom_settings屬性,看看是否能把settings覆蓋掉,這里以字典的形式來定義custom_settings,將settings里面的一個變量在這里作為一個鍵,并且將User-Agent設(shè)置為空:
重新運行,可以看到與第一次運行如出一轍,放回了400狀態(tài)碼,這說明我們的覆蓋生效了。
以上例子說明,當(dāng)執(zhí)行某個爬蟲時需要進(jìn)行特定的設(shè)置,可以在custom_settings屬性中進(jìn)行自定義,以此來覆蓋掉全局性的設(shè)置。
from_crawler(crawler, *args, **kwargs)
這是Scrapy用于創(chuàng)建爬蟲的類方法。
我們可能不需要直接覆蓋它,因為默認(rèn)實現(xiàn)充當(dāng)__init __()方法的代理,使用給定參數(shù)args和命名參數(shù)kwargs調(diào)用它。
盡管如此,此方法在新實例中設(shè)置了crawler和settings屬性,因此可以在spider的代碼中稍后訪問它們。我們經(jīng)常用它來獲得一些全局配置的實例。
start_requests()
該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取的第一個Request。
當(dāng)spider啟動爬取并且未制定URL時,該方法被調(diào)用。 當(dāng)指定了URL時,make_requests_from_url() 將被調(diào)用來創(chuàng)建Request對象。 該方法僅僅會被Scrapy調(diào)用一次,因此您可以將其實現(xiàn)為生成器。
該方法的默認(rèn)實現(xiàn)是使用 start_urls 的url生成Request。
如果您想要修改最初爬取某個網(wǎng)站的Request對象,您可以重寫(override)該方法。 例如,如果您需要在啟動時以POST登錄某個網(wǎng)站,你可以這么寫:
def start_requests(self):return [scrapy.FormRequest("http://www.example.com/login",formdata={'user': 'john', 'pass': 'secret'},callback=self.logged_in)]def logged_in(self, response):# here you would extract links to follow and return Requests for# each of them, with another callbackpass我們新建一個爬蟲(之前提到的常用的測試網(wǎng)站)來演示一下:
運行爬蟲,可以發(fā)現(xiàn)start_requests()方法通過 start_urls 的url生成了一個GET請求的對象。
我們在url后面加上post看看能否把請求方式改成post:
可以看到拋出了405錯誤代碼,因為start_requests()默認(rèn)是用GET方式請求的,所以要想用POST方式請求,就必須要改寫start_requests()方法:
這里將第一次請求的方法改為POST,并且將回調(diào)函數(shù)指定為一個打印出“hello 狀態(tài)碼”的方法,運行后可以看到成功實現(xiàn)了。
make_requests_from_url(url)
該方法接受一個URL并返回用于爬取的 Request 對象。 該方法在初始化request時被 start_requests() 調(diào)用,也被用于轉(zhuǎn)化url為request。
默認(rèn)未被復(fù)寫(overridden)的情況下,該方法返回的Request對象中, parse() 作為回調(diào)函數(shù),dont_filter參數(shù)也被設(shè)置為開啟。
下面依然舉例演示一下,新建一個爬蟲用于爬取百度首頁:
scrapy genspider baidu www.baidu.com修改:
運行后報錯:
不推薦使用Spider.make_requests_from_url方法; 它將不會在未來的Scrapy版本中調(diào)用。
好吧,那就忽略掉吧…
parse(response)
當(dāng)response沒有指定回調(diào)函數(shù)時,該方法是Scrapy處理下載的response的默認(rèn)方法。
parse 負(fù)責(zé)處理response并返回處理的數(shù)據(jù)以及(/或)跟進(jìn)的URL。 Spider 對其他的Request的回調(diào)函數(shù)也有相同的要求。
該方法及其他的Request回調(diào)函數(shù)必須返回一個包含 Request 及(或) Item 的可迭代的對象
log(message[, level, component])
使用 scrapy.log.msg() 方法記錄(log)message。 log中自動帶上該spider的 name 屬性。 此外可以自定義更多的數(shù)據(jù)被紀(jì)錄。
self.logger.info(response.status)Spider樣例
讓我們來看一個例子:
這個例子里, start_urls中定義了多個url。
再看看源碼中如何使用它們:
可以看到在start_requests函數(shù)中,遍歷了這個列表。
另一個在單個回調(diào)函數(shù)中返回多個Request以及Item的例子:
import scrapy from myproject.items import MyItemclass MySpider(scrapy.Spider):name = 'example.com'allowed_domains = ['example.com']start_urls = ['http://www.example.com/1.html','http://www.example.com/2.html','http://www.example.com/3.html',]def parse(self, response):sel = scrapy.Selector(response)for h3 in response.xpath('//h3').extract():yield MyItem(title=h3)for url in response.xpath('//a/@href').extract():yield scrapy.Request(url, callback=self.parse)更多信息請參考官方文檔
總結(jié)
以上是生活随笔為你收集整理的Scrapy中Spiders的用法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python-玩转数据-Scrapy中S
- 下一篇: 搜狗主动推送python脚本(自动登录免