當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

python3 scrapy中文文档_Scrapy官方文档笔记

發(fā)布時(shí)間：2023/11/27 生活经验 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python3 scrapy中文文档_Scrapy官方文档笔记小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.創(chuàng)建Scrapy項(xiàng)目

首先用cmd命令行去操作，輸入

scrapy startproject 項(xiàng)目名

#這里輸入的項(xiàng)目名，就是在你輸入的目錄它會(huì)建立一個(gè)新的文件夾，這個(gè)文件夾里面還是同樣名字的一個(gè)文件夾，項(xiàng)目新建的時(shí)候其實(shí)里面只有一個(gè)，后來的.idea是被pycharm打開之后pycharm生成的。

那這一步其實(shí)也就是決定了文件夾名字，以及在命令欄中決定根目錄。

2.然后用pycharm打開這個(gè)項(xiàng)目，從根目錄打開，在spiders里面新建一個(gè)python文件，從這里開始。

3.import scrapy

class mingyan(scrapy.Spider): # 需要繼承scrapy.Spider類，類名隨意后面不用

name = "Scrapy_test" # 定義蜘蛛名，這個(gè)重要，根據(jù)這個(gè)啟動(dòng)的，在這里面寫清楚用來爬什么的

def start_requests(self): # 由此方法通過下面鏈接爬取頁面

# 定義爬取的鏈接

urls = [

'http://lab.scrapyd.cn/page/1/',

'http://lab.scrapyd.cn/page/2/',

]

for url in urls:

yield scrapy.Request(url=url, callback=self.parse) # 爬取到的頁面如何處理？提交給parse方法處理

def parse(self, response):

'''

start_requests已經(jīng)爬取到頁面，那如何提取我們想要的內(nèi)容呢？那就可以在這個(gè)方法里面定義。

這里的話，并木有定義，只是簡(jiǎn)單的把頁面做了一個(gè)保存，并沒有涉及提取我們想要的數(shù)據(jù)，后面會(huì)慢慢說到

也就是用xpath、正則、或是css進(jìn)行相應(yīng)提取，這個(gè)例子就是讓你看看scrapy運(yùn)行的流程：

1、定義鏈接；

2、通過鏈接爬取(下載)頁面；

3、定義規(guī)則，然后提取數(shù)據(jù)；

就是這么個(gè)流程，似不似很簡(jiǎn)單呀？

'''

page = response.url.split("/")[-2] # 根據(jù)上面的鏈接提取分頁,如：/page/1/，提取到的就是：1

filename = 'mingyan-%s.html' % page # 拼接文件名，如果是第一頁，最終文件名便是：mingyan-1.html

with open(filename, 'wb') as f: # python文件操作，不多說了；

f.write(response.body) # 剛才下載的頁面去哪里了？response.body就代表了剛才下載的頁面！

self.log('保存文件: %s' % filename) # 打個(gè)日志

以上是生活随笔為你收集整理的python3 scrapy中文文档_Scrapy官方文档笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。