python3 scrapy中文文档_Scrapy官方文档笔记
1.創(chuàng)建Scrapy項(xiàng)目
首先用cmd命令行去操作,輸入
scrapy startproject 項(xiàng)目名
#這里輸入的項(xiàng)目名,就是在你輸入的目錄它會(huì)建立一個(gè)新的文件夾,這個(gè)文件夾里面還是同樣名字的一個(gè)文件夾,項(xiàng)目新建的時(shí)候其實(shí)里面只有一個(gè),后來的.idea是被pycharm打開之后pycharm生成的。
那這一步其實(shí)也就是決定了文件夾名字,以及在命令欄中決定根目錄。
2.然后用pycharm打開這個(gè)項(xiàng)目,從根目錄打開,在spiders里面新建一個(gè)python文件,從這里開始。
3.import scrapy
class mingyan(scrapy.Spider): # 需要繼承scrapy.Spider類,類名隨意后面不用
name = "Scrapy_test" # 定義蜘蛛名,這個(gè)重要,根據(jù)這個(gè)啟動(dòng)的,在這里面寫清楚用來爬什么的
def start_requests(self): # 由此方法通過下面鏈接爬取頁面
# 定義爬取的鏈接
urls = [
'http://lab.scrapyd.cn/page/1/',
'http://lab.scrapyd.cn/page/2/',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse) # 爬取到的頁面如何處理?提交給parse方法處理
def parse(self, response):
'''
start_requests已經(jīng)爬取到頁面,那如何提取我們想要的內(nèi)容呢?那就可以在這個(gè)方法里面定義。
這里的話,并木有定義,只是簡(jiǎn)單的把頁面做了一個(gè)保存,并沒有涉及提取我們想要的數(shù)據(jù),后面會(huì)慢慢說到
也就是用xpath、正則、或是css進(jìn)行相應(yīng)提取,這個(gè)例子就是讓你看看scrapy運(yùn)行的流程:
1、定義鏈接;
2、通過鏈接爬取(下載)頁面;
3、定義規(guī)則,然后提取數(shù)據(jù);
就是這么個(gè)流程,似不似很簡(jiǎn)單呀?
'''
page = response.url.split("/")[-2] # 根據(jù)上面的鏈接提取分頁,如:/page/1/,提取到的就是:1
filename = 'mingyan-%s.html' % page # 拼接文件名,如果是第一頁,最終文件名便是:mingyan-1.html
with open(filename, 'wb') as f: # python文件操作,不多說了;
f.write(response.body) # 剛才下載的頁面去哪里了?response.body就代表了剛才下載的頁面!
self.log('保存文件: %s' % filename) # 打個(gè)日志
總結(jié)
以上是生活随笔為你收集整理的python3 scrapy中文文档_Scrapy官方文档笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不孕不育怎么调理
- 下一篇: 我是k歌之王是哪首歌啊?