當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】

發(fā)布時間：2024/8/26 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本套課程正式進(jìn)入Python爬蟲階段，具體章節(jié)根據(jù)實際發(fā)布決定，可點擊【python爬蟲】分類專欄進(jìn)行倒序觀看：

【重點提示：請勿爬取有害他人或國家利益的內(nèi)容，此課程雖可爬取互聯(lián)網(wǎng)任意內(nèi)容，但無任何收益，只為大家學(xué)習(xí)分享。】

開發(fā)環(huán)境：【W(wǎng)in10】

開發(fā)工具：【Visual Studio 2019】

Python版本：【3.7】

1、scrapy框架介紹·【由于“廠子”里基本都用這個所以咱們就講這個】。

Scrapy：Python的爬蟲框架

Scrapy是一個使用Python編寫的，輕量級的，簡單輕巧，并且使用起來非常的方便。

Scrapy框架主要由5大組件組成，它們分別是：

調(diào)度器：抓取網(wǎng)頁的網(wǎng)址（鏈接）的優(yōu)先隊列

下載器：抓取網(wǎng)頁的網(wǎng)址（鏈接）的優(yōu)先隊列

爬蟲：用于從特定的網(wǎng)頁中提取自己需要的信息

實體管道：用于處理爬蟲提取的實體

Scrapy引擎：用來控制調(diào)試器、下載器和爬蟲

注：這根本不是個單詞啊.scrape的音標(biāo)是:[skre?p],scrapy最后的字母y應(yīng)該發(fā)i還是ai?既然是python框架,是不是應(yīng)該發(fā)ai?

所以。。。。個人趨向于讀：【思科rai皮】

2、scrapy框架安裝·【2021年2月14日當(dāng)前最新版本：2.4.1】

3、scrapy框架使用·創(chuàng)建【scrapy】項目：

環(huán)境變量設(shè)置1、添加變量：

環(huán)境變量設(shè)置2、添加變量到【Path】中【%PY_S%】：

測試是否成功：在任何地方都可以使用【scrapy命令】

項目創(chuàng)建：我的測試地址【E:\save\study\python\T2】

通過vs打開項目：

后續(xù)有步驟就點完成即可，如果報錯就點確定關(guān)閉就行了，項目已經(jīng)創(chuàng)建完畢哦。

4、項目測試：

功能簡介：

爬蟲項目的工程目錄及各個組成的作用：

scrapy.cfg：項目配置文件。

settings.py：項目設(shè)置文件。

pipelines.py：項目管道文件，主要用于對Items定義的數(shù)據(jù)進(jìn)行加工與處理。

middlewares.py：項目的中間件文件。

items.py：項目的數(shù)據(jù)容器文件，用于定義獲取的數(shù)據(jù)。

__init__.py：初始化文件。

spiders目錄：爬蟲目錄，例如，創(chuàng)建文件、編寫爬蟲解析規(guī)則等

4.1、創(chuàng)建爬蟲文件：【book_scrapy.py】

4.2、編寫爬蟲文件：

import scrapy import json from scrapy.selector import Selectorclass book_scrapy(scrapy.Spider):#用于區(qū)別Spidername = "book_scrapy"#允許訪問的域allowed_domains = ["book.zongheng.com"]#爬取的地址start_urls = ["http://book.zongheng.com/showchapter/1013348.html"]#爬取方法def parse(self, response):html=response.textsel=Selector(text=html)list1=sel.css("ul:nth-child(2) a::attr(href)").extract()list2=sel.css("ul:nth-child(2) a::text").extract()file=open("save.txt","w+",encoding='utf-8')item=[]for x in range(len(list1)):item.append({"title":list2[x],"url":list1[x]})print(str(item))file.write(str(item))file.close()

4.3、測試是否成功

輸入執(zhí)行命令：【scrapy crawl book_scrapy --nolog】

?打印效果：

存儲效果：?

5、總結(jié)：

a）、從這篇文章里可以看到一些新的東西了，例如：json、css選擇器，這些知識點會在后面的課程里單獨講解。

歡迎【點贊】、【評論】、【關(guān)注】、【收藏】、【打賞】，為推廣知識貢獻(xiàn)力量。

總結(jié)

以上是生活随笔為你收集整理的零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：零基础学Python-爬虫-1、网络请求
下一篇：零基础学Python-爬虫-3、利用CS