零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】
本套課程正式進(jìn)入Python爬蟲階段,具體章節(jié)根據(jù)實際發(fā)布決定,可點擊【python爬蟲】分類專欄進(jìn)行倒序觀看:
【重點提示:請勿爬取有害他人或國家利益的內(nèi)容,此課程雖可爬取互聯(lián)網(wǎng)任意內(nèi)容,但無任何收益,只為大家學(xué)習(xí)分享。】
開發(fā)環(huán)境:【W(wǎng)in10】
開發(fā)工具:【Visual Studio 2019】
Python版本:【3.7】
1、scrapy框架介紹·【由于“廠子”里基本都用這個所以咱們就講這個】。
Scrapy:Python的爬蟲框架
Scrapy是一個使用Python編寫的,輕量級的,簡單輕巧,并且使用起來非常的方便。
Scrapy框架主要由5大組件組成,它們分別是:
調(diào)度器:抓取網(wǎng)頁的網(wǎng)址(鏈接)的優(yōu)先隊列
下載器:抓取網(wǎng)頁的網(wǎng)址(鏈接)的優(yōu)先隊列
爬蟲:用于從特定的網(wǎng)頁中提取自己需要的信息
實體管道:用于處理爬蟲提取的實體
Scrapy引擎:用來控制調(diào)試器、下載器和爬蟲
注:這根本不是個單詞啊.scrape的音標(biāo)是:[skre?p],scrapy最后的字母y應(yīng)該發(fā)i還是ai?既然是python框架,是不是應(yīng)該發(fā)ai?
所以。。。。個人趨向于讀:【思科rai皮】
2、scrapy框架安裝·【2021年2月14日當(dāng)前最新版本:2.4.1】
3、scrapy框架使用·創(chuàng)建【scrapy】項目:
環(huán)境變量設(shè)置1、添加變量:
環(huán)境變量設(shè)置2、添加變量到【Path】中【%PY_S%】:
測試是否成功:在任何地方都可以使用【scrapy命令】
項目創(chuàng)建:我的測試地址【E:\save\study\python\T2】
通過vs打開項目:
后續(xù)有步驟就點完成即可,如果報錯就點確定關(guān)閉就行了,項目已經(jīng)創(chuàng)建完畢哦。
4、項目測試:
功能簡介:
爬蟲項目的工程目錄及各個組成的作用:
scrapy.cfg:項目配置文件。
settings.py:項目設(shè)置文件。
pipelines.py:項目管道文件,主要用于對Items定義的數(shù)據(jù)進(jìn)行加工與處理。
middlewares.py:項目的中間件文件。
items.py:項目的數(shù)據(jù)容器文件,用于定義獲取的數(shù)據(jù)。
__init__.py:初始化文件。
spiders目錄:爬蟲目錄,例如,創(chuàng)建文件、編寫爬蟲解析規(guī)則等
4.1、創(chuàng)建爬蟲文件:【book_scrapy.py】
4.2、編寫爬蟲文件:
import scrapy import json from scrapy.selector import Selectorclass book_scrapy(scrapy.Spider):#用于區(qū)別Spidername = "book_scrapy"#允許訪問的域allowed_domains = ["book.zongheng.com"]#爬取的地址start_urls = ["http://book.zongheng.com/showchapter/1013348.html"]#爬取方法def parse(self, response):html=response.textsel=Selector(text=html)list1=sel.css("ul:nth-child(2) a::attr(href)").extract()list2=sel.css("ul:nth-child(2) a::text").extract()file=open("save.txt","w+",encoding='utf-8')item=[]for x in range(len(list1)):item.append({"title":list2[x],"url":list1[x]})print(str(item))file.write(str(item))file.close()4.3、測試是否成功
輸入執(zhí)行命令:【scrapy crawl book_scrapy --nolog】
?打印效果:
存儲效果:?
?
5、總結(jié):
a)、從這篇文章里可以看到一些新的東西了,例如:json、css選擇器,這些知識點會在后面的課程里單獨講解。
歡迎【點贊】、【評論】、【關(guān)注】、【收藏】、【打賞】,為推廣知識貢獻(xiàn)力量。
總結(jié)
以上是生活随笔為你收集整理的零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 零基础学Python-爬虫-1、网络请求
- 下一篇: 零基础学Python-爬虫-3、利用CS