當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

使用scrapy框架爬取斗鱼图片

發布時間：2023/12/8 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了使用scrapy框架爬取斗鱼图片小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用scrapy框架爬取斗魚圖片

首先我們先認識一下框架

scrapy—Scrapy是Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛，可以用于數據挖掘、監測和自動化測試。
Scrapy吸引人的地方在于它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類，如BaseSpider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支持。

1、首先第一步先進行框架的安裝操作

利用python的pip進行安裝scrapy
這里如果直接pip3 install scrapy可能會出錯。所以你可以先安裝lxml：pip3 install lxml(已安裝請忽略)。安裝pyOpenSSL：在官網下載wheel文件。安裝Twisted：在官網下載wheel文件。安裝PyWin32：在官網下載wheel文件。下載地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/配置環境變量：將scrapy所在目錄添加到系統環境變量即可。ctrl+f搜索即可。最后安裝scrapy，pip3 install scrapy

2、安裝成功后，再進行創建框架

利用該命令scrapy startproject douyuSpider ,創建項目成功后在進行，進入douyuSpider 目錄，使用命令創建一個基礎爬蟲類：# douyuspider 為爬蟲名，douyu.com為爬蟲作用范圍
scrapy genspider tencentPostion “douyu.com” 創建成功后在查看一下目錄結構

3、json數據

之后在進行抓包、、這是抓包的 API，可以直接使用http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=200&offset=1，這個是顏值的json數據，可以直接進行提取使用。

這就是json數據，

4、下面進行代碼展示，

5 、這個是爬蟲類

進行數據的提取
item：這個是接收的字段，主要是主播的昵稱和圖片的鏈接，主播名稱用為文件的名字，圖片的鏈接用于下載

6、Pipeline：管道文件用于下載圖片的文件和進行保存，文件名利用字符串的拼接把昵稱保存為文件名

下載文件需要把管道類的參數盡心更改為ImagesPipeline

7、settings：這是框架的配置文件

首先進行寫入文件的保存位置
然后進行模擬請求頭，防止本機的ip進行攔截或者被封，這是最基本的防爬機制

然后開啟管道，也可以配置其優先級，

，然后這樣就結束了。。。。祝你天天愉快！~~~~

總結

以上是生活随笔為你收集整理的使用scrapy框架爬取斗鱼图片的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：嵌入式Web项目（一）——Web服务器的
下一篇：逆向学习litevm篇