使用scrapy框架爬取斗鱼图片
使用scrapy框架爬取斗魚圖片
首先我們先認識一下框架
scrapy—Scrapy是Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。
 Scrapy吸引人的地方在于它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。
1、首先第一步先進行框架的安裝操作
利用python的pip進行安裝scrapy
 這里如果直接pip3 install scrapy可能會出錯。所以你可以先安裝lxml:pip3 install lxml(已安裝請忽略)。安裝pyOpenSSL:在官網下載wheel文件。安裝Twisted:在官網下載wheel文件。安裝PyWin32:在官網下載wheel文件。下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/配置環境變量:將scrapy所在目錄添加到系統環境變量即可。ctrl+f搜索即可。最后安裝scrapy,pip3 install scrapy
2、安裝成功后,再進行創建框架
利用該命令scrapy startproject douyuSpider ,創建項目成功后在進行,進入douyuSpider 目錄,使用命令創建一個基礎爬蟲類:# douyuspider 為爬蟲名,douyu.com為爬蟲作用范圍
 scrapy genspider tencentPostion “douyu.com” 創建成功后在查看一下目錄結構 
3、json數據
之后在進行抓包 、、這是抓包的 API,可以直接使用http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=200&offset=1,這個是顏值的json數據,可以直接進行提取使用。
 
 這就是json數據,
4、下面進行代碼展示,
5 、這個是爬蟲類
進行數據的提取
 item: 這個是接收的字段,主要是主播的昵稱和圖片的鏈接 ,主播名稱用為文件的名字,圖片的鏈接用于下載
6、Pipeline:管道文件用于下載圖片的文件和進行保存,文件名利用字符串的拼接把昵稱保存為文件名
下載文件需要把管道類的參數盡心更改為ImagesPipeline
7、settings:這是框架的配置文件
首先進行寫入文件的保存位置
 然后進行模擬請求頭,防止本機的ip進行攔截或者被封,這是最基本的防爬機制
然后開啟管道 ,也可以配置其優先級,
,然后這樣就結束了。。。。祝你天天愉快!~~~~
總結
以上是生活随笔為你收集整理的使用scrapy框架爬取斗鱼图片的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 嵌入式Web项目(一)——Web服务器的
- 下一篇: 逆向学习litevm篇
