python3抓取图片_通过Python3 爬虫抓取漫画图片
引言:
最近閑來無事所以想著學習下python3,看了好長時間的文檔,于是用python3寫了一個漫畫抓取的程序,好了 廢話不多說上碼!
第一步:
準備環境 和類庫,我用的是python3.5? ? ? 禁用 python2.x !?禁用 python2.x !??禁用 python2.x !
用到的類庫:requests??lxml? bs4??fake_useragent? ? ?pymysql
這里你 pip? 安裝也好或者用pycharm
pycharm 引包位置
第二步:找漫畫網站
先說好本教程僅供學習交流禁止用于商務用途和其他用途
我選了一家相對還不錯的漫畫網站,各位小伙伴沒事可以去看看
傳送門:?https://www.mkzhan.com
第三步: 開始編程了 準備好小伙伴
好了先導包
然后那編輯幾個需要用到的方法
先做一個請求網頁的方法
在這里headers 需要配置一個user-agent,否則很容易就會被對方服務器發現你是爬蟲那
然后創建一個圖片檢測方法,畢竟圖片損壞了你下載下來也沒用
先抓詳情 來分析下頁面結構
嗯 這是我找出一些有用的信息 ,不過今天我們只用到標題 封面 和章節,然后哪章節列表舉栗子,先上碼
分析下li 特性 class 里都有一個參數 j-chapter-item 那好 find_all 把符合規則的拿出來
然后根據標題創建文件夾,同時根據封面的頁面規則 抓到封面的img 放到之前寫好的 get_img 方法里檢測下,然后open 下載下來
剛剛抓好的章節列表遍歷下,畢竟我們要把每章節的每張有用圖片下載下來
新建一個章節的抓取方法
這里要把章節里的圖片抓取出來
按照上面分析下html結構,根據規則做相應的抓取 并將圖片下載到相應的位置
結果:
好了大功告成,代碼雖然很比較low 但畢竟一個初級學員 大神勿噴
相對于想開始嘗試做一下python抓取的同學很合適哦
不多說上源碼 github:傳送門
總結
以上是生活随笔為你收集整理的python3抓取图片_通过Python3 爬虫抓取漫画图片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浮动利率与固定利率的根本区别
- 下一篇: 汇率中间价是什么意思