从零开始的爬虫学习(二)爬取动漫之家的漫画
上篇講了如何爬取一張圖片,這里就爬取 大媽之家 的一部漫畫吧!
 可以通過修改目標地址,爬取任意一部 大媽之家 的一部漫畫!
 本篇內容
 “”"
 1、抓取西刺代理網站的代理ip
 2、并根據指定的目標url,對抓取到ip的有效性進行驗證
 3、最后存到指定的path
 4、隨機提取代理ip
 5、爬取目標網站的漫畫,存放在D:\getting
 “”"
為了保證爬取工作的正常進行,我們有必要建設屬于自己的ip池。在被目標網站封鎖ip的情況下,讓爬取工作順利進行。
 這了介紹的代理ip網站是 http://www.xicidaili.com/
 通過爬取它提供的代理ip,建立自己的IP池。
 并調取代理IP對目標網站進行訪問。
提幾個爬取中遇到的問題:(感謝正義的反派人士提供了解決方法)
 1.大媽之家在每一話的一頁中都包含了同一話的所以圖片,可以通過運行頁面信息附帶js代碼獲得,可以將回復打印出來看到 eval 之后包含了js代碼。也可單頁訪問,但要注意訪問時,會自動跳轉到新的頁面。
 2.如果爬取的圖大小恒定,例如 256 168 ,且損壞不能打開,要注意目標網站的反爬蟲措施,大媽之家 的方法是 檢查了跳轉來到當前網站的上次所在地址,根據正義的反派人士的方法已經解決。值得注意的是,部分網站采用的預先加載一副等待圖片后,再跳轉帶目標網站,這類需要對跳轉代碼進行分析處理。
直接上圖
 
 
 源代碼就不貼出來了,正義的反派人士已經介紹得非常詳細了,如有需要源代碼請訪問我的博客主頁。
 一些反爬蟲的方法,在博客中有介紹。
 最后推薦 漫畫 黑社會的超能力女兒
下一篇就去爬取一些網站用戶信息,代碼不開源。
總結
以上是生活随笔為你收集整理的从零开始的爬虫学习(二)爬取动漫之家的漫画的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 创利树智慧门店是如何解决,线下实体门店三
- 下一篇: 做好外汇资金管理 高效的发挥资金的作用
