Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
生活随笔
收集整理的這篇文章主要介紹了
Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 項目說明
- Scrapy框架
- 網頁分析
- 爬蟲代碼
- items
- spiders
- pipelines
- main
- 爬取結果
- PowerBI分析
- 分析結果
項目說明
近期在學習Python爬蟲,看了很多大佬的項目,厲害又有趣!五一在家把《我們的時代》看完了,在豆瓣上評分后,隨便逛了逛,簡單瀏覽了一下Top250的書單。突然想到可以把這些數據爬到本地,后期通過腳本,隔一段時間就自動爬一下,看下有無新書上榜,對愛看書又數據控的人來說還蠻實用的哈哈。
網上搜了一下,爬豆瓣網的案例還挺多的,這里我試著用scrapy框架來爬豆瓣圖書Top250的相關數據,再導入PowerBI分析數據,后續做到自動爬數據,一鍵更新分析結果。
豆瓣TOP250圖書分析
該網址的數據會不定期更新,感興趣的同學可以收藏~~~
Scrapy框架
網頁分析
瀏覽網站,確定要爬取的數據
爬蟲代碼
打開Anaconda Prompt,創建scrapy項目scrapy startproject doubanBook
進入項目路徑,打開doubanBook文件夾
items
spiders
pipelines
main
爬取結果
PowerBI分析
- 出版信息列包含了很多信息,直接用power query清洗整理
- 評分人數、評分兩列也需稍微處理一下
分析結果
說幾點有趣的發現,時間截至2020.5(大家也可以隨便點點,說不定就能邂逅一本好書呢~)
- Top250的圖書中86.4%是在1996年——2015年中出版,其中上榜數最多的年份是2006,有22本書。
- 三毛/7本、金庸/6本、王小波/5本、魯迅/5本分別是上榜作品數最多的四位作家
- 2018-2020年出版的新書中,僅有三部上榜:《房思琪的初戀樂園》、《失蹤的孩子》和《你當像鳥飛往你的山》
- 哥倫比亞以三部小說斬獲了平均評分人數最多的國家,以色列僅憑借一部《人類簡史》也排在了第四。
- 我們平時在選書選版本時,可以優先關注人民文學、上海譯文、三聯、南海、譯林這幾家出版社
- 以書上的定價作為參考,考慮網購折扣,假設所有圖書都是8折,那么我們只需花費約8000元就可以把豆瓣Top250的所有圖書(人類最寶貴的財富)帶回家了哈哈哈
總結
以上是生活随笔為你收集整理的Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 连夜干出来一个自动处理【微信消费者投诉管
- 下一篇: react(taro)实现数字翻动(滚动