爬虫爬出来的数据不全_Web Scraper教程(二)爬虫入门之当当畅销书爬取
你每年能讀幾本書?
2018年,我國人均數字閱讀量為12.4本;?
2019年,我國成年人均紙質圖書閱讀量為4.65本。
粗略計算,我國人均每年可以讀17本書,平均每月1.5本。按照從18歲成年到77歲的人均壽命計算,人的一生可以讀1020本書。
當當網上的圖書數量是多少?
經濟類:614873 本
管理類:1049148 本
歷史類:607259 本
小說類:1564887 本
可見時間有限,現代文明的成果想盡情享用還是心有余而力不足,反而應該珍惜花費時間和精力去讀的那1020本書。
在讀書這件事上,選書才是最重要的。
亞馬遜和當當的圖書排行榜、名人推薦的書單、豆瓣的書評等,都可以幫助我們先做好選書這關鍵的第一步。
本篇文章以當當網暢銷書榜為例,側重Web Scraper的入門,爬取的內容比較簡單,先掌握完整的爬蟲流程,能夠順利導出爬取的數據。復雜多變的內容爬取會在后面的教程中一一講解。
?01???爬取的榜單和內容?
進入當當暢銷書榜單,選擇近30天的暢銷書,默認展示前20本,我們就對這20本的「書名」進行采集。
榜單網址:
http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1
?02???爬蟲項目實戰?
第一步,調出Web Scraper界面?
點擊鼠標右鍵,找到「檢查元素」點擊進入,在選項卡上就可以找到「Web Scraper」了。
?第二步,創建名為「dangdang」的爬蟲項目?
在Creater new sitemap下點擊Creater sitemap,然后進行以下配置:
Sitemap name:dangdang
Start URL:填入文章上方的榜單網址
點擊Create Sitemap創建完成!
?第三步,配置爬取「書名」的選擇器?
Id:選擇器名稱,這里填寫「title」,表示要采集的是書的標題
Type:默認為Text,表示要采集的信息是文本格式
點擊Selector中的Select后,跳出一個條形對話框
點選第1個書名,發現書名底色變紅(表示被選中),然后點擊第2個書名,此時發現后面的第3個、第4個……書名均變為紅色
點擊條形對話框的Done selecting!
勾選Multiple,表示除了點選的第1個和第2個書名外,本頁后續底色變紅的書名也都需要采集
點擊Save Selector,「書名」的選擇器配置完成!
?第四步,執行爬蟲程序?
點擊Sitemap dangdang下拉列表中的Scrape,開始執行程序
出現的對話框中有兩項數字內容,默認值均為2000Request interval:表示「網頁請求發送間隔」,為了不被網站判定為機器進而阻止采集,需要模擬人的行為將動作放緩,通常按默認值即可Page load delay:表示「頁面加載時長」,如果頁面沒有完全加載就開始采集,會造成信息采集不全,特別是在網速不佳的時候,通常也按默認值,也可適當調整
點擊Start scraping開始采集,彈出一個采集窗口,注意采集過程中不要關閉此窗口,待采集完成后,窗口會自動關閉
窗口關閉后,點擊refresh,出現3列數據
「web-scraper-order」:程序自動編碼,不用理會
「web-scraper-start-url」:點擊書名跳轉的url,前面雖然只設置了采集書名的文本,但采集默認同時提供url,所以如果需要此項,不用再單獨設置
「title」:要采集的書名,注意,書名的順序并非是網頁上的順序
?第五步,導出數據至CSV文件?
Web Scraper免費版只提供CSV一種導出形式,導出后用Excel打開即可。- 點擊Sitemap dangdang下拉列表中的Export data as csv
- 點擊Download now!后出現了瀏覽器的下載對話框,打開或者保存即可
點擊Import Sitemap進入以下界面:Sitemap JSON:把Export Sitemap導出的代碼粘貼在此處Rename Sitemap:為Sitemap命名
點擊Import Sitemap后,同樣成功創建了Sitemap?04???數據采集只是數據分析的過程?每一分鐘,互聯網上都會有海量的數據產生,數據的價值并非是它本身,而是通過分析數據能獲得哪些有價值的信息。數據采集是一項不值得投入太多時間的工作(包括學習采集的時間和練習的時間),所以,只要學習了網頁常見情況的處理方法就可以,沒有必要為了學習采集而頻繁練習。遇到新的問題時,再到網上尋求解答,這樣會記得更牢。
總結
以上是生活随笔為你收集整理的爬虫爬出来的数据不全_Web Scraper教程(二)爬虫入门之当当畅销书爬取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2023年最新谷歌Google帐号Gma
- 下一篇: 【EXLIBRIS】#小词旮旯# 006