爬虫小工具合集|不会编程也能爬数据
當前的主流爬蟲手段是用Python編程,Python的強大毋庸置疑,但初學者學習Python還是需要一兩個月時間的。有沒有一些更簡單的爬取數據方法呢?答案是有的,DataCastle為你準備了如下小工具,對于每個小工具你只需要花十幾分鐘時間,跟著我的步驟走一遍就可以掌握它啦~
一、Microsoft Excel???
首先教大家一個用Excel爬取數據的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學~
(1)新建Excel,打開它,如下圖所示
(2)點擊“數據”——“自網站”
(3)在彈出的對話框中輸入目標網址,這里以全國實時空氣質量網站(http://www.pm25.in/rank)為例,點擊轉到,再導入
選擇導入位置,確定
(4)結果如下圖所示,怎么樣,是不是很贊?
(5)如果要實時更新數據,可以在“數據”——“全部更新”——“連接屬性”中進行設置,輸入更新頻率即可
二、Google Sheet
使用Google Sheet爬取數據前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦已翻墻。如果這三個條件具備了的話,下面我們就開始吧~
(1)打開Google Sheet網站:http://www.google.cn/sheets/about/
(2)在首頁上點擊“轉到Google表格”,然后登錄自己的賬號,可以看到如下界面,再點擊“+”創建新的表格
新建的表格如下:
(3)打開要爬取的目標網站,一個全國實時空氣質量網站http://www.pm25.in/rank,目標網站上的表格結構如下圖所示
(4)回到Google sheet頁面,使用函數=IMPORTHTML(網址, 查詢, 索引),“網址”就是要爬取數據的目標網站,“查詢”中輸入“list”或“table”,這個取決于數據的具體結構類型,“索引”填阿拉伯數字,從1開始,對應著網站中定義的哪一份表格或列表
對于我們要爬取的網站,我們在Google sheet的A1單元格中輸入函數=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數據啦
(5)將爬取好的表格存到本地
是不是感覺超級簡單?
三、you-get
這是一個程序員基于python 3開發的項目,已經在github上面開源,支持64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方,即使是名單上沒有的網站,當你輸入鏈接,程序也會猜測你想要下載什么,然后幫你下載。當然you-get要在python3環境下進行安裝,用pip安裝好后,在終端輸入“you get+你想下載資源的鏈接”就可以等著收藏資源了。
這里給一個you-get的中文使用說明(http://dwz.cn/4rb53l),按照說明上寫的按步驟操作就可以啦。
如果你想學更高端的Python爬蟲,DataCastle為你準備了一套高效的學習路徑。
如何在短時間內入門爬蟲,并獲得爬取大量數據的能力?
DataCastle學院課程《Python爬蟲(入門+進階)》從具體的案例著手,通過實際操作,學習具體的知識點。
課程中工程化爬蟲及分布式爬蟲技術,讓你有獲取大規模數據的可能。此外,你還將了解數據庫(Mongodb)、pandas的基本知識,幫你儲存爬取的數據,同時可以對數據進行管理和清洗,便于后續分析處理。
來源:DataCastle數據城堡
近期精彩活動(直接點擊查看):
福利 · 閱讀 | 免費申請讀大數據新書 第21期
投稿和反饋請發郵件至hzzy@hzbook.com。轉載大數據公眾號文章,請向原文作者申請授權,否則產生的任何版權糾紛與大數據無關。
大數據
為大家提供與大數據相關的最新技術和資訊。
近期精彩文章(直接點擊查看):
華為內部狂轉好文,大數據,看這一篇就夠了!
讀完這100篇論文,你也是大數據高手!
如何建立數據分析的思維框架
百度內部培訓資料PPT:數據分析的道與術
論大數據的十大局限
打包帶走!史上最全的大數據分析和制作工具
數據揭秘:中國姓氏排行榜
程序猿分析了42萬字歌詞后,終于搞清楚民謠歌手唱什么了
計算機告訴你,唐朝詩人之間的關系到底是什么樣的?
數據分析:微信紅包金額分配的秘密
2000萬人口的大北京,上下班原來是這樣的(附超炫蝌蚪圖)
大數據等IT職業技能圖譜【全套17張,第2版】
不要跟賭場說謊,它真的比你老婆還了解你
如果看了這篇文章你還不懂傅里葉變換,那就過來掐死我吧
不做無效的營銷,從不做無效的用戶畫像開始
更多精彩文章,請在公眾號后臺點擊“歷史文章”查看,謝謝。
總結
以上是生活随笔為你收集整理的爬虫小工具合集|不会编程也能爬数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux下SD卡烧录程序
- 下一篇: 支付宝用大数据憋死伪基站骗子