9个用来爬取网络站点的 Python 库
上期入口:10個不到500行代碼的超牛Python練手項目
1??Scrapy
一個開源和協作框架,用于從網站中提取所需的數據。 以快速,簡單,可擴展的方式。
官網:https://scrapy.org/
相關課程推薦:Python 網站信息爬蟲
2??cola
一個分布式爬蟲框架。
GitHub https://github.com/chineking/cola
3??Demiurge
基于 PyQuery 的爬蟲微型框架。
官網https://demiurge.readthedocs.io/en/v0.2/
4??feedparser
通用 feed 解析器。
官網https://pythonhosted.org/feedparser/
5??Grab
Grab 是一個用于構建 Web scraper 的 python 框架。 使用 Grab,您可以構建各種復雜性的 Web scraper,從簡單的5行腳本到處理數百萬個 Web 頁面的復雜異步網站爬蟲。 Grab 提供用于執行網絡請求和處理所接收內容的 API。 與 HTML 文檔的 DOM 樹交互。
官網:https://grablib.org/en/latest/
6??MechanicalSoup
用于自動和網絡站點交互的 Python 庫。
GitHubhttps://github.com/MechanicalSoup/MechanicalSoup
7??portia
Scrapy 可視化爬取。允許你在不需要任何編程知識的情況下直觀地抓取網站。 使用 Portia 可以注釋一個網頁以識別您想要提取的數據,Portia 將根據這些注釋了解如何從類似頁面中抓取數據。
GitHubhttps://github.com/scrapinghub/portia
8??pyspider
一個強大的爬蟲系統。
官網http://docs.pyspider.org/
9??RoboBrowser
一個簡單的,Python 風格的庫,用來瀏覽網站,而不需要一個獨立安裝的瀏覽器。
官網https://scrapy.org/
【關于技術清單】技術清單是由實驗樓整合、梳理的一系列知識點合輯;每輯都有MD,PDF和思維導圖多樣呈現,并提供下載。本期為Python系列,包含5篇精選清單,下載方式如下:
相關閱讀
8個爽滑的Windows小軟件,不好用你拿王思蔥砸死我
60人,42天,死磕機器學習,結果如下。
武俠版編程語言…Java像張無忌還是令狐沖?
大量機器學習&深度學習資料
技術變現,到底怎么變?
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的9个用来爬取网络站点的 Python 库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大牛推荐的30本经典编程书籍,从Pyth
- 下一篇: 一份以太坊入门完全指南(非程序员免进)。