5行Python提取海量新闻网站内容
生活随笔
收集整理的這篇文章主要介紹了
5行Python提取海量新闻网站内容
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
1、安裝模塊
2、提取網頁內容
本篇博客又雙叒叕為各位分享一個Python庫:GeneralNewsExtractor(GNE),其是一個通用新聞網站正文抽取模塊,輸入一篇新聞網頁的 HTML, 輸出正文內容、標題、作者、發布時間、正文中的圖片地址和正文所在的標簽源代碼。GNE在提取今日頭條、網易新聞、游民星空、 觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百個中文新聞網站上效果非常出色,幾乎能夠達到100%的準確率。
需要明白:GeneralNewsExtractor(GNE)不是 爬蟲 ,是為了規避不必要的風險,因此,本項目的輸入是 HTML源代碼,輸出是一個字典,請自行使用恰當的方法獲取目標網站的 HTML。
總結
以上是生活随笔為你收集整理的5行Python提取海量新闻网站内容的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 物联网设备天线设计与选型指南
- 下一篇: Python+OpenCV图像处理实验