Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示
生活随笔
收集整理的這篇文章主要介紹了
Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
我們以 fox新聞 網(wǎng)的文章來舉例子,把整篇文章爬取出來。
首先是標題,通過結構可以看出來 class 為 article-header 的節(jié)點下的 h1 里的內(nèi)容即是標題,通過 string 可以獲取 dom 節(jié)點里的文本內(nèi)容。
# 獲取文章標題 alert_header = soup.find('header', class_="article-header").find('h1') print(alert_header.string)
然后是正文,通過結構可以看出來 class 為 article-body 的節(jié)點下的 p 元素組成了正文內(nèi)容,通過 contents 可以獲取 body 下所有的節(jié)點。再遍歷所有的節(jié)點,把所有 p 元素的下的內(nèi)容打印出來。
運行效果圖:
如果中間夾雜了廣告,可以看看文章正文跟廣告在結構上有什么區(qū)別,然后進一步把廣告剔除。
喜歡的點個贊?吧!
總結
以上是生活随笔為你收集整理的Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python 库安装方法:pip安装ta
- 下一篇: Windows 技术篇-cmd强制关闭端