python3与Beautiful Soup库
生活随笔
收集整理的這篇文章主要介紹了
python3与Beautiful Soup库
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
BeautifulSoup庫主要用于處理HTML和XML格式的文件,常用于網絡爬蟲。
但是BeautifulSoup庫的3版本已不再更新,所以現在主要來說下4版本及之后的版本。
首先是安裝:
安裝文件在這里:
使用pip 安裝4版本時要注意應該用
然后就是庫的引用格式的改變:
3版本:
4版本:
import bs4 # To get everything在使用時也有一些差別。具體可參照這里,要注意的是這里的示例是在python2中的,需要自行轉換成python3(示例中僅僅只需要把print后的內容加上小括號就可以運行了)。而且示例是基于3版本的。
例如實例中:
我們在4版本中就應該改為
from bs4 import BeautifulSoup import redoc = ['<html><head><title>Page title</title></head>','<body><p id="firstpara" align="center">This is paragraph <b>one</b>.','<p id="secondpara" align="blah">This is paragraph <b>two</b>.','</html>'] soup = BeautifulSoup(''.join(doc))print(soup.prettify()) # <html> # <head> # <title> # Page title # </title> # </head> # <body> # <p align="center" id="firstpara"> # This is paragraph # <b> # one # </b> # . # <p align="blah" id="secondpara"> # This is paragraph # <b> # two # </b> # . # </p> # </p> # </body> #</html>可以看出輸出是有一些差別的,體現在第一個 < /b >出現的位置,還有一些小差別就自己探索吧。
還有一點就是4版本中處理HTML和XML只需要一個函數就可以了,而不需要3版本中的BeautifulSoup和BeautifulStoneSoup兩個函數分別處理。
總結
以上是生活随笔為你收集整理的python3与Beautiful Soup库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《集体智慧编程》第二章(一)
- 下一篇: python3中urllib库的使用