當前位置：首頁 > 编程语言 > python >内容正文

python

python3与Beautiful Soup库

發布時間：2024/9/30 python 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 python3与Beautiful Soup库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

BeautifulSoup庫主要用于處理HTML和XML格式的文件，常用于網絡爬蟲。
但是BeautifulSoup庫的3版本已不再更新，所以現在主要來說下4版本及之后的版本。
首先是安裝：
安裝文件在這里：
使用pip 安裝4版本時要注意應該用

pip install bs4

然后就是庫的引用格式的改變：
3版本：

from BeautifulSoup import BeautifulSoup # For processing HTML from BeautifulSoup import BeautifulStoneSoup # For processing XML import BeautifulSoup # To get everything

4版本：

import bs4 # To get everything

在使用時也有一些差別。具體可參照這里，要注意的是這里的示例是在python2中的，需要自行轉換成python3（示例中僅僅只需要把print后的內容加上小括號就可以運行了）。而且示例是基于3版本的。
例如實例中：

from BeautifulSoup import BeautifulSoup import redoc = ['<html><head><title>Page title</title></head>','<body>This is paragraph one.','This is paragraph two.','</html>'] soup = BeautifulSoup(''.join(doc))print soup.prettify() # <html> # <head> # <title> # Page title # </title> # </head> # <body> # # This is paragraph # # one # # . # # # This is paragraph # # two # # . # # </body> # </html>

我們在4版本中就應該改為

from bs4 import BeautifulSoup import redoc = ['<html><head><title>Page title</title></head>','<body>This is paragraph one.','This is paragraph two.','</html>'] soup = BeautifulSoup(''.join(doc))print(soup.prettify()) # <html> # <head> # <title> # Page title # </title> # </head> # <body> # # This is paragraph # # one # # . # # This is paragraph # # two # # . # # # </body> #</html>

可以看出輸出是有一些差別的，體現在第一個 出現的位置，還有一些小差別就自己探索吧。
還有一點就是4版本中處理HTML和XML只需要一個函數就可以了，而不需要3版本中的BeautifulSoup和BeautifulStoneSoup兩個函數分別處理。

總結

以上是生活随笔為你收集整理的python3与Beautiful Soup库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《集体智慧编程》第二章（一）
下一篇： python3中urllib库的使用

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python3与Beautiful Soup库

總結