當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

【学习笔记】Python - Lxml

發(fā)布時間：2025/3/20 python 16 豆豆

生活随笔收集整理的這篇文章主要介紹了【学习笔记】Python - Lxml 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Lxml庫

Lxml庫是基于libxm12的XML解析庫的Python封裝，該模塊使用C語言編寫，解析的速度比Beautiful Soup更快。Lxml庫使用Xpath語法解析定位網(wǎng)頁數(shù)據(jù)。

Lxml庫的安裝

pip install lxml

Lxml庫的使用

1、修正HTML代碼

Lxml為XML解析庫，但也很好地支持了HTML文檔地解析功能，這為使用Lxml庫爬取網(wǎng)絡(luò)信息提供了支持條件。

首先需要導(dǎo)入Lxml庫中地etree庫，利用etree.HTML進(jìn)行初始化，返回解析后的Element對象，這里可以看到，Lxml有一個非常實用的功能，就是自動修正了HTML代碼（比如標(biāo)簽對漏掉的情況也會自動補(bǔ)齊）。

2、讀取HTML文件

將上面的HTML文件拷貝到Sublime中保存為HTML文件。

然后通過Lxml庫讀取HTML文件中的內(nèi)容。

3、解析HTML文件

經(jīng)過上面的步驟，便可以使用requests庫獲取HTML文件，然后用Lxml庫來解析HTML文件。

Xpath語法

Xpath是一門在XML文檔中查找信息的語言，對HTML文檔又很好的支持。

<user_databaser>

???????? <user>

???????? ???????? <name> Jack </name>

???????? ???????? <sex> Male </sex>

???????? ???????? <id> 10001 </id>

???????? ???????? <goal> 100 </goal>

???????? </user>

</user_databaser>

【基本概念】

父節(jié)點：每個元素及屬性都有一個父節(jié)點，上例中的user元素就是name、sex、id和goal的父節(jié)點；
子節(jié)點：元素節(jié)點可以有0個或者多個子節(jié)點，上例中的name、sex、id和goal元素就是user的子節(jié)點；
同胞節(jié)點：擁有相同父節(jié)點，上例中的name、sex、id和goal元素就是同胞節(jié)點；
先輩節(jié)點：某節(jié)點的父節(jié)點、父節(jié)點的父節(jié)點等，上例中的name元素的先輩節(jié)點是user和user_database；
后代節(jié)點：某個節(jié)點的子節(jié)點、子節(jié)點的子節(jié)點等，上例中的user_database元素的后代節(jié)點是user、name、sex、id和goal；

Xpath使用路徑表達(dá)式在XML文檔中選取節(jié)點，節(jié)點是通過沿著路徑或者step來選取的。

表達(dá)式	描述
nodename	選取此節(jié)點的所有子節(jié)點
/	從根節(jié)點選取
//	從匹配選擇的當(dāng)前節(jié)點選擇文檔中的節(jié)點，而不考慮它們的位置
.	選取當(dāng)前節(jié)點
..	選取當(dāng)前節(jié)點的父節(jié)點
@	選取屬性

根據(jù)上例舉例說明：

路徑表達(dá)式	結(jié)果
user_databaser	選取元素user_databaser的所有子節(jié)點
/user_databaser	選取根元素user_databaser
user_databaser/user	選取屬于user_databaser的子元素的所有user元素
//user	選取所有user子元素，不考慮他們在文檔中位置
user_databaser//user	選取屬于user_databaser元素的后代所有user元素，不管位置
//@attribute	選取名為attribute的所有屬性

Xpath中也可以使用通配符來選取位置的元素，常用的就是“*”通配符，它可以匹配任何元素節(jié)點。

Xpath語法中的謂語用來查找某個特定的節(jié)點或者包含某個指定值的節(jié)點，謂語被嵌在方括號中。

路徑表達(dá)式	結(jié)果
/user_databaser/user[1]	選取屬于user_databaser子元素的第一個user元素
//li{[@attribute]	選取所有擁有名為attribute屬性的li元素
//li{[@attribute=’red’]	選取所有l(wèi)i元素，且這些元素?fù)碛兄禐閞ed的attribute屬性

總結(jié)

以上是生活随笔為你收集整理的【学习笔记】Python - Lxml的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【学习笔记】Python - Beaut
下一篇：【学习笔记】Python - tkint