【学习笔记】Python - Lxml
Lxml庫
Lxml庫是基于libxm12的XML解析庫的Python封裝,該模塊使用C語言編寫,解析的速度比Beautiful Soup更快。Lxml庫使用Xpath語法解析定位網(wǎng)頁數(shù)據(jù)。
Lxml庫的安裝
pip install lxml
Lxml庫的使用
1、修正HTML代碼
Lxml為XML解析庫,但也很好地支持了HTML文檔地解析功能,這為使用Lxml庫爬取網(wǎng)絡(luò)信息提供了支持條件。
首先需要導(dǎo)入Lxml庫中地etree庫,利用etree.HTML進(jìn)行初始化,返回解析后的Element對象,這里可以看到,Lxml有一個非常實用的功能,就是自動修正了HTML代碼(比如標(biāo)簽對漏掉的情況也會自動補(bǔ)齊)。
2、讀取HTML文件
將上面的HTML文件拷貝到Sublime中保存為HTML文件。
然后通過Lxml庫讀取HTML文件中的內(nèi)容。
3、解析HTML文件
經(jīng)過上面的步驟,便可以使用requests庫獲取HTML文件,然后用Lxml庫來解析HTML文件。
Xpath語法
Xpath是一門在XML文檔中查找信息的語言,對HTML文檔又很好的支持。
|
【基本概念】
- 父節(jié)點:每個元素及屬性都有一個父節(jié)點,上例中的user元素就是name、sex、id和goal的父節(jié)點;
- 子節(jié)點:元素節(jié)點可以有0個或者多個子節(jié)點,上例中的name、sex、id和goal元素就是user的子節(jié)點;
- 同胞節(jié)點:擁有相同父節(jié)點,上例中的name、sex、id和goal元素就是同胞節(jié)點;
- 先輩節(jié)點:某節(jié)點的父節(jié)點、父節(jié)點的父節(jié)點等,上例中的name元素的先輩節(jié)點是user和user_database;
- 后代節(jié)點:某個節(jié)點的子節(jié)點、子節(jié)點的子節(jié)點等,上例中的user_database元素的后代節(jié)點是user、name、sex、id和goal;
Xpath使用路徑表達(dá)式在XML文檔中選取節(jié)點,節(jié)點是通過沿著路徑或者step來選取的。
| 表達(dá)式 | 描述 |
| nodename | 選取此節(jié)點的所有子節(jié)點 |
| / | 從根節(jié)點選取 |
| // | 從匹配選擇的當(dāng)前節(jié)點選擇文檔中的節(jié)點,而不考慮它們的位置 |
| . | 選取當(dāng)前節(jié)點 |
| .. | 選取當(dāng)前節(jié)點的父節(jié)點 |
| @ | 選取屬性 |
根據(jù)上例舉例說明:
| 路徑表達(dá)式 | 結(jié)果 |
| user_databaser | 選取元素user_databaser的所有子節(jié)點 |
| /user_databaser | 選取根元素user_databaser |
| user_databaser/user | 選取屬于user_databaser的子元素的所有user元素 |
| //user | 選取所有user子元素,不考慮他們在文檔中位置 |
| user_databaser//user | 選取屬于user_databaser元素的后代所有user元素,不管位置 |
| //@attribute | 選取名為attribute的所有屬性 |
Xpath中也可以使用通配符來選取位置的元素,常用的就是“*”通配符,它可以匹配任何元素節(jié)點。
Xpath語法中的謂語用來查找某個特定的節(jié)點或者包含某個指定值的節(jié)點,謂語被嵌在方括號中。
| 路徑表達(dá)式 | 結(jié)果 |
| /user_databaser/user[1] | 選取屬于user_databaser子元素的第一個user元素 |
| //li{[@attribute] | 選取所有擁有名為attribute屬性的li元素 |
| //li{[@attribute=’red’] | 選取所有l(wèi)i元素,且這些元素?fù)碛兄禐閞ed的attribute屬性 |
總結(jié)
以上是生活随笔為你收集整理的【学习笔记】Python - Lxml的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【学习笔记】Python - Beaut
- 下一篇: 【学习笔记】Python - tkint