python中bs4库_python系统学习2——beautiful soup库(bs4库)学习
beautiful?soup庫作為python第三方庫,可以對html語言進行很好的樹形解析,“美味湯”的直譯也是在說能夠把文檔像一鍋湯一樣進行調制。
beautiful?soup庫的基本元素有:
基本元素
說明
Tag
標簽,最基本的信息組織單元
Name
標簽的名字?tag.name
Attributes
標簽的屬性(字典形式) tag.attrs
NavigableString
標簽內非屬性字符串?tag.string
Comment
標簽內注釋
beautiful?soup庫的內容遍歷方法
下行遍歷: .contents 獲得子節點的列表(可以用列表的方式進行處理)
.children ? ? ? ? 獲得子節點的迭代類型,用于循環遍歷子節點
for child in soup.body.children://遍歷兒子節點
print(child)
.descendants? ? ? ?獲得子孫節點的迭代類型,包含所有子孫節點,用于循環遍歷
上行遍歷: .parent ? ? ? ? ? 返回節點的父親標簽
.parents? ? ? ? ? ? ? ? 返回節點先輩標簽,可以用于循環遍歷 (在遍歷時會遍歷到 soup本身,soup本身沒有先輩標簽)
平行遍歷: .next_sibling? ? ? ? ?返回按照html文本順序的下一個平行節點標簽
.previous_sibling? 返回按照html文本順序的上一個平行節點標簽
.next_siblings ? ? 迭代類型,返回按照html文本順序的后續所有平行節點標簽
.previous_siblings?迭代類型,返回按照html文本順序的前續所有平行節點標簽
最后有一個prettify方法可以對html文檔或者html標簽進行格式化處理。
總結
以上是生活随笔為你收集整理的python中bs4库_python系统学习2——beautiful soup库(bs4库)学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 树结构 sqlalchem
- 下一篇: html显示pcd,PCD5043 Da