當前位置：首頁 > 编程语言 > asp.net >内容正文

asp.net

干货 | Python 标准库之 XML（上）

發布時間：2024/9/15 asp.net 28 豆豆

生活随笔收集整理的這篇文章主要介紹了干货 | Python 标准库之 XML（上）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文作者：Rocky0249

公眾號：Python空間

寫在之前

帶分隔符的文件僅有兩維的數據：行 & 列。如果我們想在程序之間交換數據結構，需要一種方法把層次結構，序列，集合和其它的數據結構編碼成文本。

今天要說的 XML 是最突出的處理上述這種轉換的標記格式，它使用標簽（tag）分隔數據。XML 在軟件領域的用途非常廣泛。

XML

XML 是什么？如果非要對其做一個定義式的說明，那這里我不得不引用一下 w3school 里面簡潔而明快的說明：

XML 指可擴展標記語言（EXtensible Markup Language）；
XML 是一種標記語言，類似于 HTML；
XML 的設計宗旨是傳輸數據，而非顯示數據；
XML 標簽沒有被預定義，需要自行定義標簽；
XML 被設計為具有自我描述性；
XML 是 W3C 的推薦標準。

如果你想要詳細了解和學習 XML 的話，可以去閱讀 w3school 的 XML 教程即可，里面講述的很詳細，在下面我還會引用一些里面的內容。

XML 的重要性在于它是用來傳輸數據的，因此，特別是在 Web 編程中我們經常會用到它。有了它，讓數據傳輸變的更加簡單，這么重要的東西，我大 Python 當然支持。

有大佬曾經說過：“一個引人關注的東西總會有很多人從不同側面去研究它”。這個在編程中也同樣適用，所以對于 XML 這個紅得發紫的東西，Python 提供了多種模塊來處理。

xml.dom.* 模塊：Document Object Model。適合用于處理 DOM API。它能夠將 XML 數據在內存中解析成一個樹，然后通過對樹的操作來操作 XML。但是這種方式由于將 XML 數據映射到內存中的樹，導致比較慢，且消耗更多內存。
xml.sax.* 模塊：simple API for XML。由于 SAX 以流式讀取 XML 文件，從而速度較快，占用內存少，但是在操作上稍微復雜，需要用戶實現回調函數。

當然還有一些別的，比如 xml.parse.expat，xml.etree.ElementTree 等等，我就不在列舉了，碰到的時候再去查查，否則光看這些東西頭就大了，而且無聊的很。

遍歷查詢

先要做一個 XML 文檔，我自己想也想不出個啥太好的來，所以直接用 w3school 中的一個例子，如下圖所示：

上圖表示下面的 XML 中的一本書：

<bookstore>
<book category="COOKING">
?<title lang="en">Everyday Italian</title>
?<author>Giada De Laurentiis</author>
?<year>2005</year>
?<price>30.00</price>
</book>
<book category="CHILDREN">
?<title lang="en">Harry Potter</title>
?<author>J K. Rowling</author>
?<year>2005</year>
?<price>29.99</price>
</book>
<book category="WEB">
?<title lang="en">Learning XML</title>
?<author>Erik T. Ray</author>
?<year>2003</year>
?<price>39.95</price>
</book>
</bookstore>

將上述的 XML 保存并且命名為 test.xml 文件，接下來就是以它為對象，練習各種操作了。

>>> import xml.etree.ElementTree as ET
>>> tree = ET.ElementTree(file = 'test.xml')
>>> tree
<xml.etree.ElementTree.ElementTree object at 0x00000000025B8630>

上面建立起 XML 解析樹對象，然后通過根節點向下開始讀取各個元素（element 對象）。

在上述 XML 文檔中，根元素是 bookstore，它沒有屬性，也可以說是屬性為空。

>>> root = tree.getroot()
>>> root.tag
'bookstore'
>>> root.attrib
{}

要想將根下面的元素都讀取出來，可以進行如下操作：

>>> for child in root:
... ? ?print(child.tag,child.attrib)
...
('book', {'category': 'COOKING'})
('book', {'category': 'CHILDREN'})
('book', {'category': 'WEB'})

也可以像下面這樣讀取指定元素的信息：

>>> root[0].tag
'book'
>>> root[0].attrib
{'category': 'COOKING'}
>>> root[0].text
'
?'

上述的 root[0].text 無內容，再深入一層，我們就可以看到內容了：

>>> root[0][0].tag
'title'
>>> root[0][0].attrib
{'lang': 'en'}
>>> root[0][0].text
'Everyday Italian'

對于 ElementTree 對象，有一個 iter() 方法可以對指定名稱的子節點進行深度優先遍歷，例如下面這樣：

>>> for ele in tree.iter(tag='book'):
... ? ?print(ele.tag,ele.attrib)
...
('book', {'category': 'COOKING'})
('book', {'category': 'CHILDREN'})
('book', {'category': 'WEB'})

上述代碼是遍歷名稱為 book 的節點，如果不指定節點的話，就是將所有的元素遍歷一遍：

>>> for ele in tree.iter():
... ? ?print(ele.tag,ele.attrib)
...
('bookstore', {})
('book', {'category': 'COOKING'})
('title', {'lang': 'en'})
('author', {})
('year', {})
('price', {})
('book', {'category': 'CHILDREN'})
('title', {'lang': 'en'})
('author', {})
('year', {})
('price', {})
('book', {'category': 'WEB'})
('title', {'lang': 'en'})
('author', {})
('year', {})
('price', {})

除了上面的方法外，還可以通過路徑搜索到指定的元素，然后讀取其內容，這就是 xpath，關于 xpath 是什么，在這不多做介紹，感興趣的可以去 Google。

寫在之后

今天的文章如果你能堅持看到這，恭喜你又學到了。前半部分概念的東西有點多，而且看著還頭暈，這個其實是沒辦法的事情，不說概念腦子里形不成概念，后面的理解就很麻煩。還好后面就是操作了，還是那句話，多敲代碼，別光看，敲幾遍記住它。

如果你覺得本篇文章對你有幫助的話，別忘了點個贊and?，謝謝。

總結

以上是生活随笔為你收集整理的干货 | Python 标准库之 XML（上）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：完课率最高 | 带学吴恩达《机器学习》课
下一篇：【资源】分享1套最适合Py开发的机器学习

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

asp.net

干货 | Python 标准库之 XML（上）

總結