python xml.dom模块解析xml
生活随笔
收集整理的這篇文章主要介紹了
python xml.dom模块解析xml
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 什么是xml?有何特征?
xml即可擴展標記語言,它可以用來標記數據、定義數據類型,是一種允許用戶對自己的標記語言進行定義的源語言。
例子:del.xml
<?xml version="1.0" encoding="utf-8"?> <catalog><maxid>4</maxid><login username="pytest" passwd='123456'><caption>Python</caption><item id="4"><caption>test</caption></item></login><item id="2"><caption>Zope</caption></item> </catalog>從結構上,很像HTML超文本標記語言。但他們被設計的目的是不同的,超文本標記語言被設計用來顯示數據,其焦點是數據的外觀。它被設計用來傳輸和存儲數據,其焦點是數據的內容。
那么它有如下特征:
- 它是有標簽對組成,<aa></aa>
- 標簽可以有屬性:<aa id='123'></aa>
- 標簽對可以嵌入數據:<aa>abc</aa>
- 標簽可以嵌入子標簽(具有層級關系)
2. 獲得標簽屬性
#coding: utf-8 import xml.dom.minidom dom = xml.dom.minidom.parse("del.xml") #打開xml文檔 root = dom.documentElement #得到xml文檔對象 print "nodeName:", root.nodeName #每一個結點都有它的nodeName,nodeValue,nodeType屬性 print "nodeValue:", root.nodeValue #nodeValue是結點的值,只對文本結點有效 print "nodeType:", root.nodeType print "ELEMENT_NODE:", root.ELEMENT_NODEnodeType是結點的類型。catalog是ELEMENT_NODE類型
現在有以下幾種:
'ATTRIBUTE_NODE' 'CDATA_SECTION_NODE' 'COMMENT_NODE' 'DOCUMENT_FRAGMENT_NODE' 'DOCUMENT_NODE' 'DOCUMENT_TYPE_NODE' 'ELEMENT_NODE' 'ENTITY_NODE' 'ENTITY_REFERENCE_NODE' 'NOTATION_NODE' 'PROCESSING_INSTRUCTION_NODE' 'TEXT_NODE'運行結果
nodeName: catalog nodeValue: None nodeType: 1 ELEMENT_NODE: 13. 獲得子標簽
#coding: utf-8 import xml.dom.minidom dom = xml.dom.minidom.parse("del.xml") root = dom.documentElement bb = root.getElementsByTagName('maxid') print type(bb) print bb b = bb[0] print b.nodeName print b.nodeValue運行結果
<class 'xml.dom.minicompat.NodeList'> [<DOM Element: maxid at 0x2707a48>] maxid None4. 獲得標簽屬性值
#coding: utf-8 import xml.dom.minidom dom = xml.dom.minidom.parse("del.xml") root = dom.documentElement itemlist = root.getElementsByTagName('login') item = itemlist[0] print item.getAttribute("username") print item.getAttribute("passwd")itemlist = root.getElementsByTagName("item") item = itemlist[0] #通過在itemlist中的位置區分 print item.getAttribute("id") item2 = itemlist[1] #通過在itemlist中的位置區分 print item2.getAttribute("id")運行結果
pytest 123456 4 25. 獲得標簽對之間的數據
#coding: utf-8 import xml.dom.minidom dom = xml.dom.minidom.parse("del.xml") root = dom.documentElement itemlist = root.getElementsByTagName('caption')item = itemlist[0] print item.firstChild.dataitem2 = itemlist[1] print item2.firstChild.data運行結果
Python test6. 例子
<?xml version="1.0" encoding="UTF-8" ?> <users><user id="1000001"><username>Admin</username><email>admin@live.cn</email><age>23</age><sex>boy</sex></user><user id="1000002"><username>Admin2</username><email>admin2@live.cn</email><age>22</age><sex>boy</sex></user><user id="1000003"><username>Admin3</username><email>admin3@live.cn</email><age>27</age><sex>boy</sex></user><user id="1000004"><username>Admin4</username><email>admin4@live.cn</email><age>25</age><sex>girl</sex></user><user id="1000005"><username>Admin5</username><email>admin5@live.cn</email><age>20</age><sex>boy</sex></user><user id="1000006"><username>Admin6</username><email>admin6@live.cn</email><age>23</age><sex>girl</sex></user> </users>把name、email、age、sex輸出?
參考代碼
# -*- coding:utf-8 -*- from xml.dom import minidomdef get_attrvalue(node, attrname):return node.getAttribute(attrname) if node else ''def get_nodevalue(node, index = 0):return node.childNodes[index].nodeValue if node else ''def get_xmlnode(node, name):return node.getElementsByTagName(name) if node else []def get_xml_data(filename = 'user.xml'):doc = minidom.parse(filename) root = doc.documentElementuser_nodes = get_xmlnode(root, 'user')print "user_nodes:", user_nodesuser_list=[]for node in user_nodes: user_id = get_attrvalue(node, 'id') node_name = get_xmlnode(node, 'username')node_email = get_xmlnode(node, 'email')node_age = get_xmlnode(node, 'age')node_sex = get_xmlnode(node, 'sex')user_name =get_nodevalue(node_name[0])user_email = get_nodevalue(node_email[0])user_age = int(get_nodevalue(node_age[0]))user_sex = get_nodevalue(node_sex[0])user = {}user['id'] , user['username'] , user['email'] , user['age'] , user['sex'] = (int(user_id), user_name , user_email , user_age , user_sex)user_list.append(user)return user_listdef test_load_xml():user_list = get_xml_data()for user in user_list :print '-----------------------------------------------------'if user:user_str='No.:\t%d\nname:\t%s\nsex:\t%s\nage:\t%s\nEmail:\t%s' % (int(user['id']) , user['username'], user['sex'] , user['age'] , user['email'])print user_strif __name__ == "__main__":test_load_xml()結果
C:\Users\jihite\Desktop\xml>python user.py user_nodes: [<DOM Element: user at 0x2758c48>, <DOM Element: user at 0x2756288>,<DOM Element: user at 0x2756888>, <DOM Element: user at 0x2756e88>, <DOM Elemen t: user at 0x275e4c8>, <DOM Element: user at 0x275eac8>] ----------------------------------------------------- No.: 1000001 name: Admin sex: boy age: 23 Email: admin@live.cn ----------------------------------------------------- No.: 1000002 name: Admin2 sex: boy age: 22 Email: admin2@live.cn ----------------------------------------------------- No.: 1000003 name: Admin3 sex: boy age: 27 Email: admin3@live.cn ----------------------------------------------------- No.: 1000004 name: Admin4 sex: gril age: 25 Email: admin4@live.cn ----------------------------------------------------- No.: 1000005 name: Admin5 sex: boy age: 20 Email: admin5@live.cn ----------------------------------------------------- No.: 1000006 name: Admin6 sex: gril age: 23 Email: admin6@live.cn7. 總結
minidom.parse(filename) 加載讀取XML文件doc.documentElement 獲取XML文檔對象node.getAttribute(AttributeName) 獲取XML節點屬性值node.getElementsByTagName(TagName) 獲取XML節點對象集合node.childNodes #返回子節點列表。node.childNodes[index].nodeValue 獲取XML節點值node.firstChild #訪問第一個節點。等價于pagexml.childNodes[0]doc = minidom.parse(filename) doc.toxml('UTF-8') 返回Node節點的xml表示的文本Node.attributes["id"] a.name #就是上面的 "id" a.value #屬性的值 訪問元素屬性總結
以上是生活随笔為你收集整理的python xml.dom模块解析xml的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux磁盘和文件系统管理
- 下一篇: 中国科幻扛鼎之作 《三体》IP定了个小目