Python实现XML文件解析的示例代码

您现在的位置：首页 > 技术文档 > Python数据库相关

来源：中文源码网浏览：156 次日期：2024-05-08 02:15:31

Python实现XML文件解析的示例代码
1. XML简介
XML（eXtensible Markup Language）指可扩展标记语言，被设计用来传输和存储数据，已经日趋成为当前许多新生技术的核心，在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物，既具有SGML的核心特征，又有着HTML的简单特性，还具有明确和结构良好等许多新的特性。
test.XML文件

4

Python

测试

Zope

XML详细介绍可以参考： http://www.w3school.com.cn/xmldom/dom_nodetype.asp
2. XML文件解析
python解析XML常见的有三种方法：一是xml.dom.*模块，它是W3C DOM API的实现，若需要处理DOM API则该模块很适合；二是xml.sax.*模块，它是SAX API的实现，这个模块牺牲了便捷性来换取速度和内存占用，SAX是一个基于事件的API，这就意味着它可以“在空中”处理庞大数量的的文档，不用完全加载进内存；三是xml.etree.ElementTree模块（简称 ET），它提供了轻量级的Python式的API，相对于DOM来说ET 快了很多，而且有很多令人愉悦的API可以使用，相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式，没有必要加载整个文档到内存，ET的性能的平均值和SAX差不多，但是API的效率更高一点而且使用起来很方便。
2.1 xml.dom.*
文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。
a. 获得子标签
b. 区分相同标签名的标签
c. 获取标签属性值
d. 获取标签对之间的数据
#coding=utf-8
#通过minidom解析xml文件
import xml.dom.minidom as xmldom
import os
'''
XML文件读取

4
dasdas
Python

测试

Zope

'''
xmlfilepath = os.path.abspath("test.xml")
print ("xml文件路径：", xmlfilepath)
# 得到文档对象
domobj = xmldom.parse(xmlfilepath)
print("xmldom.parse:", type(domobj))
# 得到元素对象
elementobj = domobj.documentElement
print ("domobj.documentElement:", type(elementobj))
#获得子标签
subElementObj = elementobj.getElementsByTagName("login")
print ("getElementsByTagName:", type(subElementObj))
print (len(subElementObj))
# 获得标签属性值
print (subElementObj[0].getAttribute("username"))
print (subElementObj[0].getAttribute("passwd"))
#区分相同标签名的标签
subElementObj1 = elementobj.getElementsByTagName("caption")
for i in range(len(subElementObj1)):
print ("subElementObj1[i]:", type(subElementObj1[i]))
print (subElementObj1[i].firstChild.data) #显示标签对之间的数据
输出结果：
>>> D:\Pystu>python xml_instance.py
>>> xml文件路径： D:\Pystu\test.xml
>>> xmldom.parse:
>>> domobj.documentElement:
>>> getElementsByTagName:
>>> username: pytest
>>> passwd: 123456
>>> subElementObj1[i]:
>>> Python
>>> subElementObj1[i]:
>>> 测试
>>> subElementObj1[i]:
>>> Zope
2.2 xml.etree.ElementTree
ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。
a. 遍历根节点的下一层
b. 下标访问各个标签、属性、文本
c. 查找root下的指定标签
d. 遍历XML文件
e. 修改XML文件
#coding=utf-8
#通过解析xml文件
'''
try:
import xml.etree.CElementTree as ET
except:
import xml.etree.ElementTree as ET
从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度
'''
import xml.etree.ElementTree as ET
import os
import sys
'''
XML文件读取

4
dasdas
Python

测试

Zope

'''
#遍历xml文件
def traverseXml(element):
#print (len(element))
if len(element)>0:
for child in element:
print (child.tag, "----", child.attrib)
traverseXml(child)
#else:
#print (element.tag, "----", element.attrib)
if __name__ == "__main__":
xmlFilePath = os.path.abspath("test.xml")
print(xmlFilePath)
try:
tree = ET.parse(xmlFilePath)
print ("tree type:", type(tree))
# 获得根节点
root = tree.getroot()
except Exception as e: #捕获除与程序退出sys.exit()相关之外的所有异常
print ("parse test.xml fail!")
sys.exit()
print ("root type:", type(root))
print (root.tag, "----", root.attrib)
#遍历root的下一层
for child in root:
print ("遍历root的下一层", child.tag, "----", child.attrib)
#使用下标访问
print (root[0].text)
print (root[1][1][0].text)
print (20 * "*")
#遍历xml文件
traverseXml(root)
print (20 * "*")
#根据标签名查找root下的所有标签
captionList = root.findall("item") #在当前指定目录下遍历
print (len(captionList))
for caption in captionList:
print (caption.tag, "----", caption.attrib, "----", caption.text)
#修改xml文件，将passwd修改为999999
login = root.find("login")
passwdValue = login.get("passwd")
print ("not modify passwd:", passwdValue)
login.set("passwd", "999999") #修改，若修改text则表示为login.text
print ("modify passwd:", login.get("passwd"))
输出结果：
>>> D:\Pystu\test.xml
>>> tree type:
>>> root type:
>>> catalog ---- {}
>>> 遍历root的下一层 maxid ---- {}
>>> 遍历root的下一层 login ---- {'username': 'pytest', 'passwd': '123456'}
>>> 遍历root的下一层 item ---- {'id': '2'}
>>> 4
>>> 测试
>>> ********************
>>> maxid ---- {}
>>> login ---- {'username': 'pytest', 'passwd': '123456'}
>>> caption ---- {}
>>> item ---- {'id': '4'}
>>> caption ---- {}
>>> item ---- {'id': '2'}
>>> caption ---- {}
>>> ********************
>>> 1
>>> item ---- {'id': '2'} ----
>>> not modify passwd: 123456
>>> modify passwd: 999999
附：
#coding=utf-8
'''
XML解析类
@功能-结点的增删改查
'''
import xml.etree.ElementTree as ET
import sys
import os.path
class XmlParse:
def __init__(self, file_path):
self.tree = None
self.root = None
self.xml_file_path = file_path
def ReadXml(self):
try:
print("xmlfile:", self.xml_file_path)
self.tree = ET.parse(self.xml_file_path)
self.root = self.tree.getroot()
except Exception as e:
print ("parse xml faild!")
sys.exit()
else:
print ("parse xml success!")
finally:
return self.tree
def CreateNode(self, tag, attrib, text):
element = ET.Element(tag, attrib)
element.text = text
print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text))
return element
def AddNode(self, Parent, tag, attrib, text):
element = self.CreateNode(tag, attrib, text)
if Parent:
Parent.append(element)
el = self.root.find("lizhi")
print (el.tag, "----", el.attrib, "----", el.text)
else:
print ("parent is none")
def WriteXml(self, destfile):
dest_xml_file = os.path.abspath(destfile)
self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True)
if __name__ == "__main__":
xml_file = os.path.abspath("test.xml")
parse = XmlParse(xml_file)
tree = parse.ReadXml()
root = tree.getroot()
print (root)
parse.AddNode(root, "Python", {"age":"22", "hello":"world"}, "YES")
parse.WriteXml("testtest.xml")
2.3 xml.sax.*
SAX是一种基于事件驱动的API，利用SAX解析XML牵涉到两个部分：解析器和事件处理器。
解析器负责读取XML文档，并向事件处理器发送事件，如元素开始跟元素结束事件
事件处理器则负责对事件作出相应，对传递的XML数据进行处理
常用场景：
（1）对大型文件进行处理
（2）只需文件的部分内容，或只需从文件中得到特定信息
（3）想建立自己的对象模型
基于事件驱动的SAX解析XML内容的知识后续补充！
以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持中文源码网。

上一篇：使用apidocJs快速生成在线文档的实例讲解

下一篇：Python下载网络文本数据到本地内存的四种实现方法示例

点击排行

您现在的位置：首页 > 技术文档 > Python数据库相关

Python实现XML文件解析的示例代码

相关内容