中文源码网欢迎您！会员登录会员注册发布自媒体发布模版发布源码发布模版发布酷站

推荐源码常用源码帮助中心

栏目导航

Python语言技术文档

微信小程序技术文档

php语言技术文档

jsp语言技术文档

asp语言技术文档

C#/.NET语言技术文档

html5/css技术文档

html5
CSS

javascript

点击排行

您现在的位置：首页 > 技术文档 > Python网络爬虫

利用python将xml文件解析成html文件的实现方法

来源：中文源码网浏览：176 次日期：2024-05-04 16:59:59

【下载文档: 利用python将xml文件解析成html文件的实现方法.txt 】

利用python将xml文件解析成html文件的实现方法
功能就是题目所述，我的python2.7,装在windows环境，我使用的开发工具是wingide 6.0
1、首先是我设计的简单的一个xml文件，也就是用来解析的源文件
下面是这个文件website.xml内容：

welcome to

this is a moment

Shouting

My name is likeyou

解释：page就是对应一个html文件，这里有两个page也就是要解析成两个html文件，然后分别是index.html和shouting.html，其中在index.html中通过链接转到shouting.html文件中显示shouting.html文件的内容
2、python代码实现解析（xmltest.py）
#!D:\Python27\python.exe
#-*- coding:utf-8 -*-
from xml.sax import parse
from xml.sax.handler import ContentHandler
class PageCreate(ContentHandler):
pagethrough = False
def startElement(self, name, attrs):
if name == 'page':
self.pagethrough = True
self.out = open(attrs['name'] + '.html', 'w')
self.out.write('\n\n')
self.out.write('%s\n' %(attrs['title']))
self.out.write('\n\n')
elif self.pagethrough:
self.out.write('<')
self.out.write(name)
for str,val in attrs.items():
self.out.write(' %s="%s"' %(str, val))
self.out.write('>')
def endElement(self, name):
if name == 'page':
self.out.write('\n')
self.pagethrough = False
self.out.close()
if self.pagethrough:
self.out.write('<')
self.out.write('/' + name)
self.out.write('>')
def characters(self, content):
if self.pagethrough:
self.out.write(content)
parse('D:\\pyproject\\file\\website.xml', PageCreate())
代码解释：
使用xml.sax解析方法调用parse方法来解析，自己创建了一个解析类，继承了ContentHandler，在里面分别重写了startelement和endelement方法还有charactors方法，startelement方法是当找到xml文件中的开头标签时调用，如、

，passthrough变量是为了判断当前是否在page标签里面，true表示在page标签里面，就是属于当前page页面的元素，因为xml.sax是关注标签的，他不会管你是否在当前哪个page里面，然后后面的代码都容易理解，就是添加html的开头标签等，注意,attrs储存的是标签的属性，例如里面name="shouting"，name="index"，那么就attrs就储存这name="shouting"这个东西，从而在attrs里面获取name属性里面的shouting和index作为html文件的文件名，同理 里面的href=……也是通过这个数据获取，分别存在str和val变量中，并且通过write写进文件。
然后endelement就是当解析到

这类的结尾标签的时候调用，添加结尾的标签，如果是文件结尾，那么就是，这时候就把、这些html的结尾标签添加进去，否则，就是page页面里面的元素结尾标签
characters就是将开头标签于结尾标签之间找到的字符串添加进去
最后我们把python代码运行起来之后就可以看到在同一目录下生成了两个html文件，分别是shouting.html和index.html，打开index.html就可以看到一个叫做“shouting”的链接，点过去就打开了shouting.html
以上这篇利用python将xml文件解析成html文件的实现方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持中文源码网。

上一篇：python3写爬取B站视频弹幕功能

下一篇：python+selenium实现登录账户后自动点击的示例

相关内容

QQ客服

公众号
手机版

帮助中心