– 支持构建部分DOM树 – 结构化标记处理工具（Python教程）（参考资料）

发表于： 2019年3月28日 2022年10月8日
分类： Python, python语法教程
标签： bufsize, Do, Doc, DOM, DOMEventStream, Element, Event, EventStream, import, minidom, node, None, objects, parse, PARSER, python, sax, string, XML, 解析器

`xml.dom.pulldom`– 支持构建部分DOM树

源代码： Lib / xml / dom / pulldom.py

xml.dom.pulldom模块提供“拉解析器”“这也可以用于在必要时生成DOM可访问的文档片段。基本概念涉及从传入的XML流中提取“事件”并对其进行处理。与SAX一起使用事件驱动的处理模型以及回调相比，拉解析器的用户负责显式地从流中提取事件，循环这些事件直到处理完成或发生错误情况.

警告

xml.dom.pulldom模块不能安全地防止恶意构造的数据。如果您需要解析不受信任的orunauthenticated数据，请参阅 XML漏洞.

在版本3.7.1中更改：默认情况下，SAX解析器不再处理常规外部实体以提高安全性默认。要启用外部实体的处理，请在以下位置传递自定义解析器实例：

from xml.dom.pulldom import parsefrom xml.sax import make_parserfrom xml.sax.handler import feature_external_gesparser = make_parser()parser.setFeature(feature_external_ges, True)parse(filename, parser=parser)

示例：

from xml.dom import pulldomdoc = pulldom.parse("sales_items.xml")for event, node in doc:    if event == pulldom.START_ELEMENT and node.tagName == "item":        if int(node.getAttribute("price")) > 50:            doc.expandNode(node)            print(node.toxml())

event是一个常数，可以是以下之一：

START_ELEMENT
END_ELEMENT
COMMENT
START_DOCUMENT
END_DOCUMENT
CHARACTERS
PROCESSING_INSTRUCTION
IGNORABLE_WHITESPACE

node是xml.dom.minidom.Document,xml.dom.minidom.Element或xml.dom.minidom.Text.

由于文档被视为“平面”事件流，因此隐式遍历文档“树”，并且无论树中的深度如何，都可以找到所需的元素。换句话说，人们不需要考虑分层问题，例如文档节点的递归搜索，尽管如果元素的上下文很重要，那么要么需要保持一些与上下文相关的状态（即，记住任何一个在文档中的位置））或使用DOMEventStream.expandNode()方法并切换到与DOM相关的处理.

class xml.dom.pulldom.PullDom（documentFactory=None）: 的子类xml.sax.handler.ContentHandler.

class xml.dom.pulldom.SAX2DOM（documentFactory=None）: 的子类xml.sax.handler.ContentHandler.

xml.dom.pulldom.parse（stream_or_string, parser=None, bufsize=None）: 返回DOMEventStream从给定的输入。stream_or_string可以是文件名，也可以是类文件对象。parser，如果给出，必须是XMLReader宾语。此函数将更改分析器的文档处理程序并激活名称空间支持;其他解析器配置（比如设置实体解析器）必须事先完成.

如果你在字符串中有XML，你可以使用parseString()功能改为：

xml.dom.pulldom.parseString（string, parser=None）: 返回DOMEventStream代表（Unicode）string.

xml.dom.pulldom.default_bufsize

的默认值bufsize参数parse().

在调用parse()之前可以更改此变量的值，新值将生效.

DO EventStream Objects

class xml.dom.pulldom.DOMEventStream（stream, parser, bufsize）

getEvent（）: 返回一个包含event当前node为xml.dom.minidom.Document如果事件等于START_DOCUMENT,xml.dom.minidom.Element如果事件等于START_ELEMENT或END_ELEMENT或xml.dom.minidom.Text如果事件等于CHARACTERS。当前节点不包含有关其子节点的信息，除非expandNode()被称为

expandNode（node)

将node的所有孩子扩大到node。例：

from xml.dom import pulldomxml = "<html><title>Foo</title> <p>Some text <div>and more</div></p> </html>"doc = pulldom.parseString(xml)for event, node in doc:    if event == pulldom.START_ELEMENT and node.tagName == "p":        # Following statement only prints "<p/>"        print(node.toxml())        doc.expandNode(node)        # Following statement prints node with all its children "<p>Some text <div>and more</div></p>"        print(node.toxml())

reset（）

- 从Zip档案导入模块 - 导入模块（Python教程）（参考资料） 2019年5月11日
- XML解析器接口 - 结构化标记处理工具（Python教程）（参考资料） 2019年3月30日
- HTML通用实体的定义 - 结构化标记处理工具（Python教程）（参考资料） 2019年3月25日
- 文档对象模型API-结构化标记处理工具（Python教程）（参考资料） 2019年3月27日
官方标准库详细简介 - 第一部分(10) - python入门教程 2019年1月6日
- 特定于站点的配置hook-Python Runtime Services（Python教程）（参考资料） 2019年5月9日
4.构建C和C ++扩展 - 扩展和嵌入Python解释器（Python教程）（参考资料） 2019年6月1日
XML处理模块 - 结构化标记处理工具（Python教程）（参考资料） 2019年3月26日
什么是 XML 站点地图？如何在 WordPress 中创建站点地图？ 2023年1月15日
importlib- 执行-Importing Modules（Python教程）（参考资料） 2019年5月13日
访问底层平台的识别数据 - 通用操作系统服务（Python教程）（参考资料） 2019年2月24日

xml.dom.pulldom– 支持构建部分DOM树

DO EventStream Objects

`xml.dom.pulldom`– 支持构建部分DOM树