17370845950

新闻动态

Python如何安全地解析不可信的XML defusedxml库的使用

xml.etree.ElementTree 不防御XXE攻击，易致文件读取、内网请求或内存耗尽；defusedxml通过替换导入路径提供安全解析，但需手动适配xmlrpc、minidom及lxml，且防护不替代其他注入防御。

标准库的 xml.etree.ElementTree 默认不防御 XML 外部实体（XXE）和递归爆炸式 DTD，攻击者可构造恶意 XML 导致读取本地文件、发起内网请求、或耗尽内存/栈溢出。例如，parse() 或 fromstring() 遇到含的文档时，会实际加载该路径。

defusedxml 提供了与标准库接口一致的封装，只需替换导入路径即可生效，无需重写业务逻辑：

解析文件：from defusedxml.ElementTree import parse → 替代 xml.etree.ElementTree.parse
解析字符串：from defusedxml.ElementTree import fromstring → 替代 xml.etree.ElementTree.fromstring
构建解析器实例：from defusedxml.ElementTree import DefusedXMLParser，传给 ET.XMLParser(parser=...)

它默认禁用外部实体、限制嵌套深度（20）、限制总节点数（50000）、禁止 DTD 解析，且不支持 resolve_entities=True。

defusedxml 不自动覆盖所有 XML 相关模块。以下情况仍需手动切换：

xmlrpc.client.ServerProxy 底层用 xml.parsers.expat，需改用 defusedxml.xmlrpc 中的 ServerProxy
xml.dom.minidom 需替换为 from defusedxml.minidom import parseString
若项目用了 lxml，defusedxml 无法干预，必须改用 lxml.etree.XMLParser(resolve_entities=False, no_network=True)

错误示例：

import xmlrpc.client
client = xmlrpc.client.ServerProxy("http://example.com")  # 仍可能触发 XXE

默认限制对多数应用足够，但处理大型合法 XML（如科学数据）时可能报 EntitiesForbidden 或 EntitiesForbidden。此时应显式调优，而非关闭防护：

增大节点上限：from defusedxml.ElementTree import parse; parse(source, forbid_dtd=False, max_entities=100000)
允许内联 DTD（仅当完全信任来源）：forbid_dtd=False，但必须保持 forbid_entities=True
避免使用 disable_entities=False —— 这会重新开启 X
XE 攻击面

注意：defusedxml 的 max_depth 和 max_entity_expansions 参数在不同子模块中名称不一致，查文档时盯紧具体模块的 API 签名。

最易被忽略的一点：即使用了 defusedxml，如果后续代码把 XML 内容拼接到 XPath 表达式、SQL 查询或 shell 命令里，依然可能引入注入漏洞 —— 防御 XML 解析只是第一道关卡。