17370845950

如何用正则表达式提取xml内容? 一种灵活但需谨慎使用的方法
正则可快速提取简单XML内容,如用(.*?)捕获标签文本,支持非贪婪匹配和属性跳过,但不适用于嵌套结构、注释或CDATA,需谨慎使用。

提取 XML 内容时,虽然推荐使用 DOM 或 SAX 等解析器,但在某些简单场景下,正则表达式可以快速实现目标。这种方法灵活,但需谨慎,因为正则无法完全处理 XML 的嵌套结构和复杂语法。

匹配基本标签内容

若要提取某个标签内的文本,可使用如下模式:

(.*?)

说明:

  • .*? 是非贪婪匹配,确保只捕获第一个闭合标签前的内容
  • 括号用于捕获组,方便后续提取
  • 注意标签名区分大小写,且不支持属性自动过滤

示例:提取

示例 中的“示例”: re.search(r'(.*?)', text).group(1)

处理带属性的标签

XML 标签常含属性,如 。此时应放宽标签开头的匹配:

]*>(.*?)

说明:

  • [^>]* 表示任意非“>”字符,跳过属性部分
  • 仍依赖非贪婪匹配防止跨标签捕获
  • 若属性中包含“>”(极少见),可能出错

避免常见陷阱

正则处理 XML 的局限明显,需注意:

  • 不支持嵌套同名标签:如 nested 会匹配错误
  • 注释、CDATA、命名空间等特殊结构可能干扰匹配
  • 换行和空格处理需开启 re.DOTALL 标志(使 . 匹配换行符)
  • 性能在大文件中较差,且维护性低

基本上就这些。小任务可用正则快速提取,但涉及结构复杂或可靠性要求高的场景,还是交给专业 XML 解析器更稳妥。