17370845950

php判断字符串长度含不可见字符_php不可见字符处理【步骤】
是。strlen() 统计字节数,会将\0、\t、\n、BOM、零宽空格等所有占字节的不可见字符计入长度,导致看似为空的字符串返回非零值。

strlen() 会把不可见字符算进长度吗

会。PHP 的 strlen() 统计的是字节数,不是“可视字符数”。像 \0(空字符)、\t\n\r、UTF-8 BOM(\xEF\xBB\xBF)、零宽空格(\xE2\x80\x8B)这些,只要占字节,strlen() 就会计入。

常见

误判场景:表单提交后看似空的字符串,strlen() 却返回非 0;JSON 解析失败但看不出输入异常;数据库写入后字段莫名截断。

  • bindec(dechex(ord($char)))unpack('H*', $str) 查看原始字节,确认是否混入不可见字符
  • 对用户输入做清洗前,先用 strlen()mb_strlen($str, 'UTF-8') 对比——若不等,大概率含多字节不可见符(如 BOM 或零宽)
  • 注意:mb_strlen() 同样会统计 UTF-8 编码下的不可见字符(如 U+200B),它只按字符计数,不区分“是否可见”

过滤常见不可见字符的实用方法

不能靠简单 trim —— trim() 默认只处理空白符(空格、\t、\n、\r、\0、\x0B),对 BOM、零宽空格、软连字符(U+00AD)等完全无效。

推荐组合过滤:

  • 先用 preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]/', '', $str) 清除 ASCII 控制字符(不含 \t\n\r)
  • 再用 preg_replace('/[\xE2\x80\x80-\xE2\x80\x8B\xE2\x81\x9F\xE2\x81\xA0]/u', '', $str) 去掉常见 Unicode 格式字符(包括零宽空格、窄空格、换行符等)
  • 对可能含 BOM 的输入(如文件读取、前端粘贴内容),开头用 ltrim($str, "\xEF\xBB\xBF") 显式剥离 UTF-8 BOM

示例:

$clean = ltrim($input, "\xEF\xBB\xBF");
$clean = preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]/', '', $clean);
$clean = preg_replace('/[\xE2\x80\x80-\xE2\x80\x8B\xE2\x81\x9F\xE2\x81\xA0]/u', '', $clean);

判断是否“真正为空”要避开哪些坑

直接 empty($str)!$str 不可靠:含空格或不可见字符时返回 false,但业务上可能期望它为“空”。

更安全的“语义为空”判断逻辑:

  • 先过滤不可见字符(如上一步),再 trim(),最后判断 === ''
  • 避免用 mb_ereg_replace('^\\s+$', '', $str) === '' —— \s 在 PCRE 中默认不匹配零宽类字符,会造成漏判
  • 如果需兼容 JSON 输入,注意 json_decode($str, true) 失败时可能因开头 BOM 导致,应先清理再解码

从源头减少不可见字符混入

前端粘贴、富文本编辑器、Excel 复制、某些 CMS 导出 CSV 是主要污染源。后端不能只靠兜底清洗。

  • 表单提交前 JS 可做轻量预处理:value.replace(/[\u200B-\u200F\u202A-\u202E\uFEFF]/g, '')
  • 接收 POST 数据后,立即对关键字段(如用户名、搜索关键词)执行不可见字符过滤,不要等到入库或显示时才处理
  • 读取文件(尤其是 file_get_contents())前,用 fopen() + fgets() 检查首几个字节是否为 BOM,或统一用 mb_convert_encoding($content, 'UTF-8', 'UTF-8') 强制重编码(会自动丢弃非法字节)

不可见字符的问题往往在调试时才暴露,且难以复现。最稳妥的做法是:所有外部输入,在进入业务逻辑前,都走一遍最小化清洗 —— 宁可多删,不可留隐患。