17370845950

新闻动态

php判断字符串长度含不可见字符_php不可见字符处理【步骤】

是。strlen() 统计字节数，会将\0、\t、\n、BOM、零宽空格等所有占字节的不可见字符计入长度，导致看似为空的字符串返回非零值。

strlen() 会把不可见字符算进长度吗

会。PHP 的 strlen() 统计的是字节数，不是“可视字符数”。像 \0（空字符）、\t、\n、\r、UTF-8 BOM（\xEF\xBB\xBF）、零宽空格（\xE2\x80\x8B）这些，只要占字节，strlen() 就会计入。

常见

误判场景：表单提交后看似空的字符串，strlen() 却返回非 0；JSON 解析失败但看不出输入异常；数据库写入后字段莫名截断。

用 bindec(dechex(ord($char))) 或 unpack('H*', $str) 查看原始字节，确认是否混入不可见字符
对用户输入做清洗前，先用 strlen() 和 mb_strlen($str, 'UTF-8') 对比——若不等，大概率含多字节不可见符（如 BOM 或零宽）
注意：mb_strlen() 同样会统计 UTF-8 编码下的不可见字符（如 U+200B），它只按字符计数，不区分“是否可见”

过滤常见不可见字符的实用方法

不能靠简单 trim —— trim() 默认只处理空白符（空格、\t、\n、\r、\0、\x0B），对 BOM、零宽空格、软连字符（U+00AD）等完全无效。

推荐组合过滤：

先用 preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]/', '', $str) 清除 ASCII 控制字符（不含 \t\n\r）
再用 preg_replace('/[\xE2\x80\x80-\xE2\x80\x8B\xE2\x81\x9F\xE2\x81\xA0]/u', '', $str) 去掉常见 Unicode 格式字符（包括零宽空格、窄空格、换行符等）
对可能含 BOM 的输入（如文件读取、前端粘贴内容），开头用 ltrim($str, "\xEF\xBB\xBF") 显式剥离 UTF-8 BOM

示例：

$clean = ltrim($input, "\xEF\xBB\xBF");
$clean = preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]/', '', $clean);
$clean = preg_replace('/[\xE2\x80\x80-\xE2\x80\x8B\xE2\x81\x9F\xE2\x81\xA0]/u', '', $clean);

判断是否“真正为空”要避开哪些坑

直接 empty($str) 或 !$str 不可靠：含空格或不可见字符时返回 false，但业务上可能期望它为“空”。

更安全的“语义为空”判断逻辑：

先过滤不可见字符（如上一步），再 trim()，最后判断 === ''
避免用 mb_ereg_replace('^\\s+$', '', $str) === '' —— \s 在 PCRE 中默认不匹配零宽类字符，会造成漏判
如果需兼容 JSON 输入，注意 json_decode($str, true) 失败时可能因开头 BOM 导致，应先清理再解码

从源头减少不可见字符混入

前端粘贴、富文本编辑器、Excel 复制、某些 CMS 导出 CSV 是主要污染源。后端不能只靠兜底清洗。

表单提交前 JS 可做轻量预处理：value.replace(/[\u200B-\u200F\u202A-\u202E\uFEFF]/g, '')
接收 POST 数据后，立即对关键字段（如用户名、搜索关键词）执行不可见字符过滤，不要等到入库或显示时才处理
读取文件（尤其是 file_get_contents()）前，用 fopen() + fgets() 检查首几个字节是否为 BOM，或统一用 mb_convert_encoding($content, 'UTF-8', 'UTF-8') 强制重编码（会自动丢弃非法字节）

不可见字符的问题往往在调试时才暴露，且难以复现。最稳妥的做法是：所有外部输入，在进入业务逻辑前，都走一遍最小化清洗 —— 宁可多删，不可留隐患。

17370845950

strlen() 会把不可见字符算进长度吗

过滤常见不可见字符的实用方法

判断是否“真正为空”要避开哪些坑

从源头减少不可见字符混入

关于我们

服务项目

广告推广

案例欣赏