AZ Tools

Unicode 字符检查器

文本

本工具会把每个字符列成一行:字符本身、`U+HHHH` 十六进制码点、UTF-8 字节序列、HTML 十进制实体(`&#NNNN;`)、CSS 转义(`\HHHH`),以及它所属的 Unicode 区块。便于排查乱码、确认某个含混字符的真实码点(究竟是 hyphen-minus 还是 em dash?)、统计 UTF-8 存储下字符串占多少字节。用 Array.from 迭代码点,正确处理代理对。

string.length

13

码点数

12

UTF-8 字节

19

字符码点UTF-8 字节HTML 实体CSS 转义区块
HU+004848H\0048Basic Latin (ASCII)
eU+006565e\0065Basic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
oU+006F6Fo\006FBasic Latin (ASCII)
,U+002C2C,\002CBasic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
U+4E16E4 B8 96世\4E16CJK Unified Ideographs
U+754CE7 95 8C界\754CCJK Unified Ideographs
!U+002121!\0021Basic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
🌏U+1F30FF0 9F 8C 8F🌏\1F30FMiscellaneous Symbols & Pictographs

用 Array.from 迭代码点(代理对安全)。区块名覆盖最常见 Unicode 范围——较冷门的会显示 '—'。

使用方法

  1. 在输入框粘贴或输入文本。
  2. 在表格查看每个字符的元数据。
  3. 用复制按钮把解析后的表导出为 TSV。

常见问题

为什么 🌏 只一行但 len = 2?
emoji 与其他辅助平面码点(>U+FFFF)在 JavaScript 字符串里占 2 个 UTF-16 码元,但对用户来说是一个字符。本工具按码点(Array.from)计行数,同时单独报 `string.length`,方便你看到差异。
总字节和 UTF-8 列等同吗?
等同。总字节 = 各行 UTF-8 字节数之和;为应对边界情况,用 TextEncoder 精确计算。便于估算存储与传输大小。
什么是乱码(mojibake)?
用错误编码解读字节得到的乱字。经典例:UTF-8 的 'é'(C3 A9)若按 Latin-1 读就变成 'é'。本工具可帮诊断——把乱码贴进来,看码点是否与 "UTF-8 被错解" 应得的结果一致。
组合字符 / 字素簇怎么办?
我们显示码点,不显示字素。'é' 可以是 1 个码点(U+00E9),也可以是 2 个(e + 组合锐音,U+0065 + U+0301),视觉上一样但字节不同。要做严格的字素计数,请用 Intl.Segmenter——超出本工具范围。

相关工具