Question 1

为什么 🌏 只一行但 len = 2？

Accepted Answer

emoji 与其他辅助平面码点（>U+FFFF）在 JavaScript 字符串里占 2 个 UTF-16 码元，但对用户来说是一个字符。本工具按码点（Array.from）计行数，同时单独报 `string.length`，方便你看到差异。

Question 2

总字节和 UTF-8 列等同吗？

Accepted Answer

等同。总字节 = 各行 UTF-8 字节数之和；为应对边界情况，用 TextEncoder 精确计算。便于估算存储与传输大小。

Question 3

什么是乱码（mojibake）？

Accepted Answer

Question 4

组合字符 / 字素簇怎么办？

Accepted Answer

我们显示码点，不显示字素。'é' 可以是 1 个码点（U+00E9），也可以是 2 个（e + 组合锐音，U+0065 + U+0301），视觉上一样但字节不同。要做严格的字素计数，请用 Intl.Segmenter——超出本工具范围。

字符	码点	UTF-8 字节	HTML 实体	CSS 转义	区块
H	U+0048	48	H	\0048	Basic Latin (ASCII)
e	U+0065	65	e	\0065	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
o	U+006F	6F	o	\006F	Basic Latin (ASCII)
,	U+002C	2C	,	\002C	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
世	U+4E16	E4 B8 96	世	\4E16	CJK Unified Ideographs
界	U+754C	E7 95 8C	界	\754C	CJK Unified Ideographs
!	U+0021	21	!	\0021	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
🌏	U+1F30F	F0 9F 8C 8F	🌏	\1F30F	Miscellaneous Symbols & Pictographs

Unicode 字符检查器

使用方法