Question 1

Por que 🌏 é uma linha mas len = 2?

Accepted Answer

Emojis e outros codepoints de planos suplementares (>U+FFFF) tomam 2 unidades de código UTF-16 em strings JavaScript, mas são um caractere percebido pelo usuário. A ferramenta conta codepoints (Array.from) pra contagem de linhas, mas reporta `string.length` à parte pra ver a discrepância.

Question 2

Total bytes vs coluna UTF-8 — mesmo?

Accepted Answer

Sim. Total bytes = soma da contagem bytes UTF-8 de cada linha, computado via TextEncoder pra precisão em edge cases. Útil pra dimensionar storage ou formato wire.

Question 3

O que é mojibake?

Accepted Answer

Texto bagunçado de interpretar bytes em encoding errado. Clássico: UTF-8 'é' (C3 A9) lido como Latin-1 vira 'Ã©'. Esta ferramenta pode ajudar a diagnosticar — cole a string bagunçada e veja se os codepoints batem com o que 'UTF-8 mal decodificado' produziria.

Question 4

E caracteres combinantes / clusters de grafemas?

Accepted Answer

Mostramos codepoints, não grafemas. 'é' pode ser um codepoint (U+00E9) ou dois (e + agudo combinante, U+0065 + U+0301). O caractere visual é igual; a representação bytes não. Pra contagem grafema apropriada precisa Intl.Segmenter — fora do escopo.

Char	Codepoint	Bytes UTF-8	Entidade HTML	Escape CSS	Bloco
H	U+0048	48	H	\0048	Basic Latin (ASCII)
e	U+0065	65	e	\0065	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
o	U+006F	6F	o	\006F	Basic Latin (ASCII)
,	U+002C	2C	,	\002C	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
世	U+4E16	E4 B8 96	世	\4E16	CJK Unified Ideographs
界	U+754C	E7 95 8C	界	\754C	CJK Unified Ideographs
!	U+0021	21	!	\0021	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
🌏	U+1F30F	F0 9F 8C 8F	🌏	\1F30F	Miscellaneous Symbols & Pictographs

Inspetor de Caracteres Unicode

Como usar

Perguntas frequentes

Ferramentas relacionadas

Gerador de URL Slug

Gerador de Tabelas Markdown

Visualizador de Diferenças de Texto

Gerador de Lorem Ipsum

Conversor de Maiúsculas

Contador de Caracteres e Palavras