Question 1

¿Por qué 🌏 es una fila pero len = 2?

Accepted Answer

Emoji y otros codepoints de planos suplementarios (>U+FFFF) toman 2 unidades de código UTF-16 en strings JavaScript, pero son un caracter percibido por usuario. La herramienta cuenta codepoints (Array.from) para conteo de filas, pero reporta `string.length` aparte así ves la discrepancia.

Question 2

¿Total bytes vs columna UTF-8 — mismo?

Accepted Answer

Sí. Total bytes = suma del conteo bytes UTF-8 de cada fila, computado vía TextEncoder para precisión en edge cases. Útil para dimensionar storage o formato wire.

Question 3

¿Qué es mojibake?

Accepted Answer

Texto garbled de interpretar bytes en encoding incorrecto. Clásico: UTF-8 'é' (C3 A9) leído como Latin-1 se vuelve 'Ã©'. Esta herramienta puede ayudar a diagnosticarlo — pega la string garbled y ve si los codepoints matchean lo que 'UTF-8 mal decodificado' produciría.

Question 4

¿Y characters combinados / clusters de grafemas?

Accepted Answer

Mostramos codepoints, no grafemas. 'é' puede ser un codepoint (U+00E9) o dos (e + acute combinando, U+0065 + U+0301). El caracter visual es igual; la representación bytes no. Para conteo grafemas propio necesitas Intl.Segmenter — fuera del scope.

Char	Codepoint	Bytes UTF-8	Entidad HTML	Escape CSS	Bloque
H	U+0048	48	H	\0048	Basic Latin (ASCII)
e	U+0065	65	e	\0065	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
o	U+006F	6F	o	\006F	Basic Latin (ASCII)
,	U+002C	2C	,	\002C	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
世	U+4E16	E4 B8 96	世	\4E16	CJK Unified Ideographs
界	U+754C	E7 95 8C	界	\754C	CJK Unified Ideographs
!	U+0021	21	!	\0021	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
🌏	U+1F30F	F0 9F 8C 8F	🌏	\1F30F	Miscellaneous Symbols & Pictographs

Inspector de Caracteres Unicode

Cómo usar

Preguntas frecuentes

Herramientas relacionadas

Generador de URL Slug

Generador de Tablas Markdown

Visor de Diferencias de Texto

Generador de Lorem Ipsum

Conversor de Mayúsculas

Contador de Caracteres y Palabras