AZ Tools

Inspector de Caracteres Unicode

Texto

Cada caracter en esta herramienta tiene una fila mostrando: el caracter mismo, codepoint en hex `U+HHHH`, secuencia de bytes UTF-8, entidad HTML decimal (`&#NNNN;`), escape CSS (`\HHHH`), y el bloque Unicode al que pertenece. Útil para debug de mojibake, encontrar el codepoint exacto de un caracter confuso (¿es hyphen-minus o em dash?), o ver cuántos bytes ocupa tu string en storage UTF-8. Maneja surrogate pairs correctamente usando Array.from para iteración propia de codepoints.

string.length

13

Codepoints

12

Bytes UTF-8

19

CharCodepointBytes UTF-8Entidad HTMLEscape CSSBloque
HU+004848H\0048Basic Latin (ASCII)
eU+006565e\0065Basic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
oU+006F6Fo\006FBasic Latin (ASCII)
,U+002C2C,\002CBasic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
U+4E16E4 B8 96世\4E16CJK Unified Ideographs
U+754CE7 95 8C界\754CCJK Unified Ideographs
!U+002121!\0021Basic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
🌏U+1F30FF0 9F 8C 8F🌏\1F30FMiscellaneous Symbols & Pictographs

Codepoints iterados con Array.from (surrogate-pair safe). Nombres de bloque cubren los rangos Unicode más comunes — bloques nicho pueden mostrar '—'.

Cómo usar

  1. Pega o escribe texto en el input box.
  2. Lee la metadata de cada caracter en la tabla.
  3. Copia la tabla parseada como TSV con el botón copy.

Preguntas frecuentes

¿Por qué 🌏 es una fila pero len = 2?
Emoji y otros codepoints de planos suplementarios (>U+FFFF) toman 2 unidades de código UTF-16 en strings JavaScript, pero son un caracter percibido por usuario. La herramienta cuenta codepoints (Array.from) para conteo de filas, pero reporta `string.length` aparte así ves la discrepancia.
¿Total bytes vs columna UTF-8 — mismo?
Sí. Total bytes = suma del conteo bytes UTF-8 de cada fila, computado vía TextEncoder para precisión en edge cases. Útil para dimensionar storage o formato wire.
¿Qué es mojibake?
Texto garbled de interpretar bytes en encoding incorrecto. Clásico: UTF-8 'é' (C3 A9) leído como Latin-1 se vuelve 'é'. Esta herramienta puede ayudar a diagnosticarlo — pega la string garbled y ve si los codepoints matchean lo que 'UTF-8 mal decodificado' produciría.
¿Y characters combinados / clusters de grafemas?
Mostramos codepoints, no grafemas. 'é' puede ser un codepoint (U+00E9) o dos (e + acute combinando, U+0065 + U+0301). El caracter visual es igual; la representación bytes no. Para conteo grafemas propio necesitas Intl.Segmenter — fuera del scope.

Herramientas relacionadas