AZ Tools

Inspetor de Caracteres Unicode

Texto

Cada caractere nesta ferramenta ganha uma linha mostrando: o caractere em si, codepoint em hex `U+HHHH`, sequência de bytes UTF-8, entidade HTML decimal (`&#NNNN;`), escape CSS (`\HHHH`), e o bloco Unicode a que pertence. Útil pra debugar mojibake, achar o codepoint exato de um caractere confuso (é hyphen-minus ou em dash?), ou ver quantos bytes sua string ocupa em storage UTF-8. Lida com surrogate pairs corretamente usando Array.from pra iteração própria de codepoints.

string.length

13

Codepoints

12

Bytes UTF-8

19

CharCodepointBytes UTF-8Entidade HTMLEscape CSSBloco
HU+004848H\0048Basic Latin (ASCII)
eU+006565e\0065Basic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
oU+006F6Fo\006FBasic Latin (ASCII)
,U+002C2C,\002CBasic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
U+4E16E4 B8 96世\4E16CJK Unified Ideographs
U+754CE7 95 8C界\754CCJK Unified Ideographs
!U+002121!\0021Basic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
🌏U+1F30FF0 9F 8C 8F🌏\1F30FMiscellaneous Symbols & Pictographs

Codepoints iterados com Array.from (surrogate-pair safe). Nomes de bloco cobrem os ranges Unicode mais comuns — blocos nicho podem mostrar '—'.

Como usar

  1. Cole ou digite texto no input box.
  2. Veja a metadata de cada caractere na tabela.
  3. Copie a tabela parseada como TSV com o botão copy.

Perguntas frequentes

Por que 🌏 é uma linha mas len = 2?
Emojis e outros codepoints de planos suplementares (>U+FFFF) tomam 2 unidades de código UTF-16 em strings JavaScript, mas são um caractere percebido pelo usuário. A ferramenta conta codepoints (Array.from) pra contagem de linhas, mas reporta `string.length` à parte pra ver a discrepância.
Total bytes vs coluna UTF-8 — mesmo?
Sim. Total bytes = soma da contagem bytes UTF-8 de cada linha, computado via TextEncoder pra precisão em edge cases. Útil pra dimensionar storage ou formato wire.
O que é mojibake?
Texto bagunçado de interpretar bytes em encoding errado. Clássico: UTF-8 'é' (C3 A9) lido como Latin-1 vira 'é'. Esta ferramenta pode ajudar a diagnosticar — cole a string bagunçada e veja se os codepoints batem com o que 'UTF-8 mal decodificado' produziria.
E caracteres combinantes / clusters de grafemas?
Mostramos codepoints, não grafemas. 'é' pode ser um codepoint (U+00E9) ou dois (e + agudo combinante, U+0065 + U+0301). O caractere visual é igual; a representação bytes não. Pra contagem grafema apropriada precisa Intl.Segmenter — fora do escopo.

Ferramentas relacionadas