Inspetor de Caracteres Unicode
Texto
Cada caractere nesta ferramenta ganha uma linha mostrando: o caractere em si, codepoint em hex `U+HHHH`, sequência de bytes UTF-8, entidade HTML decimal (`&#NNNN;`), escape CSS (`\HHHH`), e o bloco Unicode a que pertence. Útil pra debugar mojibake, achar o codepoint exato de um caractere confuso (é hyphen-minus ou em dash?), ou ver quantos bytes sua string ocupa em storage UTF-8. Lida com surrogate pairs corretamente usando Array.from pra iteração própria de codepoints.
string.length
13
Codepoints
12
Bytes UTF-8
19
| Char | Codepoint | Bytes UTF-8 | Entidade HTML | Escape CSS | Bloco |
|---|---|---|---|---|---|
| H | U+0048 | 48 | H | \0048 | Basic Latin (ASCII) |
| e | U+0065 | 65 | e | \0065 | Basic Latin (ASCII) |
| l | U+006C | 6C | l | \006C | Basic Latin (ASCII) |
| l | U+006C | 6C | l | \006C | Basic Latin (ASCII) |
| o | U+006F | 6F | o | \006F | Basic Latin (ASCII) |
| , | U+002C | 2C | , | \002C | Basic Latin (ASCII) |
| ␠ | U+0020 | 20 |   | \0020 | Basic Latin (ASCII) |
| 世 | U+4E16 | E4 B8 96 | 世 | \4E16 | CJK Unified Ideographs |
| 界 | U+754C | E7 95 8C | 界 | \754C | CJK Unified Ideographs |
| ! | U+0021 | 21 | ! | \0021 | Basic Latin (ASCII) |
| ␠ | U+0020 | 20 |   | \0020 | Basic Latin (ASCII) |
| 🌏 | U+1F30F | F0 9F 8C 8F | 🌏 | \1F30F | Miscellaneous Symbols & Pictographs |
Codepoints iterados com Array.from (surrogate-pair safe). Nomes de bloco cobrem os ranges Unicode mais comuns — blocos nicho podem mostrar '—'.
Como usar
- Cole ou digite texto no input box.
- Veja a metadata de cada caractere na tabela.
- Copie a tabela parseada como TSV com o botão copy.
Perguntas frequentes
- Por que 🌏 é uma linha mas len = 2?
- Emojis e outros codepoints de planos suplementares (>U+FFFF) tomam 2 unidades de código UTF-16 em strings JavaScript, mas são um caractere percebido pelo usuário. A ferramenta conta codepoints (Array.from) pra contagem de linhas, mas reporta `string.length` à parte pra ver a discrepância.
- Total bytes vs coluna UTF-8 — mesmo?
- Sim. Total bytes = soma da contagem bytes UTF-8 de cada linha, computado via TextEncoder pra precisão em edge cases. Útil pra dimensionar storage ou formato wire.
- O que é mojibake?
- Texto bagunçado de interpretar bytes em encoding errado. Clássico: UTF-8 'é' (C3 A9) lido como Latin-1 vira 'é'. Esta ferramenta pode ajudar a diagnosticar — cole a string bagunçada e veja se os codepoints batem com o que 'UTF-8 mal decodificado' produziria.
- E caracteres combinantes / clusters de grafemas?
- Mostramos codepoints, não grafemas. 'é' pode ser um codepoint (U+00E9) ou dois (e + agudo combinante, U+0065 + U+0301). O caractere visual é igual; a representação bytes não. Pra contagem grafema apropriada precisa Intl.Segmenter — fora do escopo.
Ferramentas relacionadas
Gerador de URL Slug
Transforme texto em slug de URL limpo — remove acentos, escolhe separador, define largura máxima.
Gerador de Tabelas Markdown
Cole CSV, TSV ou dados delimitados por pipe e obtenha uma tabela GFM alinhada.
Visualizador de Diferenças de Texto
Compare dois textos e veja adições e remoções linha por linha ou palavra por palavra.
Gerador de Lorem Ipsum
Gere texto de preenchimento por parágrafos, frases ou palavras.
Conversor de Maiúsculas
Converta texto entre MAIÚSCULAS, minúsculas, Título, camelCase e mais.
Contador de Caracteres e Palavras
Conte caracteres, palavras, frases, linhas e bytes em tempo real.