Question 1

Por que não há uma biblioteca 'detect' como chardet?

Accepted Answer

Navegadores não vêm com chardet, e importar uma biblioteca grande de detecção de codificação (o port JS do `CharsetDetector` da ICU é ~200KB) para alguns casos comuns é exagero. Esta ferramenta cobre o caso 95%: BOMs, só-ASCII, UTF-8 válido, e UTF-16 por padrão de bytes null. Para codificações asiáticas exóticas (Shift_JIS, GB2312, EUC-KR) sem BOM, você precisará de chardet — mas esta ferramenta dirá 'não é UTF-8' para você saber procurar em outro lugar.

Question 2

Qual o lance dos BOMs?

Accepted Answer

Byte Order Marks são prefixos de 2-4 bytes que marcam explicitamente a codificação. UTF-8 BOM é `EF BB BF` (tecnicamente desnecessário, controverso — Microsoft adiciona, ferramentas Unix geralmente removem). BOMs UTF-16/32 (`FF FE` etc.) são úteis porque também sinalizam endianness. Se um arquivo tem um BOM, confie nele absolutamente.

Detector de Codificação de Arquivos

Como usar

Perguntas frequentes

Ferramentas relacionadas

Conversor Imagens → PDF

Inspetor de ZIP

Divisor de Arquivos

Conversor de Codificação de Texto

Hash de Arquivo (Checksum)

Conversor CSV ↔ JSON