AZ Tools

Reparador de Mojibake (UTF-8 corrompido)

Texto

Mojibake é o texto ilegível que surge quando bytes UTF-8 são lidos por engano como uma codificação de byte único — quase sempre Windows-1252, o padrão herdado do Windows. Um é vira é, um apóstrofo tipográfico vira ’, um espaço inquebrável vira  , e um emoji vira quatro caracteres estranhos como 😀. Esta ferramenta reverte isso: recodifica cada caractere para o byte Windows-1252 de onde veio e decodifica os bytes resultantes como UTF-8, recuperando o texto original. Aplica a reparação repetidamente para texto duplamente estragado, e é segura por design — texto corretamente codificado (incluindo escritas não latinas) não forma UTF-8 válido ao reverter, então é deixado intacto em vez de danificado. Cole o texto quebrado e copie a versão reparada. Tudo roda localmente; nada é enviado.

Reparado · reparado em 1 passagem(ns)

Reverte UTF-8 mal decodificado como Windows-1252. Texto correto (qualquer escrita) é detectado como válido e deixado intacto.

Como usar

  1. Cole o texto ilegível.
  2. Leia a saída reparada — a ferramenta mostra quantas passagens foram necessárias, ou que nada precisava ser corrigido.
  3. Copie o texto corrigido.

Perguntas frequentes

O que causa mojibake?
Acontece quando texto salvo como UTF-8 é lido depois com outra codificação de byte único — quase sempre Windows-1252 ou ISO-8859-1. Cada caractere não ASCII foi salvo como dois ou mais bytes UTF-8, e ler esses bytes um a um produz os caracteres errados: é (dois bytes) aparece como os dois caracteres é. Importações CSV, migrações de banco de dados e copiar-colar entre sistemas incompatíveis são culpados comuns.
Vai danificar texto que já está correto?
Não. A reparação só tem sucesso quando os bytes revertidos formam UTF-8 válido, o que o mojibake real faz mas o texto bem codificado não. Então 'café', 'Köln', '한국어' ou '日本語' que já estão certos são detectados como válidos e deixados exatamente como estão — a ferramenta informa que nenhum reparo era necessário.
Por que às vezes aplica mais de uma passagem?
Se o texto foi mal decodificado duas vezes — por exemplo UTF-8 lido como Windows-1252, salvo e lido de novo como Windows-1252 — o estrago se acumula em camadas. A ferramenta repete a reparação até o texto parar de mudar ou não reverter mais para UTF-8 válido, e diz quantas passagens usou.
Não corrigiu meu texto — por quê?
Ou o texto já está correto, ou a corrupção não é do tipo comum UTF-8-como-Windows-1252 (por exemplo foi mal decodificado como Shift_JIS ou EUC-KR, ou bytes foram realmente perdidos). Esta ferramenta foca no caso mais frequente; para abrir um arquivo em uma codificação herdada específica, use um conversor de codificação de texto.

Ferramentas relacionadas