AZ Tools

Reparador de Mojibake (UTF-8 corrupto)

Texto

El mojibake es el texto ilegible que aparece cuando bytes UTF-8 se leen por error como una codificación de un solo byte — casi siempre Windows-1252, el valor por defecto heredado de Windows. Una é se vuelve é, un apóstrofo tipográfico se vuelve ’, un espacio duro se vuelve  , y un emoji se convierte en cuatro caracteres raros como 😀. Esta herramienta lo revierte: vuelve a codificar cada carácter al byte Windows-1252 del que vino y decodifica los bytes resultantes como UTF-8, recuperando el texto original. Aplica la reparación repetidamente para texto doblemente estropeado, y es segura por diseño — el texto correctamente codificado (incluidas escrituras no latinas) no forma UTF-8 válido al revertirlo, así que se deja intacto en lugar de dañarlo. Pega el texto roto y copia la versión reparada. Todo corre localmente; no se sube nada.

Reparado · reparado en 1 pasada(s)

Revierte UTF-8 mal decodificado como Windows-1252. El texto correcto (cualquier escritura) se detecta como válido y se deja intacto.

Cómo usar

  1. Pega el texto ilegible.
  2. Lee la salida reparada — la herramienta muestra cuántas pasadas hicieron falta, o que no hacía falta arreglar nada.
  3. Copia el texto corregido.

Preguntas frecuentes

¿Qué causa el mojibake?
Ocurre cuando texto guardado como UTF-8 se lee después con otra codificación de un solo byte — casi siempre Windows-1252 o ISO-8859-1. Cada carácter no ASCII se guardó como dos o más bytes UTF-8, y leer esos bytes de uno en uno produce los caracteres equivocados: é (dos bytes) aparece como los dos caracteres é. Importaciones CSV, migraciones de bases de datos y copiar-pegar entre sistemas dispares son causas comunes.
¿Dañará texto que ya está correcto?
No. La reparación solo tiene éxito cuando los bytes revertidos forman UTF-8 válido, cosa que el mojibake real sí hace pero el texto bien codificado no. Así que 'café', 'Köln', '한국어' o '日本語' que ya están bien se detectan como válidos y se dejan exactamente como están — la herramienta informa de que no hacía falta arreglo.
¿Por qué a veces aplica más de una pasada?
Si el texto se decodificó mal dos veces — por ejemplo UTF-8 leído como Windows-1252, guardado y leído de nuevo como Windows-1252 — el estropicio se acumula en capas. La herramienta repite la reparación hasta que el texto deja de cambiar o ya no se revierte a UTF-8 válido, y te dice cuántas pasadas usó.
No arregló mi texto — ¿por qué?
O el texto ya está correcto, o la corrupción no es del tipo común UTF-8-como-Windows-1252 (por ejemplo se decodificó mal como Shift_JIS o EUC-KR, o se perdieron bytes). Esta herramienta apunta al caso más frecuente; para abrir un archivo en una codificación heredada concreta, usa un convertidor de codificación de texto.

Herramientas relacionadas