AZ Tools

文字化け修復 (壊れた UTF-8 を修復)

テキスト

文字化け(mojibake)は、UTF-8 バイトを単一バイトエンコーディング — ほぼ常にレガシー Windows の既定である Windows-1252 — として誤って読んだときに生じる壊れたテキストです。é は é に、丸いアポストロフィは ’ に、ノーブレークスペースは  に、絵文字は 😀 のような 4 つの妙な文字になります。本ツールはそれを逆転します:各文字を元の Windows-1252 バイトに再エンコードし、そのバイトを UTF-8 として復号して元のテキストを復元します。二重に壊れたテキストには修復を繰り返し適用し、設計上安全です — 正しくエンコードされたテキスト(非ラテン文字を含む)は逆変換すると有効な UTF-8 にならないため、壊さずそのまま残します。壊れたテキストを貼り付け、修復版をコピーしてください。すべてローカルで動作し、アップロードされません。

修復済み · 1 回のパスで修復

Windows-1252 として誤復号された UTF-8 を戻します。正しいテキスト(どの文字でも)は有効と判定されそのまま残ります。

使い方

  1. 壊れたテキストを貼り付け。
  2. 修復された出力を読みます — 何回のパスが必要だったか、または修復不要だったかが表示されます。
  3. 修正されたテキストをコピー。

よくある質問

文字化けの原因は?
UTF-8 で保存されたテキストを後で別の単一バイトエンコーディング — 多くは Windows-1252 や ISO-8859-1 — で読んだときに起きます。各非 ASCII 文字は 2 つ以上の UTF-8 バイトで保存され、それを 1 バイトずつ読むと誤った文字になります:é(2 バイト)は 2 文字 é として現れます。CSV インポート、データベース移行、エンコーディングが異なるシステム間のコピペが典型です。
すでに正しいテキストを壊しますか?
いいえ。修復は逆変換したバイトが有効な UTF-8 になるときのみ成功し、本物の文字化けはそうなりますが正しくエンコードされたテキストはなりません。だから既に正しい 'café'、'Köln'、'한국어'、'日本語' は有効と判定されそのまま残り、修復不要と報告されます。
なぜ時々 2 回以上パスを適用しますか?
テキストが二重に誤復号された場合 — 例えば UTF-8 を Windows-1252 で読み保存し、再び Windows-1252 で読むと — 化けが重なります。ツールはテキストが変化しなくなるか有効な UTF-8 に戻らなくなるまで修復を繰り返し、何回パスを使ったか伝えます。
テキストが直りませんでした — なぜ?
テキストがすでに正しいか、破損が一般的な UTF-8-を-Windows-1252-で読んだ種類でないためです(例:Shift_JIS や EUC-KR で誤復号された、またはバイトが実際に失われた)。本ツールは最も頻繁なケースを対象とします。特定のレガシーエンコーディングでファイルを開くには、テキストエンコーディング変換ツールを使ってください。

関連ツール