AZ Tools

ファイル文字コード判定ツール

ファイル

ファイルが文字化け(괆쒋쀎)で表示されたら、最初のステップは実際にどの文字コードかを把握すること。この判定器はブラウザでファイルのバイトを読み(アップロードなし)標準ヒューリスティックを実行: BOMバイトシーケンス優先(UTF-16 LEは FF FE、UTF-8 BOMは EF BB BF など)、次にnullバイト密度(UTF-16はASCIIコンテンツで1バイトおきにnull)、次にUTF-8有効性チェック(ほとんどのマルチバイトシーケンスはLatin-1では無効 → 有効UTF-8 = ほぼ確実にUTF-8)。判定された文字コード·信頼度パーセント·あればBOMバイト·16進/テキスト並列プレビューを返す → デコードを視覚的に正常性確認可能。

使い方

  1. テキストファイルをドロップまたは選択。判定はブラウザで実行 — ファイルはページを離れない。
  2. BOMパネルを先に確認: BOMがあれば文字コードは本質的に確実。BOMなければヒューリスティック判定。
  3. 16進ビューとデコード後のテキストプレビューを比較。非ASCII文字が正しく見えれば判定は正確。

よくある質問

chardetのような『判定』ライブラリがないのは?
ブラウザはchardetを持たず、いくつかの一般的なケースのために大きな文字コード判定ライブラリ(ICUの `CharsetDetector` のJSポートは~200KB)をインポートするのは過剰。このツールは95%のケースをカバー: BOM·ASCIIのみ·有効UTF-8·nullバイトパターンによるUTF-16。BOMなしのエキゾチックなアジア文字コード(Shift_JIS·GB2312·EUC-KR)にはchardetが必要 — ただしこのツールは『UTF-8ではない』と伝えるので他を探すべきと分かる。
BOMって何?
Byte Order Markは文字コードを明示的にマークする2-4バイトのプレフィックス。UTF-8 BOMは `EF BB BF`(技術的に不要、議論あり — Microsoftは追加、Unixツールは通常削除)。UTF-16/32 BOM(`FF FE` など)はエンディアンも信号するので便利。ファイルにBOMがあれば絶対に信頼。

関連ツール