ファイル文字コード判定ツール
ファイル
ファイルが文字化け(괆쒋쀎)で表示されたら、最初のステップは実際にどの文字コードかを把握すること。この判定器はブラウザでファイルのバイトを読み(アップロードなし)標準ヒューリスティックを実行: BOMバイトシーケンス優先(UTF-16 LEは FF FE、UTF-8 BOMは EF BB BF など)、次にnullバイト密度(UTF-16はASCIIコンテンツで1バイトおきにnull)、次にUTF-8有効性チェック(ほとんどのマルチバイトシーケンスはLatin-1では無効 → 有効UTF-8 = ほぼ確実にUTF-8)。判定された文字コード·信頼度パーセント·あればBOMバイト·16進/テキスト並列プレビューを返す → デコードを視覚的に正常性確認可能。
—
使い方
- テキストファイルをドロップまたは選択。判定はブラウザで実行 — ファイルはページを離れない。
- BOMパネルを先に確認: BOMがあれば文字コードは本質的に確実。BOMなければヒューリスティック判定。
- 16進ビューとデコード後のテキストプレビューを比較。非ASCII文字が正しく見えれば判定は正確。
よくある質問
- chardetのような『判定』ライブラリがないのは?
- ブラウザはchardetを持たず、いくつかの一般的なケースのために大きな文字コード判定ライブラリ(ICUの `CharsetDetector` のJSポートは~200KB)をインポートするのは過剰。このツールは95%のケースをカバー: BOM·ASCIIのみ·有効UTF-8·nullバイトパターンによるUTF-16。BOMなしのエキゾチックなアジア文字コード(Shift_JIS·GB2312·EUC-KR)にはchardetが必要 — ただしこのツールは『UTF-8ではない』と伝えるので他を探すべきと分かる。
- BOMって何?
- Byte Order Markは文字コードを明示的にマークする2-4バイトのプレフィックス。UTF-8 BOMは `EF BB BF`(技術的に不要、議論あり — Microsoftは追加、Unixツールは通常削除)。UTF-16/32 BOM(`FF FE` など)はエンディアンも信号するので便利。ファイルにBOMがあれば絶対に信頼。
関連ツール
画像 → PDF 変換
複数の JPG / PNG 画像を 1 つの PDF に結合 — ページサイズ・向き・フィット調整可能。
ファイル00
ZIP 内容ビューア
ZIP をドロップすると展開せずに中身を一覧・サイズ・プレビュー・個別ダウンロード可能。
ファイル00
ファイル分割
大きなファイルを小さなチャンクに分割し、添付 / アップロードのサイズ制限を回避。
ファイル00
テキストエンコーディング変換
Shift_JIS・EUC-JP・Windows-1252 など非 UTF-8 のテキストを UTF-8 で読める形に。
ファイル00
ファイルハッシュ (チェックサム)
任意のファイルの SHA-1・SHA-256・SHA-512 チェックサムを計算。
ファイル00
CSV ↔ JSON 変換ツール
CSV を JSON に、JSON を CSV に変換(区切り文字を選択可)。
ファイル00