AZ Tools

Unicode 文字検査器

テキスト

本ツールではすべての文字に行が割り当てられる: 文字自体、`U+HHHH` 16 進のコードポイント、UTF-8 バイト列、HTML 10 進エンティティ(`&#NNNN;`)、CSS エスケープ(`\HHHH`)、所属する Unicode ブロック。文字化けのデバッグ、紛らわしい文字の正確なコードポイント特定(ハイフンマイナスか em ダッシュか?)、UTF-8 ストレージで文字列が何バイト占めるかの確認に有用。Array.from を使って適切なコードポイント反復 — サロゲートペアを正しく処理。

string.length

13

コードポイント

12

UTF-8 バイト

19

文字コードポイントUTF-8 バイトHTML エンティティCSS エスケープブロック
HU+004848H\0048Basic Latin (ASCII)
eU+006565e\0065Basic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
oU+006F6Fo\006FBasic Latin (ASCII)
,U+002C2C,\002CBasic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
U+4E16E4 B8 96世\4E16CJK Unified Ideographs
U+754CE7 95 8C界\754CCJK Unified Ideographs
!U+002121!\0021Basic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
🌏U+1F30FF0 9F 8C 8F🌏\1F30FMiscellaneous Symbols & Pictographs

コードポイントは Array.from で反復(サロゲートペアセーフ)。ブロック名は最も一般的な Unicode 範囲をカバー — ニッチなブロックは「—」表示。

使い方

  1. 入力ボックスにテキストを貼付または入力。
  2. テーブルで各文字のメタデータを確認。
  3. コピーボタンで解析済みテーブルを TSV としてコピー。

よくある質問

なぜ 🌏 は 1 行なのに len = 2?
絵文字やその他の補助面コードポイント(>U+FFFF)は JavaScript 文字列で 2 つの UTF-16 コード単位を取るが、ユーザーが認識する文字は 1 つ。本ツールは行数にコードポイント数(Array.from)を使用するが、`string.length` も別途レポートするので不一致が見える。
総バイトと UTF-8 カラム — 同じ?
はい。総バイト = 各行の UTF-8 バイト数の合計、エッジケースの正確性のため TextEncoder で計算。ストレージやワイヤーフォーマットのサイズ算出に有用。
文字化けとは?
誤ったエンコーディングでバイトを解釈した結果生じる崩れたテキスト。古典例: UTF-8 の 'é'(C3 A9)を Latin-1 として読むと 'é' になる。本ツールでも診断可能 — 化けた文字列を貼って、コードポイントが「誤デコードされた UTF-8」が生む結果と一致するか確認。
結合文字・グラフィムクラスタは?
コードポイントを表示し、グラフィムは表示しない。'é' は 1 コードポイント(U+00E9)にも 2 コードポイント(e + 結合アクセント、U+0065 + U+0301)にもなり得る。視覚的な文字は同じでもバイト表現は異なる。適切なグラフィムカウントには Intl.Segmenter が必要 — 本ツールの範囲外。

関連ツール