Unicode 文字検査器
テキスト
本ツールではすべての文字に行が割り当てられる: 文字自体、`U+HHHH` 16 進のコードポイント、UTF-8 バイト列、HTML 10 進エンティティ(`&#NNNN;`)、CSS エスケープ(`\HHHH`)、所属する Unicode ブロック。文字化けのデバッグ、紛らわしい文字の正確なコードポイント特定(ハイフンマイナスか em ダッシュか?)、UTF-8 ストレージで文字列が何バイト占めるかの確認に有用。Array.from を使って適切なコードポイント反復 — サロゲートペアを正しく処理。
—
string.length
13
コードポイント
12
UTF-8 バイト
19
| 文字 | コードポイント | UTF-8 バイト | HTML エンティティ | CSS エスケープ | ブロック |
|---|---|---|---|---|---|
| H | U+0048 | 48 | H | \0048 | Basic Latin (ASCII) |
| e | U+0065 | 65 | e | \0065 | Basic Latin (ASCII) |
| l | U+006C | 6C | l | \006C | Basic Latin (ASCII) |
| l | U+006C | 6C | l | \006C | Basic Latin (ASCII) |
| o | U+006F | 6F | o | \006F | Basic Latin (ASCII) |
| , | U+002C | 2C | , | \002C | Basic Latin (ASCII) |
| ␠ | U+0020 | 20 |   | \0020 | Basic Latin (ASCII) |
| 世 | U+4E16 | E4 B8 96 | 世 | \4E16 | CJK Unified Ideographs |
| 界 | U+754C | E7 95 8C | 界 | \754C | CJK Unified Ideographs |
| ! | U+0021 | 21 | ! | \0021 | Basic Latin (ASCII) |
| ␠ | U+0020 | 20 |   | \0020 | Basic Latin (ASCII) |
| 🌏 | U+1F30F | F0 9F 8C 8F | 🌏 | \1F30F | Miscellaneous Symbols & Pictographs |
コードポイントは Array.from で反復(サロゲートペアセーフ)。ブロック名は最も一般的な Unicode 範囲をカバー — ニッチなブロックは「—」表示。
使い方
- 入力ボックスにテキストを貼付または入力。
- テーブルで各文字のメタデータを確認。
- コピーボタンで解析済みテーブルを TSV としてコピー。
よくある質問
- なぜ 🌏 は 1 行なのに len = 2?
- 絵文字やその他の補助面コードポイント(>U+FFFF)は JavaScript 文字列で 2 つの UTF-16 コード単位を取るが、ユーザーが認識する文字は 1 つ。本ツールは行数にコードポイント数(Array.from)を使用するが、`string.length` も別途レポートするので不一致が見える。
- 総バイトと UTF-8 カラム — 同じ?
- はい。総バイト = 各行の UTF-8 バイト数の合計、エッジケースの正確性のため TextEncoder で計算。ストレージやワイヤーフォーマットのサイズ算出に有用。
- 文字化けとは?
- 誤ったエンコーディングでバイトを解釈した結果生じる崩れたテキスト。古典例: UTF-8 の 'é'(C3 A9)を Latin-1 として読むと 'é' になる。本ツールでも診断可能 — 化けた文字列を貼って、コードポイントが「誤デコードされた UTF-8」が生む結果と一致するか確認。
- 結合文字・グラフィムクラスタは?
- コードポイントを表示し、グラフィムは表示しない。'é' は 1 コードポイント(U+00E9)にも 2 コードポイント(e + 結合アクセント、U+0065 + U+0301)にもなり得る。視覚的な文字は同じでもバイト表現は異なる。適切なグラフィムカウントには Intl.Segmenter が必要 — 本ツールの範囲外。
関連ツール
URL スラッグジェネレーター
任意のテキストを URL スラッグに変換 — アクセント除去、区切り選択、最大長指定。
テキスト00
Markdown テーブル生成
CSV・TSV・パイプ区切りデータを整列された GitHub 風 Markdown テーブルに変換。
テキスト00
テキスト Diff ビューア
2 つのテキストを行 / 単語単位で比較し、追加・削除をハイライト。
テキスト00
Lorem Ipsum ジェネレーター
段落・文・単語の単位でダミーテキストを生成。
テキスト00
大文字・小文字変換
大文字・小文字・Title・camelCase・snake_case などに変換。
テキスト00
文字数・単語数カウンター
文字・単語・文・行・バイト数をリアルタイムで数えます。
テキスト00