Question 1

なぜ 🌏 は 1 行なのに len = 2？

Accepted Answer

絵文字やその他の補助面コードポイント（>U+FFFF）は JavaScript 文字列で 2 つの UTF-16 コード単位を取るが、ユーザーが認識する文字は 1 つ。本ツールは行数にコードポイント数（Array.from）を使用するが、`string.length` も別途レポートするので不一致が見える。

Question 2

総バイトと UTF-8 カラム — 同じ？

Accepted Answer

はい。総バイト = 各行の UTF-8 バイト数の合計、エッジケースの正確性のため TextEncoder で計算。ストレージやワイヤーフォーマットのサイズ算出に有用。

Question 3

文字化けとは？

Accepted Answer

誤ったエンコーディングでバイトを解釈した結果生じる崩れたテキスト。古典例: UTF-8 の 'é'（C3 A9）を Latin-1 として読むと 'Ã©' になる。本ツールでも診断可能 — 化けた文字列を貼って、コードポイントが「誤デコードされた UTF-8」が生む結果と一致するか確認。

Question 4

結合文字・グラフィムクラスタは？

Accepted Answer

コードポイントを表示し、グラフィムは表示しない。'é' は 1 コードポイント（U+00E9）にも 2 コードポイント（e + 結合アクセント、U+0065 + U+0301）にもなり得る。視覚的な文字は同じでもバイト表現は異なる。適切なグラフィムカウントには Intl.Segmenter が必要 — 本ツールの範囲外。

文字	コードポイント	UTF-8 バイト	HTML エンティティ	CSS エスケープ	ブロック
H	U+0048	48	H	\0048	Basic Latin (ASCII)
e	U+0065	65	e	\0065	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
o	U+006F	6F	o	\006F	Basic Latin (ASCII)
,	U+002C	2C	,	\002C	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
世	U+4E16	E4 B8 96	世	\4E16	CJK Unified Ideographs
界	U+754C	E7 95 8C	界	\754C	CJK Unified Ideographs
!	U+0021	21	!	\0021	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
🌏	U+1F30F	F0 9F 8C 8F	🌏	\1F30F	Miscellaneous Symbols & Pictographs

Unicode 文字検査器

使い方

よくある質問

関連ツール

URL スラッグジェネレーター

Markdown テーブル生成

テキスト Diff ビューア

Lorem Ipsum ジェネレーター

大文字・小文字変換

文字数・単語数カウンター