Question 1

왜 🌏는 행 1개지만 len = 2?

Accepted Answer

이모지·기타 보충 평면 코드포인트(>U+FFFF)는 자바스크립트 문자열에서 2개 UTF-16 코드 유닛 차지·사용자 인식엔 한 문자. 도구는 행 수에 코드포인트(Array.from) 세지만 `string.length`도 별도 표시 — 불일치 확인 가능.

Question 2

총 바이트가 UTF-8 칼럼과 동일?

Accepted Answer

네. 총 바이트 = 각 행의 UTF-8 바이트 합·엣지 케이스 정확도 위해 TextEncoder로 계산. 저장·와이어 포맷 크기 산정에 유용.

Question 3

모지바케란?

Accepted Answer

잘못된 인코딩으로 바이트 해석한 깨진 텍스트. 클래식: UTF-8 'é'(C3 A9)을 Latin-1로 읽으면 'Ã©'. 이 도구로 진단 가능 — 깨진 문자열 붙여넣고 코드포인트가 '잘못 디코드된 UTF-8' 결과와 맞는지 확인.

Question 4

결합 문자·자소 클러스터는?

Accepted Answer

코드포인트 표시·자소 아님. 'é'는 코드포인트 1개(U+00E9)이거나 2개(e + 결합 예음, U+0065 + U+0301) 가능. 시각적 문자는 동일·바이트 표현은 다름. 적절한 자소 카운팅은 Intl.Segmenter 필요 — 이 도구 범위 밖.

문자	코드포인트	UTF-8 바이트	HTML 엔티티	CSS 이스케이프	블록
H	U+0048	48	H	\0048	Basic Latin (ASCII)
e	U+0065	65	e	\0065	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
l	U+006C	6C	l	\006C	Basic Latin (ASCII)
o	U+006F	6F	o	\006F	Basic Latin (ASCII)
,	U+002C	2C	,	\002C	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
世	U+4E16	E4 B8 96	世	\4E16	CJK Unified Ideographs
界	U+754C	E7 95 8C	界	\754C	CJK Unified Ideographs
!	U+0021	21	!	\0021	Basic Latin (ASCII)
␠	U+0020	20		\0020	Basic Latin (ASCII)
🌏	U+1F30F	F0 9F 8C 8F	🌏	\1F30F	Miscellaneous Symbols & Pictographs

유니코드 문자 검사기

사용법