AZ Tools

유니코드 문자 검사기

텍스트

이 도구의 모든 문자는 행을 받음 — 문자 자체·`U+HHHH` 16진수 코드포인트·UTF-8 바이트 시퀀스·HTML 십진 엔티티(`&#NNNN;`)·CSS 이스케이프(`\HHHH`)·소속 유니코드 블록. 모지바케 디버깅·헷갈리는 문자의 정확한 코드포인트 찾기(하이픈-마이너스인가 엠 대시인가?)·UTF-8 저장 시 문자열이 차지하는 바이트 수 확인에 유용. Array.from으로 적절한 코드포인트 순회 — 서로게이트 쌍 올바르게 처리.

string.length

13

코드포인트

12

UTF-8 바이트

19

문자코드포인트UTF-8 바이트HTML 엔티티CSS 이스케이프블록
HU+004848H\0048Basic Latin (ASCII)
eU+006565e\0065Basic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
lU+006C6Cl\006CBasic Latin (ASCII)
oU+006F6Fo\006FBasic Latin (ASCII)
,U+002C2C,\002CBasic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
U+4E16E4 B8 96世\4E16CJK Unified Ideographs
U+754CE7 95 8C界\754CCJK Unified Ideographs
!U+002121!\0021Basic Latin (ASCII)
U+002020 \0020Basic Latin (ASCII)
🌏U+1F30FF0 9F 8C 8F🌏\1F30FMiscellaneous Symbols & Pictographs

코드포인트는 Array.from으로 순회(서로게이트 쌍 안전). 블록 이름은 가장 흔한 유니코드 범위 커버 — 틈새 블록은 '—' 표시.

사용법

  1. 입력란에 텍스트 붙여넣기·입력.
  2. 테이블에서 각 문자의 메타데이터 확인.
  3. 복사 버튼으로 파싱된 테이블 TSV 복사.

자주 묻는 질문

왜 🌏는 행 1개지만 len = 2?
이모지·기타 보충 평면 코드포인트(>U+FFFF)는 자바스크립트 문자열에서 2개 UTF-16 코드 유닛 차지·사용자 인식엔 한 문자. 도구는 행 수에 코드포인트(Array.from) 세지만 `string.length`도 별도 표시 — 불일치 확인 가능.
총 바이트가 UTF-8 칼럼과 동일?
네. 총 바이트 = 각 행의 UTF-8 바이트 합·엣지 케이스 정확도 위해 TextEncoder로 계산. 저장·와이어 포맷 크기 산정에 유용.
모지바케란?
잘못된 인코딩으로 바이트 해석한 깨진 텍스트. 클래식: UTF-8 'é'(C3 A9)을 Latin-1로 읽으면 'é'. 이 도구로 진단 가능 — 깨진 문자열 붙여넣고 코드포인트가 '잘못 디코드된 UTF-8' 결과와 맞는지 확인.
결합 문자·자소 클러스터는?
코드포인트 표시·자소 아님. 'é'는 코드포인트 1개(U+00E9)이거나 2개(e + 결합 예음, U+0065 + U+0301) 가능. 시각적 문자는 동일·바이트 표현은 다름. 적절한 자소 카운팅은 Intl.Segmenter 필요 — 이 도구 범위 밖.

관련 도구