Question 1

어떤 형식을 써야 하나요?

Accepted Answer

NFC가 저장·전송·웹에서 가장 안전한 기본값입니다 — 가장 짧은 정규 형식이며 대부분의 시스템이 기대하는 형식입니다. 시스템이 분해 텍스트를 요구할 때(예: 일부 macOS 환경) NFD를 쓰세요. NFKC·NFKD는 합자·전각·위/아래 첨자 폴딩 같은 호환 변환을 의도적으로 원할 때만 쓰세요 — 손실 변환이기 때문입니다.

Question 2

'발음 구별 기호 제거'는 무엇을 하나요?

Accepted Answer

텍스트를 분해(NFD)하고 모든 결합 표시를 제거한 뒤 선택한 형식으로 다시 정규화합니다 — 'café'는 'cafe', 'Crème Brûlée'는 'Creme Brulee'가 됩니다. ASCII 슬러그나 악센트 무시 검색 키를 만들 때 유용하지만, 많은 언어에서 의미가 바뀌므로 정확히 유지해야 하는 텍스트에는 쓰지 마세요.

Question 3

왜 형식 간 바이트 수가 다른가요?

Accepted Answer

분해 형식(NFD·NFKD)은 보통 더 많은 코드포인트를 씁니다 — 합성 'é'는 UTF-8에서 2바이트 한 문자지만, 'e' + 결합 악센트는 합계 3바이트의 두 문자입니다. 호환 형식은 양쪽 다 가능합니다. 표에서 정확한 코드포인트·바이트 길이를 비교할 수 있습니다.

Question 4

정규화는 가역적인가요?

Accepted Answer

NFC ↔ NFD는 정규 동등성에 대해 정보를 보존하며 가역적입니다. NFKC·NFKD는 가역적이지 않습니다 — 합자나 전각 숫자가 폴딩되면 원래 구분은 사라집니다. 발음 구별 기호 제거도 단방향입니다.

형식	글자	바이트	= 입력?
NFC	17	32	예
NFD	18	33	아니오
NFKC	20	21	아니오
NFKD	21	22	아니오

유니코드 정규화 (NFC, NFD, NFKC, NFKD)

사용법

자주 묻는 질문

관련 도구

Markdown 표 → CSV 변환기

마크다운 표 생성기

텍스트 Diff 뷰어

Lorem Ipsum 생성기

대소문자 변환기

글자수 단어수 카운터