Question 1

어떤 지표 사용?

Accepted Answer

사람이 인접 문자를 바꾸는 타이핑 텍스트는 Damerau-Levenshtein 사용. 단백질 서열·고정 길이 코드는 Hamming. 그 외 모든 것(URL 슬러그·이름·자유 텍스트)은 Levenshtein이 안전한 기본 — 대부분 맞춤법 라이브러리가 내부적으로 사용.

Question 2

유사도 %와 거리 관계?

Accepted Answer

정규화된 Levenshtein: 100%는 동일·0%는 모든 문자 교체 필요. 분모는 두 문자열 중 더 긴 것 — `cat` 대 `dog`은 0%(3 편집/3 문자)·`cat` 대 `catt`는 75%(1 편집/4 문자).

Question 3

Hamming이 가끔 'n/a'인 이유?

Accepted Answer

Hamming 거리는 같은 길이 문자열에만 정의. 길이가 다르면 의미 있는 쌍별 위치 비교 불가 — Levenshtein 사용.

Question 4

대소문자 구분?

Accepted Answer

예. `Cat` 대 `cat`은 Levenshtein 거리 1. 대소문자 무시 비교 원하면 두 입력 모두 소문자화 먼저.

문자열 거리 계산기

사용법