파일 인코딩 감지기
파일
파일이 깨진 글자(괆쒋쀎)로 나타나면, 첫 단계는 실제로 무슨 인코딩인지 파악. 이 감지기는 브라우저에서 파일 바이트 읽고(업로드 안 함) 표준 휴리스틱 실행: BOM 바이트 시퀀스 우선(UTF-16 LE는 FF FE·UTF-8 BOM은 EF BB BF 등), 그다음 널 바이트 밀도(UTF-16은 ASCII 콘텐츠에 매 다른 바이트마다 널), 그다음 UTF-8 유효성 검사(대부분 멀티 바이트 시퀀스는 잘못된 Latin-1 → 유효 UTF-8 = 매우 높은 확률로 UTF-8). 감지된 인코딩·신뢰도 퍼센트·있다면 BOM 바이트·hex/텍스트 나란히 미리보기 반환 → 디코드 시각적 정상성 확인.
—
사용법
- 어떤 텍스트 파일이든 드롭 또는 선택. 감지는 브라우저에서 실행 — 파일 페이지 떠나지 않음.
- BOM 패널 먼저 확인: BOM 있으면 인코딩 본질적으로 확실. BOM 없으면 휴리스틱 감지.
- hex 뷰와 디코드된 텍스트 미리보기 비교. 비 ASCII 문자가 올바르게 보이면 감지 정확.
자주 묻는 질문
- chardet 같은 '감지' 라이브러리 왜 없나?
- 브라우저는 chardet 안 갖춤, 일부 흔한 경우 위해 큰 인코딩 감지 라이브러리(ICU `CharsetDetector` JS 포트는 ~200KB) 임포트는 과함. 이 툴은 95% 경우 커버: BOM·ASCII만·유효 UTF-8·널 바이트 패턴으로 UTF-16. BOM 없는 이국적 아시아 인코딩(Shift_JIS·GB2312·EUC-KR)엔 chardet 필요 — 단 이 툴은 'UTF-8 아님'은 알려줘서 다른 곳 찾을 줄 알게 함.
- BOM이란 뭔가?
- Byte Order Mark는 인코딩을 명시적으로 표시하는 2-4 바이트 프리픽스. UTF-8 BOM은 `EF BB BF`(기술적 불필요, 논쟁적 — Microsoft 추가, Unix 도구는 보통 제거). UTF-16/32 BOM(`FF FE` 등)은 엔디언도 신호하기에 유용. 파일에 BOM 있으면 절대 신뢰.
관련 도구
이미지 → PDF 변환
여러 JPG·PNG 이미지를 한 PDF로 합치기 — 페이지 크기·방향·맞춤 조정 가능.
파일00
ZIP 내용 보기
ZIP 파일을 드롭하면 내부 파일을 풀지 않고도 목록·크기·미리보기·개별 내려받기까지 가능합니다.
파일00
파일 분할기
큰 파일을 작은 청크로 나눠 첨부·업로드 용량 제한을 우회하세요.
파일00
텍스트 인코딩 변환기
EUC-KR · Shift_JIS · Windows-1252 등 비-UTF-8 텍스트 파일을 UTF-8로 읽으세요.
파일00
파일 해시 (체크섬)
어떤 파일이든 SHA-1·SHA-256·SHA-512 체크섬을 계산하세요.
파일00
CSV ↔ JSON 변환기
CSV를 JSON으로, JSON을 CSV로 변환하세요(구분자 선택 가능).
파일00