[Errno 42] Illegal byte sequence 발생 원인과 해결방법

3줄 요약

원인: 문자 인코딩 불일치(UTF-8/CP949 등) / 시스템 로케일 설정 오류 / Window 계정명이 한글인 경우
해결: 파일 인코딩 확인 및 변환, 코드에서 올바른 인코딩 지정 / 계정명 영어로 변경(조직에 속해있는 경우 Window 재설치)
예방: UTF-8 같은 표준 인코딩을 일관되게 사용하고 개발 환경 설정 통일

[Errno 42] Illegal byte sequence 오류는 주로 파일 시스템이나 텍스트 처리 중에 인코딩 관련 문제가 발생할 때 나타납니다. 이 문서에서는 이 오류의 다양한 발생 원인과 구체적인 해결 방법을 알아보겠습니다.

1. 발생 원인

1.1 인코딩 불일치

가장 흔한 원인은 파일이나 문자열의 실제 인코딩과 프로그램이 예상하는 인코딩이 다를 때 발생합니다.

UTF-8로 인코딩된 파일을 ASCII로 처리하려고 할 때
EUC-KR/CP949로 인코딩된 한글 파일을 UTF-8로 처리하려고 할 때
다른 로케일 설정에서 생성된 파일을 처리할 때

1.2 손상된 바이트 시퀀스

파일이 부분적으로 손상되어 유효하지 않은 바이트 시퀀스가 포함되어 있을 수 있습니다.

불완전하게 다운로드된 파일
전송 중 손상된 데이터
잘못된 텍스트 편집기 사용으로 인한 인코딩 혼합

1.3 시스템 로케일 설정 문제

운영 체제의 로케일 설정이 처리하려는 데이터와 호환되지 않을 때 발생할 수 있습니다.

LC_ALL, LC_CTYPE 등의 환경 변수가 잘못 설정됨
시스템에 필요한 언어 팩이 설치되지 않음

1.4 BOM(Byte Order Mark) 문제

일부 UTF-8 파일은 BOM(Byte Order Mark)이라는 특수 마커로 시작할 수 있으며, 이를 처리하지 못하는 경우 오류가 발생합니다.

1.5 특수 문자 또는 제어 문자

파일에 특수한 제어 문자나 이스케이프 시퀀스가 포함되어 있을 때 발생할 수 있습니다.

2. 해결 방법

2.1 파일 인코딩 확인 및 변환

파일의 실제 인코딩을 확인하고 필요한 경우 적절한 인코딩으로 변환합니다.

Unix/Linux에서 파일 인코딩 확인:

$ file -i 파일명

iconv를 사용한 인코딩 변환:

$ iconv -f 원본인코딩 -t 대상인코딩 원본파일 > 변환된파일

예시: EUC-KR에서 UTF-8로 변환

$ iconv -f EUC-KR -t UTF-8 input.txt > output.txt

팁: 인코딩을 모르는 경우 chardet와 같은 도구를 사용하여 추측할 수 있습니다.

$ pip install chardet
$ chardetect 파일명

2.2 Python 코드에서 인코딩 명시

Python에서 파일을 열 때 적절한 인코딩을 명시합니다.

with open('파일명', 'r', encoding='utf-8') as file:
    content = file.read()

# 다른 인코딩을 시도해 볼 수 있습니다
with open('파일명', 'r', encoding='cp949') as file:  # 한글 윈도우용
    content = file.read()

# 에러 처리 옵션 추가
with open('파일명', 'r', encoding='utf-8', errors='replace') as file:
    content = file.read()  # 인코딩 오류가 있으면 '�'로 대체

2.3 시스템 로케일 설정 변경

시스템의 로케일 설정을 변경하여 문제를 해결할 수 있습니다.

임시 로케일 변경:

$ export LC_ALL=en_US.UTF-8
$ export LANG=en_US.UTF-8

영구적인 로케일 변경(Ubuntu/Debian):

$ sudo locale-gen ko_KR.UTF-8  # 한국어 로케일 생성
$ sudo update-locale LANG=ko_KR.UTF-8 LC_ALL=ko_KR.UTF-8

macOS에서 로케일 변경:

$ echo "export LANG=ko_KR.UTF-8" >> ~/.bash_profile
$ echo "export LC_ALL=ko_KR.UTF-8" >> ~/.bash_profile
$ source ~/.bash_profile

2.4 BOM 제거

UTF-8 파일에서 BOM(Byte Order Mark)을 제거합니다.

Unix/Linux에서 BOM 제거:

$ sed -i '1s/^\xEF\xBB\xBF//' 파일명

Python에서 BOM 처리:

with open('파일명', 'r', encoding='utf-8-sig') as file:
    # utf-8-sig는 BOM을 자동으로 처리합니다
    content = file.read()

2.5 손상된 문자 복구 또는 제거

손상된 바이트나 문자를 복구하거나 제거합니다.

Python에서 손상된 문자 처리:

# 손상된 문자를 '?'로 대체
with open('파일명', 'r', encoding='utf-8', errors='replace') as file:
    content = file.read()

# 손상된 문자를 무시
with open('파일명', 'r', encoding='utf-8', errors='ignore') as file:
    content = file.read()

파일에서 제어 문자 제거:

$ tr -cd '\11\12\15\40-\176' < 원본파일 > 정리된파일

설정 std::locale::global(std::locale("en_US.UTF-8")); // UTF-8 파일 읽기 std::wifstream wif("파일명"); wif.imbue(std::locale(wif.getloc(), new std::codecvt_utf8<wchar_t, 0x10ffff, std::consume_header>)); std::wstring wline; while (std::getline(wif, wline)) { // 처리 } return 0; }

4. 일반적인 오류 패턴 및 해결 방법

상황	오류 증상	해결 방법
윈도우에서 생성된 한글 파일을 리눅스에서 읽을 때	한글이 깨지거나 `[Errno 42]` 오류 발생	`iconv -f CP949 -t UTF-8 파일명 > 새파일명`
웹에서 다운로드한 UTF-8 파일에 BOM이 있을 때	파일 시작 부분에 이상한 문자(�) 표시	`encoding='utf-8-sig'` 사용
CI/CD 파이프라인에서 로케일 관련 오류	자동화 스크립트 실행 시 `[Errno 42]` 발생	환경 변수 설정: `export LC_ALL=C.UTF-8`
다국어 데이터 처리 중 오류	특정 언어(예: 아랍어, 중국어) 처리 시 오류	적절한 로케일 설치 및 설정, UTF-8 사용
CSV 파일에서 데이터 로드 시 오류	데이터 파싱 중 인코딩 오류	pandas 사용 시: `pd.read_csv('파일명', encoding='utf-8')`

5. 예방 조치

5.1 일관된 인코딩 사용

모든 파일에 UTF-8 인코딩을 표준으로 사용
텍스트 편집기에서 인코딩 설정 확인
프로젝트 내 인코딩 표준 명시

5.2 개발 환경 설정

IDE 기본 인코딩을 UTF-8로 설정
버전 관리 시스템에 인코딩 설정 추가
모든 팀원이 동일한 인코딩 설정 사용

5.3 파일 생성 시 주의사항

스크립트나 프로그램에서 파일 생성 시 인코딩 명시
BOM 사용 여부 결정 및 일관성 유지
특수 문자나 제어 문자 사용 제한

최종 조언

[Errno 42] Illegal byte sequence 오류는 대부분 인코딩 문제로 발생합니다. 파일의 실제 인코딩을 파악하고, 적절한 인코딩 설정을 사용하는 것이 가장 효과적인 해결책입니다. 여러 인코딩을 시도해보고, 필요한 경우 파일을 UTF-8과 같은 표준 인코딩으로 변환하는 것이 좋습니다.

728x90

저작자표시 동일조건

'프로그래밍' 카테고리의 다른 글

[쿠버네틱스/서버 배포]서버 배포 전략 종류들 소개 (0)	2025.03.13
[Solved/해결완]nvm 한글 경로 nvm could not be found or does not exist. Exiting. (0)	2025.02.26
[깃허브 자동화]깃허브와 젠킨스를 활용한 CI/CD 파이프라인 구축: 상세 가이드 (0)	2025.01.13
[FastAPI]FastAPI란 무엇일까? (0)	2024.12.23
[도커/Docker]호스트에서 특정 컨테이너로 파일 전송하기 (0)	2024.11.28

Aminora 블로그

[코딩/인코딩 이슈][Errno 42] Illegal byte sequence 발생 원인과 해결방법

[Errno 42] Illegal byte sequence 발생 원인과 해결방법

3줄 요약

1. 발생 원인

1.1 인코딩 불일치

1.2 손상된 바이트 시퀀스

1.3 시스템 로케일 설정 문제

1.4 BOM(Byte Order Mark) 문제

1.5 특수 문자 또는 제어 문자

2. 해결 방법

2.1 파일 인코딩 확인 및 변환

Unix/Linux에서 파일 인코딩 확인:

iconv를 사용한 인코딩 변환:

예시: EUC-KR에서 UTF-8로 변환

2.2 Python 코드에서 인코딩 명시

2.3 시스템 로케일 설정 변경

임시 로케일 변경:

영구적인 로케일 변경(Ubuntu/Debian):

macOS에서 로케일 변경:

2.4 BOM 제거

Unix/Linux에서 BOM 제거:

Python에서 BOM 처리:

2.5 손상된 문자 복구 또는 제거

Python에서 손상된 문자 처리:

파일에서 제어 문자 제거:

4. 일반적인 오류 패턴 및 해결 방법

5. 예방 조치

5.1 일관된 인코딩 사용

5.2 개발 환경 설정

5.3 파일 생성 시 주의사항

최종 조언

'프로그래밍' 카테고리의 다른 글

티스토리툴바

티스토리툴바

[코딩/인코딩 이슈][Errno 42] Illegal byte sequence 발생 원인과 해결방법

[Errno 42] Illegal byte sequence 발생 원인과 해결방법

3줄 요약

1. 발생 원인

1.1 인코딩 불일치

1.2 손상된 바이트 시퀀스

1.3 시스템 로케일 설정 문제

1.4 BOM(Byte Order Mark) 문제

1.5 특수 문자 또는 제어 문자

2. 해결 방법

2.1 파일 인코딩 확인 및 변환

Unix/Linux에서 파일 인코딩 확인:

iconv를 사용한 인코딩 변환:

예시: EUC-KR에서 UTF-8로 변환

2.2 Python 코드에서 인코딩 명시

2.3 시스템 로케일 설정 변경

임시 로케일 변경:

영구적인 로케일 변경(Ubuntu/Debian):

macOS에서 로케일 변경:

2.4 BOM 제거

Unix/Linux에서 BOM 제거:

Python에서 BOM 처리:

2.5 손상된 문자 복구 또는 제거

Python에서 손상된 문자 처리:

파일에서 제어 문자 제거:

4. 일반적인 오류 패턴 및 해결 방법

5. 예방 조치

5.1 일관된 인코딩 사용

5.2 개발 환경 설정

5.3 파일 생성 시 주의사항

최종 조언

'프로그래밍' 카테고리의 다른 글

관련글

티스토리툴바

티스토리툴바