레이블 인코딩과 원-핫 인코딩
이번 수업에서는 데이터 전처리 중 범주형 데이터를 숫자로 변환하는 방법인 레이블 인코딩(Label Encoding)
과 원-핫 인코딩(One-Hot Encoding)
에 대해 알아보겠습니다.
1. 레이블 인코딩
각 카테고리를 숫자로 변환하는 방법입니다.
레이블 인코딩 예시
| 학생 이름 | 좋아하는 과목 | 레이블 인코딩 값 | |---------|-----------|--------------| | 철수 | 수학 | 0 | | 영희 | 영어 | 1 | | 민지 | 과학 | 2 | | 준호 | 수학 | 0 |
레이블 인코딩은 데이터를 단순하게 숫자로 변환해서 간단하고 효율적입니다.
하지만 숫자의 크기(순서)가 의미가 없는데도, 의미가 있는 것처럼 보일 수 있습니다.
예를 들어 위 데이터는 수학(0) < 영어(1) < 과학(2)
순으로 중요도가 있다고 오해할 수 있습니다.
AI를 이렇게 학습시킬 경우 잘못된 예측을 할 위험이 있습니다.
2. 원-핫 인코딩
각 카테고리를 새로운 "열(Column)"로 만들고, 해당되는 곳에 1을 넣는 방법입니다.
원-핫 인코딩 예시
| 학생 이름 | 좋아하는 과목 | 수학 | 영어 | 과학 | |---------|-----------|----|----|----| | 철수 | 수학 | 1 | 0 | 0 | | 영희 | 영어 | 0 | 1 | 0 | | 민지 | 과학 | 0 | 0 | 1 | | 준호 | 수학 | 1 | 0 | 0 |
원한 인코딩은 0과 1만 사용해서 숫자의 크기(순서)로 인해 발생하는 불필요한 오해를 줄일 수 있습니다.
하지만 새로운 열이 많아질 수 있어서 데이터가 너무 커질 수 있습니다.
어떤 걸 사용해야 할까?
✔ 레이블 인코딩: 과목처럼 순서가 없는 데이터에는 추천하지 않습니다. (숫자 크기 오해 가능)
✔ 원-핫 인코딩: 순서가 없는 데이터에 더 적합하지만, 카테고리가 너무 많으면 비효율적일 수 있습니다.
👉 일반적으로 순서가 중요하지 않다면, 원-핫 인코딩을 더 많이 사용합니다.
다음 수업에서는 지금까지 배운 내용들을 점검하는 간단한 퀴즈를 풀어보겠습니다.
Mission
0 / 1
레이블 인코딩은 데이터의 순서가 중요하지 않을 때 사용하는 것이 좋다.
True
False
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help