Lecture

레이블 인코딩과 원-핫 인코딩

이번 수업에서는 데이터 전처리 중 범주형 데이터를 숫자로 변환하는 방법인 레이블 인코딩(Label Encoding)원-핫 인코딩(One-Hot Encoding)에 대해 알아보겠습니다.


1. 레이블 인코딩

각 카테고리를 숫자로 변환하는 방법입니다.

레이블 인코딩 예시
| 학생 이름 | 좋아하는 과목 | 레이블 인코딩 값 | |---------|-----------|--------------| | 철수 | 수학 | 0 | | 영희 | 영어 | 1 | | 민지 | 과학 | 2 | | 준호 | 수학 | 0 |

레이블 인코딩은 데이터를 단순하게 숫자로 변환해서 간단하고 효율적입니다.

하지만 숫자의 크기(순서)가 의미가 없는데도, 의미가 있는 것처럼 보일 수 있습니다.

예를 들어 위 데이터는 수학(0) < 영어(1) < 과학(2) 순으로 중요도가 있다고 오해할 수 있습니다.

AI를 이렇게 학습시킬 경우 잘못된 예측을 할 위험이 있습니다.


2. 원-핫 인코딩

각 카테고리를 새로운 "열(Column)"로 만들고, 해당되는 곳에 1을 넣는 방법입니다.

원-핫 인코딩 예시
| 학생 이름 | 좋아하는 과목 | 수학 | 영어 | 과학 | |---------|-----------|----|----|----| | 철수 | 수학 | 1 | 0 | 0 | | 영희 | 영어 | 0 | 1 | 0 | | 민지 | 과학 | 0 | 0 | 1 | | 준호 | 수학 | 1 | 0 | 0 |

원한 인코딩은 0과 1만 사용해서 숫자의 크기(순서)로 인해 발생하는 불필요한 오해를 줄일 수 있습니다.

하지만 새로운 열이 많아질 수 있어서 데이터가 너무 커질 수 있습니다.


어떤 걸 사용해야 할까?

✔ 레이블 인코딩: 과목처럼 순서가 없는 데이터에는 추천하지 않습니다. (숫자 크기 오해 가능)

✔ 원-핫 인코딩: 순서가 없는 데이터에 더 적합하지만, 카테고리가 너무 많으면 비효율적일 수 있습니다.


👉 일반적으로 순서가 중요하지 않다면, 원-핫 인코딩을 더 많이 사용합니다.

다음 수업에서는 지금까지 배운 내용들을 점검하는 간단한 퀴즈를 풀어보겠습니다.

Mission
0 / 1

레이블 인코딩은 데이터의 순서가 중요하지 않을 때 사용하는 것이 좋다.

True
False

Lecture

AI Tutor

Design

Upload

Notes

Favorites

Help