범주형 데이터 인코딩
AI와 머신러닝 모델은 숫자만 이해할 수 있습니다.
하지만 우리가 사용하는 데이터에는 글자로 된 정보(문자 데이터)가 많습니다.
이렇게 수치적인 의미가 없는 텍스트 기반 데이터로, 특정한 그룹으로 분류될 수 있는 데이터를 범주형 데이터(categorical data)
라고 합니다.
| ID | 색상 | 지역 | 직업 | |-----|------|------|------| | 1 | 빨강 | 서울 | 학생 | | 2 | 파랑 | 부산 | 회사원 | | 3 | 초록 | 대구 | 학생 | | 4 | 노랑 | 서울 | 의사 |
위 데이터에서 색상, 지역, 직업은 범주형 데이터입니다.
이들은 숫자로 직접 계산할 수 없으며, 크기나 순서를 비교하는 것이 의미가 없습니다.
범주형 데이터는 크게 두 가지로 나눌 수 있습니다.
명목형(Nominal) 데이터
순서가 없는 범주형 데이터입니다. 색상(빨강, 파랑, 초록), 지역(서울, 부산, 대구) 등이 명목형 데이터입니다.
서열형(Ordinal) 데이터
순서가 있는 범주형 데이터입니다. 교육 수준(초등학교, 중학교, 고등학교), 고객 만족도(낮음, 보통, 높음) 등이 서열형 데이터입니다.
범주형 데이터는 머신러닝 학습을 위해 숫자로 변환하는 과정이 필요하며, 이를 범주형 데이터 인코딩(encoding)
이라고 합니다.
데이터 인코딩이란?
범주형 데이터는 머신러닝 모델이 이해할 수 있도록 숫자로 변환해야 합니다. 이 과정을 데이터 인코딩이라고 합니다.
예를 들어, 위의 색상 데이터를 숫자로 변환해 보겠습니다.
| ID | 색상 | 색상(인코딩) | |-----|------|---------| | 1 | 빨강 | 0 | | 2 | 파랑 | 1 | | 3 | 초록 | 2 | | 4 | 노랑 | 3 |
이렇게 변환하면 모델이 색상 데이터를 숫자로 처리할 수 있습니다.
범주형 데이터 인코딩 방법에는 레이블 인코딩(Label Encoding)
과 원-핫 인코딩(One-Hot Encoding)
이 있습니다.
각 방법은 다음 수업에서 자세히 다루겠습니다.
범주형 데이터를 숫자로 변환하는 과정을 무엇이라고 하나요?
표준화 (Standardization)
정규화 (Normalization)
인코딩 (Encoding)
클러스터링 (Clustering)
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help