특성 선택과 차원 축소, 쉽게 설명하기
머신러닝이나 AI에서 데이터를 다룰 때, 우리가 사용하는 데이터에는 많은 특성(특징)이 있습니다.
예를 들어 우리가 어떤 학생이 대학에 합격할지를 예측한다고 가정해 보겠습니다.
학생 데이터를 보면 다음과 같은 특성들이 있습니다.
- 성적(국어, 수학, 영어 점수)
- 출석률
- 동아리 활동
- 운동 실력
- SNS 사용 시간
- 독서량
하지만 이 모든 정보가 대학 합격 여부와 관련이 있을까요?
운동 실력이나 SNS 사용 시간은 합격률을 예측하는데 큰 영향을 미치지 않을 수 있습니다.
그래서 AI 모델을 학습할 때는 중요한 특성만 골라서 사용하는 특성 선택(Feature Selection)
이나 여러 특성을 합쳐서 더 적은 개수의 특성으로 바꾸는 차원 축소(Dimensionality Reduction)
를 사용할 수 있습니다.
1. 특성 선택
특성 선택은 중요한 특성만 골라서 사용하는 과정입니다.
즉, 대학 합격에 영향이 클 것 같은 정보만 남기고, 나머지는 버리는 것입니다.
특성 선택 예시
- "국어, 수학, 영어 점수" → 중요할 가능성이 높음 ✅
- "출석률" → 중요할 수 있음 ✅
- "운동 실력" → 별로 중요하지 않음 ❌
- "SNS 사용 시간" → 관련이 적을 수도 있음 ❌
특성 선택을 하면 중요한 정보만 남기고, 쓸데없는 정보는 버릴 수 있습니다.
이렇게 하면 계산이 빨라지고, 예측이 더 정확해질 수 있습니다.
2. 차원 축소
차원 축소는 여러 특성을 합쳐서 더 적은 개수의 특성으로 바꾸는 방법입니다.
특성 선택이 "필요 없는 걸 버리는 것"이라면, 차원 축소는 "비슷한 것끼리 합치는 것"이라고 볼 수 있습니다.
차원 축소 예시
"국어 점수 + 영어 점수 + 수학 점수" → 하나의 "학업 성취도" 점수로 바꾸기 ✅
이렇게 하면 정보를 최대한 유지하면서도, 다뤄야 할 특성의 개수를 줄일 수 있습니다.
대표적인 방법 중 하나로 PCA
(주성분 분석, Principal Component Analysis)라는 기법을 사용합니다.
두 개념을 요약하면 다음과 같습니다.
✅ 특성 선택: 중요한 것만 남기기 (불필요한 특성 제거)
✅ 차원 축소: 비슷한 것끼리 합쳐서 개수 줄이기
다음 시간에는 지도 학습에서 데이터의 정답 역할을 하는 레이블(Label)
에 대해 알아보겠습니다.
특성 선택과 차원 축소에 대한 설명으로 옳은 것은 무엇인가요?
특성 선택은 모든 특성을 사용하고, 차원 축소는 일부 특성만 사용한다
특성 선택은 특성을 합치고, 차원 축소는 특성을 제거한다
특성 선택은 불필요한 특성을 제거하고, 차원 축소는 비슷한 특성을 합친다
특성 선택과 차원 축소는 동일한 과정이다
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help