데이터 크기를 맞추는 표준화
이번 수업에서는 표준화(Standardization)
를 활용하여 데이터 크기를 조정하는 방법을 배워보겠습니다.
표준화란?
표준화는 데이터의 평균을 0
, 표준편차(데이터의 퍼짐 정도)를 1
로 맞추어 변환하는 방법입니다.
평균(Mean)
은 데이터 값들의 중심 값을 의미하고,표준편차(Standard Deviation)
는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 값입니다.
표준화된 데이터는 평균을 중심으로 일정한 분포를 가지며, 이상치(outlier)
에 덜 민감한 특징이 있습니다.
이상치
는 데이터 분포에서 다른 값들과 현저히 차이나는 극단적인 값입니다. 예를 들어 키가 200cm인 학생이 있다면 이 값은 이상치에 해당합니다.
표준편차를 계산하는 방법
표준화를 위해서는 먼저 표준 편차
(standard deviation, )를 계산해야 합니다.
표준 편차는 다음 수식으로 계산됩니다.
- : 데이터 개수
- : 개별 데이터 값
- : 평균
예를 들어 키가 160, 170, 180인 데이터의 표준 편차는 다음과 같이 계산됩니다.
학생 키(cm)와 몸무게(kg) 표준화
표준화는 다음 공식으로 계산됩니다.
새로운 값 = (원래 값 - 평균) / 표준편차
다음과 같은 데이터를 표준화해 보겠습니다.
키 (cm) | 몸무게 (kg) |
---|---|
160 | 55 |
170 | 60 |
180 | 65 |
1. 키 데이터의 평균과 표준편차 계산
-
평균: (160 + 170 + 180) / 3 = 170
-
표준편차: 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 값 ≈ 8.16
2. 키 데이터 표준화 적용
각 값을 표준화하면 다음과 같이 변환됩니다.
(160 - 170) / 8.16 ≈ -1.22 (170 - 170) / 8.16 = 0 (180 - 170) / 8.16 ≈ 1.22
변환된 결과는 다음과 같습니다.
원래 키 값 (cm) | 표준화된 키 값 |
---|---|
160 | -1.22 |
170 | 0.00 |
180 | 1.22 |
3. 몸무게 데이터 표준화 적용
- 평균: (55 + 60 + 65) / 3 = 60
- 표준편차 ≈ 3.16
(55 - 60) / 3.16 ≈ -1.58 (60 - 60) / 3.16 = 0 (65 - 60) / 3.16 ≈ 1.58
변환된 결과:
원래 몸무게 (kg) | 표준화된 몸무게 값 |
---|---|
55 | -1.58 |
60 | 0.00 |
65 | 1.58 |
키와 몸무게를 한번에 표준화한 결과는 다음과 같습니다.
키 (cm) | 몸무게 (kg) |
---|---|
-1.22 | -1.58 |
0.00 | 0.00 |
1.22 | 1.58 |
이렇게 키와 몸무게 데이터를 표준화하면, AI를 학습시킬 때 두 데이터의 크기를 학습에 공정하게 반영할 수 있습니다.
다음 수업에서는 정규화와 표준화의 차이점과 각각 어떠한 상황에 적합한지 알아보겠습니다.
표준화는 데이터의 평균을 0, 표준편차를 1로 맞추어 변환하는 방법이다.
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help