학습 자료

과적합(Overfitting) 자세히 알아보기

앞서 여러번 등장한 개념인 과적합(Overfitting)에 대해 조금 더 깊이 있게 살펴보겠습니다.

과적합은 AI 모델이 학습 데이터에는 아주 잘 맞춰져 있지만, 학습 데이터에 과도하게 최적화되어 새로운 데이터나 검증 데이터에 대해서는 성능이 좋지 않은 상태를 말합니다.

쉽게 말해, 모델이 학습 데이터의 특정 패턴, 심지어는 노이즈(데이터에 포함된 불필요한 정보나 무작위적인 변동)까지 학습해서, 일반적인 상황에서는 잘 작동하지 않게 되는 것입니다.


과적합 비유적으로 이해하기

어린이가 공룡에 대해 배우기 시작했다고 가정해 보겠습니다.

처음에는 "티라노사우루스"라는 단어를 들었을 때, "큰 이빨을 가진, 두 발로 걷는 거대한 동물" 정도의 이미지만 떠올립니다.

이제 이 어린이에게 여러 공룡 그림을 보여주고 "이 중에서 티라노사우루스를 골라볼래?" 라고 묻는다면, 아마도 크고 무섭게 생긴 공룡들을 모두 티라노사우루스라고 지목할 것입니다.

그런데 시간이 지나면서, 어린이는 티라노사우루스에 대해 더 많은 정보를 배우게 됩니다.

이빨 모양, 발가락 수, 몸통 길이 같은 세부 특징들을 점점 더 자세히 학습합니다.

하지만 이렇게 너무 구체적인 특징들만 지나치게 학습하면 문제가 생깁니다.

예를 들어, 발가락 수가 같은 다른 공룡을 보았을 때도 "발가락 개수가 같으니 티라노사우루스야!" 라고 잘못 판단할 수 있습니다.

이처럼 특정 특징에 너무 집중한 나머지, 다른 공룡까지 티라노사우루스로 착각하는 현상을 과적합(Overfitting)이라고 합니다.


과적합 해결방법

과적합은 아래와 같은 방법으로 해결할 수 있습니다.

1. 데이터 증강

데이터를 변형하거나 추가하여 다양한 데이터 패턴을 학습하도록 돕습니다.

예를 들어, 텍스트의 단어를 바꾸거나, 이미지를 회전시키는 방법이 있습니다.


2. 하이퍼파라미터 조정

다음과 같이 하이퍼파라미터를 조정하여 과적합을 해결할 수 있습니다.

학습률

학습률은 모델이 학습할 때 가중치를 얼마나 빠르게 또는 천천히 조정할지를 결정하는 값입니다.

학습률이 너무 낮으면 과적합이 발생할 수 있어, 적절한 학습률을 찾아야 합니다.

배치 크기

배치 크기는 한 번에 학습하는 데이터의 양을 의미합니다.

작은 배치 크기는 학습이 불안정해질 수 있지만, 더 다양한 패턴을 학습하게 도와줍니다.

반대로, 큰 배치 크기는 학습이 안정적이지만 과적합의 위험이 커질 수 있습니다.

에폭 수

에폭 수는 전체 데이터 셋을 몇 번 반복해서 학습하는지를 나타냅니다.

너무 많은 에폭 수는 과적합을 유발할 수 있습니다.

Mission
0 / 1

일반적으로 학습률이 높을 경우 과적합이 발생할 확률이 높아진다.

학습 자료

AI 튜터

디자인

업로드

수업 노트

즐겨찾기

도움말

image