안정적으로 학습하는 배치 경사 하강법
배치 경사 하강법(Batch Gradient Descent, BGD)
은 머신러닝과 딥러닝에서 모델이 학습할 때 전체 데이터셋을 사용하여 한 번에 가중치를 업데이트하는 방법입니다.
배치 경사 하강법은 모든 데이터 샘플을 활용하여 기울기를 계산하므로, 학습 과정이 안정적이며 손실 함수가 매 반복마다 일정하게 감소합니다.
하지만 데이터가 많아질수록 계산량이 증가하는 단점이 있습니다.
배치 경사 하강법 이 진행되는 과정
배치 경사 하강법은 다음과 같은 단계를 거쳐 학습을 진행합니다.
-
전체 데이터셋에서 손실 함수 계산
-
모든 샘플의 기울기(Gradient) 평균 계산
-
가중치 업데이트
-
위 과정을 반복하여 최적값을 찾음
이 방식은 신경망이 일정한 방향으로 학습할 수 있도록 도와줍니다.
배치 경사 하강법의 동작 방식
배치 경사 하강법은 다음과 같은 단계를 거쳐 학습을 진행합니다.
1. 손실 함수 계산
전체 데이터를 사용하여 모델의 예측값과 실제값의 차이를 계산하고, 이를 손실 함수로 변환합니다.
실제값: [1.0, 2.0, 3.0] 예측값: [0.8, 1.9, 3.2] 손실(MSE) = 평균((1.0-0.8)^2, (2.0-1.9)^2, (3.0-3.2)^2)
2. 기울기 계산
모든 샘플의 기울기를 계산한 후 평균을 구하여, 손실을 최소화하는 방향을 찾습니다.
각 샘플의 기울기: 샘플1: -0.2 샘플2: -0.1 샘플3: 0.2 평균 기울기: (-0.2 + -0.1 + 0.2) / 3 = -0.03
3. 가중치 업데이트
기울기에 학습률을 곱하여 가중치를 조정합니다.
기존 가중치: 0.8 기울기: -0.03 학습률: 0.1 새로운 가중치: 0.8 - (0.1 * -0.03) = 0.803
이 과정을 여러 번 반복하면 가중치가 최적값에 가까워지면서 모델의 예측 정확도가 향상됩니다.
배치 경사 하강법 vs 확률적 경사 하강법
방법 | 데이터 처리 방식 | 속도 | 안정성 |
---|---|---|---|
배치 경사 하강법 | 전체 데이터 사용 | 느림, 안정적 | 최적값으로 천천히 수렴 |
확률적 경사 하강법 | 1개 샘플 사용 | 빠름, 불안정 | 최적값 주변에서 변동 가능 |
배치 경사 하강법
은 수렴 속도는 느리지만 안정적인 학습이 가능하며, 손실 함수가 일정하게 감소하는 장점이 있습니다.
반면 확률적 경사 하강법
은 학습 속도가 빠르지만 가중치가 불안정하게 변할 수 있습니다.
배치 경사 하강법은 데이터셋이 크지 않은 경우나 안정적인 학습이 필요한 경우에 유용합니다.
데이터가 많아질수록 연산량이 커지기 때문에, 대규모 데이터셋에서는 미니배치 경사 하강법(Mini-Batch Gradient Descent)
을 활용하여 속도와 안정성을 균형 있게 유지하는 것이 일반적입니다.
다음 수업에서는 모멘텀 최적화 방법에 대해 알아보겠습니다.
배치 경사 하강법(Batch Gradient Descent)의 주요 장점은 무엇인가요?
빠른 학습 속도
안정적인 학습
적은 계산량
높은 변동성
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help