2026/02/18 2

고급 경사하강법 (BGS, SGD, MSGD)

경사하강법에서 BGD(Batch Gradient Descent), SGD(Stochastic Gradient Descent), MSGD(Mini-batch Stochastic Gradient Descent)의 가장 큰 차이점은 ‘한 번의 가중치 업데이트를 위해 얼만큼의 데이터를 확인할 것인가(Batch Size)’에 있습니다. 이해를 돕기 위해 '100,000장의 학생 답안지를 채점하여 교육 방식을 개선(가중치 업데이트)하는 과정'에 비유하여 각 방식의 원리와 장단점을 상세히 설명하겠습니다.1. BGD (Batch Gradient Descent, 배치 경사하강법)전체 학습 데이터를 모두 한 번씩 확인한 후에야 가중치를 1회 업데이트하는 방식입니다. 여기서 '배치(Batch)'는 전체 데이터셋 전체를 의미..

딥러닝 2026.02.18

경사하강법 (Gradient Descent)

경사하강법의 목적은 머신러닝이나 딥러닝 모델이 만들어내는 '예측값과 실제 정답 간의 차이(오차)'를 가장 작게 만드는 최적의 매개변수(가중치와 편향)를 찾는 것입니다. 이를 손실 함수(Loss Function)의 최솟값 탐색'이라고 부릅니다.목적 달성을 위한 핵심 단계손실 함수(Loss Function) 측정: 모델이 얼마나 정답을 잘 맞추고 있는지(또는 얼마나 틀리고 있는지)를 수치화합니다. 이 값이 0에 가까울수록 모델이 똑똑하다는 것을 의미합니다.매개변수(Parameter) 초기화: 모델 내부에는 입력 데이터를 처리하는 수많은 가중치(w)와 편향(b)이 있습니다. 처음에는 이 값들이 무작위로 설정되어 있어 예측 오차가 매우 큽니다.방향성 탐색 및 업데이트: 오차를 줄이려면 가중치를 어느 방향으로, ..

딥러닝 2026.02.18