경사하강법에서 BGD(Batch Gradient Descent), SGD(Stochastic Gradient Descent), MSGD(Mini-batch Stochastic Gradient Descent)의 가장 큰 차이점은 ‘한 번의 가중치 업데이트를 위해 얼만큼의 데이터를 확인할 것인가(Batch Size)’에 있습니다. 이해를 돕기 위해 '100,000장의 학생 답안지를 채점하여 교육 방식을 개선(가중치 업데이트)하는 과정'에 비유하여 각 방식의 원리와 장단점을 상세히 설명하겠습니다.1. BGD (Batch Gradient Descent, 배치 경사하강법)전체 학습 데이터를 모두 한 번씩 확인한 후에야 가중치를 1회 업데이트하는 방식입니다. 여기서 '배치(Batch)'는 전체 데이터셋 전체를 의미..