적응형 학습률 경사하강법 (Adaptive Learning Rate Methods)

적응형 학습률의 필요성

경사하강법의 중요한 과제 중 하나는 적절한 학습률을 설정하는 것이다. 하지만 학습률이 모든 매개변수에 동일하게 적용될 때, 이는 문제를 초래할 수 있다. 예를 들어, 어떤 매개변수는 급격히 변화하는 반면, 다른 매개변수는 완만하게 변화할 수 있다. 이 경우 동일한 학습률을 사용하는 것은 비효율적이다. 따라서 각 매개변수에 따라 학습률을 다르게 조정하는 방법이 필요하게 되었다. 이를 위해 적응형 학습률 방법이 제안되었다.

적응형 학습률 방법의 주요 알고리즘

Adagrad

Adagrad는 2011년에 제안된 초기 적응형 학습률 알고리즘 중 하나이다. Adagrad의 핵심 아이디어는 자주 업데이트되는 매개변수에는 작은 학습률을, 덜 자주 업데이트되는 매개변수에는 큰 학습률을 적용하는 것이다. 이를 위해 Adagrad는 과거의 모든 기울기 제곱을 누적하여 학습률을 조정한다. 수식으로 표현하면, 각 매개변수 $ \theta_i $의 업데이트는 다음과 같다:

θi=θiηGii+ϵgi\theta_i = \theta_i - \frac{\eta}{\sqrt{G_{ii} + \epsilon}} \cdot g_i

여기서 $ G_{ii} $는 과거 모든 시점에서의 기울기 제곱합이고, $ \epsilon $은 분모의 0으로 나누는 문제를 방지하기 위한 작은 값이다. Adagrad는 드물게 발생하는 피처의 학습을 촉진하지만, 모든 기울기 제곱이 계속 누적되기 때문에 시간이 지남에 따라 학습률이 점점 작아져서 학습이 중단될 수 있다.

RMSprop

RMSprop은 Adagrad의 문제점을 해결하기 위해 제안되었다. RMSprop은 기울기 제곱의 누적 대신 지수이동평균(Exponential Moving Average)을 사용하여 학습률을 조정한다. 이는 최근의 기울기만을 고려하므로, 학습률이 너무 빠르게 감소하는 것을 방지할 수 있다. RMSprop의 매개변수 업데이트 식은 다음과 같다:

Gt+1=ρGt+(1ρ)gt2G_{t+1} = \rho G_t + (1 - \rho) g_t^2
θt+1=θtηGt+1+ϵgt\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_{t+1} + \epsilon}} \cdot g_t

여기서 $ \rho $는 지수이동평균을 제어하는 감쇠율로, 일반적으로 0.9로 설정된다. RMSprop은 안정적인 학습률을 유지하면서 학습을 계속할 수 있도록 도와준다.

Adam

Adam(Adaptive Moment Estimation)은 2015년에 제안된 알고리즘으로, Adagrad와 RMSprop의 장점을 결합한 형태이다. Adam은 1차 모멘트(기울기)와 2차 모멘트(기울기 제곱)의 지수이동평균을 모두 사용하여 학습률을 조정한다. Adam의 업데이트 식은 다음과 같다:

mt=β1mt1+(1β1)gtm_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t
vt=β2vt1+(1β2)gt2v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2
m^t=mt1β1t\hat{m}_t = \frac{m_t}{1 - \beta_1^t}
v^t=vt1β2t\hat{v}_t = \frac{v_t}{1 - \beta_2^t}
θt+1=θtηv^t+ϵm^t\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t

여기서 $ \beta_1 $과 $ \beta_2 $는 각각 1차 및 2차 모멘트의 감쇠율이며, 일반적으로 0.9와 0.999로 설정된다. Adam은 학습 초기 단계에서 빠른 수렴을 가능하게 하며, 안정적인 학습을 제공한다. 이 알고리즘은 현재 많은 딥러닝 모델에서 기본적으로 사용되고 있다.

Nadam 및 기타 변형

Nadam은 Adam에 네스테로프 모멘텀(Nesterov Momentum)을 적용한 방식이다. 네스테로프 모멘텀은 기울기 계산을 하기 전에 먼저 모멘텀을 적용하는 방식으로, 더욱 빠르고 안정적인 수렴을 유도한다. Nadam은 다음과 같은 업데이트 식을 따른다:

θt+1=θtηv^t+ϵ(β1m^t+(1β1)(1β1t)gt)\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot (\beta_1 \hat{m}_t + \frac{(1 - \beta_1)}{(1 - \beta_1^t)} g_t)

이외에도 AdaMax, AMSGrad 등 Adam을 기반으로 한 다양한 변형 알고리즘이 제안되었다. 이러한 변형 알고리즘은 특정 상황에서 Adam보다 더 나은 성능을 보일 수 있다.

적응형 학습률 알고리즘의 선택

적응형 학습률 알고리즘은 각기 다른 특성과 장단점을 가지고 있다. Adagrad는 드문 피처의 학습에 유리하고, RMSprop은 안정적인 학습률을 제공하며, Adam은 빠른 수렴과 안정성을 모두 제공한다. 각 알고리즘의 선택은 데이터의 특성, 모델의 구조, 학습 목표 등에 따라 달라질 수 있다. 연구자들은 이러한 알고리즘들을 실험적으로 비교하여 가장 적합한 방법을 선택해야 한다.


관련 자료:

  • Duchi, J., Hazan, E., & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. Journal of Machine Learning Research, 12, 2121-2159.

  • Tieleman, T., & Hinton, G. (2012). Lecture 6.5 - RMSProp: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning.

  • Kingma, D. P., & Ba, J. (2015). Adam: A Method for Stochastic Optimization. arXiv preprint arXiv:1412.6980.

Last updated