# Nadam 경사하강법 (Nadam Optimizer)

Nadam 경사하강법은 Nesterov 가속 경사와 Adam 옵티마이저의 조합으로, 신경망 학습에서 중요한 역할을 한다. Nadam은 Nesterov 가속 기법을 Adam 옵티마이저의 적응형 학습률에 적용함으로써, 두 가지 알고리즘의 장점을 결합하려는 시도로 설계되었다. 이 방법은 복잡한 비선형 최적화 문제를 다룰 때 더 안정적이고 효율적인 수렴을 제공한다.

#### Adam 옵티마이저

Adam(Adaptive Moment Estimation) 옵티마이저는 기계 학습에서 널리 사용되는 옵티마이저로, 학습률을 각 매개변수에 대해 적응적으로 조정하는 특징이 있다. 이를 통해 기울기 하강법의 단점을 완화하고, 빠르고 안정적인 수렴을 가능하게 한다. Adam은 1차 및 2차 모멘트를 추정하여 각 파라미터의 학습률을 조정하며, 다음과 같은 업데이트 방식을 사용한다.

$ m\_t = \beta\_1 \cdot m\_{t-1} + (1 - \beta\_1) \cdot g\_t $ $ v\_t = \beta\_2 \cdot v\_{t-1} + (1 - \beta\_2) \cdot g\_t^2 $ $ \hat{m}\_t = \frac{m\_t}{1 - \beta\_1^t} $ $ \hat{v}*t = \frac{v\_t}{1 - \beta\_2^t} $ $ \theta*{t+1} = \theta\_t - \frac{\alpha \cdot \hat{m}\_t}{\sqrt{\hat{v}\_t} + \epsilon} $

여기서 $ g\_t $는 t번째 시점의 기울기, $ m\_t $와 $ v\_t $는 각각 1차 및 2차 모멘트 추정치, $ \alpha $는 학습률, $ \beta\_1 $과 $ \beta\_2 $는 모멘트 추정에 대한 감쇠 계수이다.

#### Nesterov 가속 기법

Nesterov 가속 기법은 고전적인 모멘텀 기법을 개선한 방법으로, 일반적인 경사하강법보다 더 빠르게 수렴할 수 있다. Nesterov 가속 기법은 현재 위치에서 기울기를 계산하는 대신, 모멘텀에 의해 예측된 다음 위치에서 기울기를 계산한다. 이는 다음과 같은 업데이트 방식을 따른다.

$ v\_{t+1} = \gamma \cdot v\_t + \eta \cdot \nabla\_{\theta} J(\theta - \gamma \cdot v\_t) $ $ \theta\_{t+1} = \theta\_t - v\_{t+1} $

여기서 $ v\_t $는 속도 벡터, $ \gamma $는 모멘텀 계수, $ \eta $는 학습률, $ \nabla\_{\theta} J(\theta) $는 손실 함수의 기울기를 나타낸다.

#### Nadam의 구조

Nadam 옵티마이저는 Adam의 적응형 학습률 기법에 Nesterov 가속 기법을 통합한 방식으로, Adam의 업데이트 방정식에서 모멘텀 부분을 Nesterov 가속 기법으로 대체한다. 이 과정에서 Nesterov 기법의 예측된 기울기가 사용되며, 이를 통해 더욱 안정적인 수렴을 꾀한다. Nadam은 다음과 같은 업데이트 방식을 따른다.

$ m\_t = \beta\_1 \cdot m\_{t-1} + (1 - \beta\_1) \cdot g\_t $ $ v\_t = \beta\_2 \cdot v\_{t-1} + (1 - \beta\_2) \cdot g\_t^2 $ $ \hat{m}\_t = \frac{m\_t}{1 - \beta\_1^t} $ $ \hat{v}*t = \frac{v\_t}{1 - \beta\_2^t} $ $ \theta*{t+1} = \theta\_t - \frac{\alpha}{\sqrt{\hat{v}\_t} + \epsilon} \cdot \left( \beta\_1 \cdot \hat{m}\_t + \frac{(1 - \beta\_1) \cdot g\_t}{1 - \beta\_1^t} \right) $

이 과정에서 Nesterov 가속 기법은 기울기 업데이트 시점에서의 탐색 위치를 변경하여, 과도한 진동을 줄이고 최적화 과정을 안정화한다.

Nadam은 이러한 특성으로 인해 신경망 학습에서 강력한 성능을 발휘하며, 특히 복잡한 비선형 함수에서 우수한 성능을 보인다. Adam의 강점에 Nesterov 가속을 더해, 더욱 빠르고 안정적인 학습이 가능하게 한다.

***

관련 자료:

1. Dozat, T. (2016). Incorporating Nesterov Momentum into Adam. ICLR Workshop.
2. Kingma, D. P., & Ba, J. (2014). Adam: A Method for Stochastic Optimization. arXiv preprint arXiv:1412.6980.