# He 초기화 (He Initialization)

#### Xavier 초기화와의 차이점

He 초기화를 이해하기 위해서는 우선적으로 Xavier 초기화(Xavier Initialization)와의 차이점을 이해하는 것이 중요하다. Xavier 초기화는 출력이 입력보다 크지 않고, 적절한 크기로 유지되도록 하기 위해 가중치를 초기화하는 방법이다. Xavier 초기화의 표준편차는 `1/sqrt(n)`로 설정되는데, 여기서 `n`은 입력 노드 수이다. 이 방식은 시그모이드(Sigmoid)나 하이퍼볼릭 탄젠트(Tanh) 같은 대칭적인 활성화 함수에 적합한다.

그러나 ReLU(Rectified Linear Unit) 같은 비대칭적 활성화 함수를 사용할 때는, Xavier 초기화가 최적의 성능을 보이지 않을 수 있다. 이 문제를 해결하기 위해 He 초기화가 제안되었다.

#### He 초기화의 원리와 수식

He 초기화는 ReLU 계열의 활성화 함수에 최적화된 초기화 기법이다. He 초기화는 가중치가 적절히 분포되어 기울기 소실 문제를 최소화할 수 있도록 설계되었다. He 초기화의 표준편차는 `sqrt(2/n)`로 정의되며, 여기서 `n`은 이전 레이어의 입력 노드 수이다. 이는 ReLU 함수의 비선형 특성에 맞춰 가중치가 분포되도록 한다.

He 초기화의 수식은 다음과 같다:

$$
W \sim \mathcal{N}\left(0, \frac{2}{n}\right)
$$

여기서 `W`는 가중치, `n`은 이전 레이어의 입력 노드 수, `\mathcal{N}(0, \sigma^2)`는 평균이 0이고, 분산이 `σ^2`인 정규 분포를 의미한다.

#### ReLU와 He 초기화의 시너지

ReLU 함수는 입력이 0 이하일 때 출력을 0으로, 그 외에는 입력값 그대로를 출력하는 비대칭 활성화 함수이다. ReLU 함수는 입력의 절반을 0으로 만들어버리므로, 이로 인해 신경망의 출력이 입력 노드 수에 비해 줄어들 가능성이 크다. He 초기화는 이 문제를 보완하기 위해 도입되었으며, ReLU 함수가 비대칭적으로 동작함에도 불구하고 출력이 입력보다 크게 감소하지 않도록 설계되었다.

이러한 He 초기화는 깊은 신경망에서 특히 중요하다. 깊은 네트워크의 경우, 초기 가중치 설정이 좋지 않으면 기울기 소실 문제로 인해 학습이 불가능할 수 있다. He 초기화는 이러한 문제를 해결하여 깊은 신경망의 학습 성능을 향상시키는 데 기여한다.

#### He 초기화의 수학적 해석

He 초기화는 기울기 전파(gradient propagation)를 고려하여 설계되었다. 기울기의 크기가 층을 거치면서 급격히 감소하거나 증가하는 것을 방지하기 위해, 입력값의 분산과 출력값의 분산이 비슷하도록 가중치를 초기화한다. 이는 기울기가 전 층에 걸쳐 고르게 전파되도록 하여, 신경망의 학습이 원활하게 이루어지도록 돕는다.

기울기 소실 문제는 층을 지날수록 기울기가 0에 가까워져 학습이 거의 이루어지지 않는 현상이다. He 초기화는 이러한 문제를 완화하기 위해, 이전 층의 가중치 분포를 조정하여 기울기가 적절히 유지되도록 한다.

#### He 초기화의 확장 가능성

He 초기화는 ReLU뿐만 아니라, Leaky ReLU, Parametric ReLU(PReLU) 등 다른 비대칭 활성화 함수에서도 유사하게 적용될 수 있다. 이러한 활성화 함수들은 모두 출력의 절반 이상이 0이 되도록 하는 특성을 가지므로, He 초기화는 이들 함수에서도 유효한다.

***

관련 자료:

* He, Kaiming, et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015.
* Glorot, Xavier, and Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks. Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (AISTATS), 2010.
