# 정규분포 초기화

정규분포 초기화는 가중치를 정규분포(Normal Distribution)를 사용하여 무작위로 초기화하는 방법이다. 정규분포는 평균이 0이고, 분산이 특정 값인 분포를 의미한다. 수학적으로, 정규분포는 다음과 같이 표현된다.

$$
X \sim \mathcal{N}(\mu, \sigma^2)
$$

여기서 $ \mu $는 평균, $ \sigma^2 $는 분산을 나타낸다. 정규분포 초기화는 이러한 분포를 이용해 가중치를 초기화하여, 각 가중치가 특정한 범위 내에서 무작위로 설정되도록 한다.

#### Xavier 초기화 (Glorot 초기화)

정규분포 초기화 방법 중 하나로 Xavier 초기화가 있다. Xavier 초기화는 입력과 출력의 노드 수에 따라 가중치의 분산을 조정하여, 모든 층에서 출력 값의 분산이 일정하게 유지되도록 하는 방법이다. 이 초기화 방법은 주로 Sigmoid 함수나 Tanh 함수를 활성화 함수로 사용할 때 효과적이다.

#### He 초기화

Xavier 초기화의 개념을 확장하여 ReLU (Rectified Linear Unit) 활성화 함수에 적합한 초기화 방법으로 He 초기화가 제안되었다. 이 방법은 ReLU 함수가 0 이상의 값을 출력하기 때문에, 가중치의 분산을 더욱 크게 설정하여 기울기 소실 문제를 방지한다. He 초기화는 ReLU와 같은 비선형 활성화 함수를 사용할 때 특히 효과적이다.

#### 정규분포 초기화와 신경망 깊이의 관계

신경망의 깊이가 깊어질수록, 가중치 초기화 방법이 신경망의 학습 성능에 미치는 영향은 더욱 커진다. 깊은 신경망에서는 작은 차이의 가중치 초기화가 학습 과정에서 크게 증폭되거나, 반대로 감소할 수 있다. 정규분포 초기화를 적절히 설정하면, 이러한 문제를 어느 정도 완화할 수 있다. 하지만, 너무 작은 분산을 선택하면 기울기 소실 문제가 발생할 수 있으며, 너무 큰 분산을 선택하면 기울기 폭발 문제가 발생할 수 있다.

#### 정규분포 초기화의 한계

정규분포 초기화는 여러 장점에도 불구하고 한계가 있다. 첫째, 학습 속도가 느릴 수 있다. 초기 가중치가 최적화 과정에서 적절한 범위를 벗어나면, 학습이 매우 느리게 진행될 수 있다. 둘째, 네트워크가 복잡해질수록 정규분포 초기화만으로는 안정적인 학습을 보장하기 어렵다. 이 때문에, 최근 연구에서는 정규분포 초기화 외에도 다양한 초기화 방법을 결합하여 사용하는 경우가 많다.

***

관련 자료:

* Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In *Proceedings of the thirteenth international conference on artificial intelligence and statistics* (pp. 249-256).
* He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In *Proceedings of the IEEE international conference on computer vision* (pp. 1026-1034).