Lecun 초기화 방법
Lecun 초기화(Lecun Initialization)는 심층 신경망의 가중치 초기화 방법 중 하나로, Yann Lecun이 제안한 방법이다. 이 방법은 주로 시그모이드(sigmoid)나 탄젠트 하이퍼볼릭(tanh) 활성화 함수와 함께 사용되며, 신경망의 학습을 안정적으로 수행할 수 있게 도와준다.
왜 Lecun 초기화가 필요한가?
신경망의 가중치를 초기화하는 과정은 학습 성능에 큰 영향을 미친다. 특히, 잘못된 초기화는 그래디언트 소실(vanishing gradient)이나 그래디언트 폭발(exploding gradient) 문제를 일으킬 수 있다. Lecun 초기화는 이러한 문제를 방지하기 위해 설계되었다.
Lecun 초기화의 수학적 근거
Lecun 초기화의 기본 아이디어는 각 층의 가중치가 적절히 분포되도록 하여, 활성화 함수의 출력이 적절한 범위 내에 머물도록 하는 것이다. 이는 학습 과정에서 신경망이 효율적으로 수렴할 수 있게 한다.
가중치 $ W $는 다음과 같이 초기화된다:
여기서 $ n $은 이전 층의 뉴런 개수이다. 이 초기화 방법은 각 층의 출력 분포가 일정하게 유지되도록 해준다. 이는 시그모이드나 tanh 함수에서의 그래디언트 소실 문제를 최소화하는 데 기여한다.
Lecun 초기화의 적용 방법
Lecun 초기화는 주로 심층 신경망에서 사용된다. 특히, 활성화 함수로 시그모이드나 tanh를 사용하는 경우, 이 초기화 방법이 매우 효과적이다. 이는 학습 초기 단계에서 그래디언트가 적절하게 전파되도록 도와준다.
Lecun 초기화와 다른 초기화 기법의 비교
Lecun 초기화는 Xavier 초기화(Xavier Initialization)와 유사하지만, 활성화 함수의 특성에 맞추어 분산을 조정한다는 점에서 차이가 있다. Xavier 초기화는 ReLU 활성화 함수와 함께 사용될 때 효과적이지만, 시그모이드나 tanh와는 적합하지 않을 수 있다. 반면, Lecun 초기화는 시그모이드와 tanh와의 조합에서 더 안정적인 학습을 보장한다.
관련 자료:
LeCun, Y., Bottou, L., Orr, G. B., & Müller, K.-R. (2012). Efficient BackProp. In G. Montavon, G. B. Orr, & K.-R. Müller (Eds.), Neural Networks: Tricks of the Trade (2nd ed., pp. 9–48). Springer.
Last updated