# Orthogonal 초기화

Orthogonal 초기화는 인공신경망의 가중치 행렬을 직교 행렬(orthogonal matrix)로 초기화하는 방법이다. 직교 행렬은 그 행과 열이 서로 직교하고, 이로 인해 행렬의 내적이 0이 된다. 이러한 특성 덕분에 초기 가중치 행렬이 서로 상관성이 낮아지며, 이는 학습 과정에서 가중치의 크기가 폭발하거나 소멸하는 문제를 완화할 수 있다.

Orthogonal 초기화는 주로 심층 신경망에서 사용된다. 심층 신경망은 다수의 계층을 가지므로, 가중치의 분포와 상관관계가 학습 성능에 크게 영향을 미친다. 직교 행렬로 초기화된 가중치는 계층 간 신호의 전달을 원활하게 하여 학습 과정의 안정성을 높인다.

#### Orthogonal 초기화의 수학적 배경

Orthogonal 초기화의 기본 개념은 선형대수학에서 유래한다. 직교 행렬 $ Q $는 다음 조건을 만족한다:

$$
Q^T Q = I
$$

여기서 $ Q^T $는 $ Q $의 전치행렬(transpose), $ I $는 단위행렬(identity matrix)을 의미한다. 직교 행렬의 열벡터와 행벡터는 모두 단위 벡터이므로, 이들 사이의 내적은 0이다. 또한, 직교 행렬의 행렬식은 ±1이며, 이는 역행렬이 존재함을 의미한다.

신경망 가중치 행렬을 직교 행렬로 초기화하면, 역전파 과정에서 가중치가 폭발하거나 소멸하지 않고 일정한 크기를 유지할 가능성이 높아진다. 이는 정보가 각 계층에서 원활하게 전달되도록 도와준다.

#### Orthogonal 초기화의 구현 방법

Orthogonal 초기화는 주로 Singular Value Decomposition(SVD)이나 QR 분해 알고리즘을 이용하여 구현된다. SVD는 주어진 행렬을 세 개의 행렬로 분해하여 직교 행렬을 생성한다. QR 분해는 주어진 행렬을 직교 행렬과 상삼각 행렬로 분해하는 방법이다.

Orthogonal 초기화의 대표적인 구현 방법은 다음과 같다:

1. **SVD 기반 방법:** 주어진 무작위 행렬 $ W $에 대해 SVD를 수행하여, $ W = U\Sigma V^T $로 분해한다. 여기서 $ U $와 $ V $는 직교 행렬이고, $ \Sigma $는 대각 행렬이다. 직교 행렬 중 하나를 선택하여 초기 가중치로 사용한다.
2. **QR 분해 기반 방법:** 주어진 무작위 행렬 $ W $를 QR 분해하여, $ W = QR $로 나타낸다. 여기서 $ Q $는 직교 행렬, $ R $은 상삼각 행렬이다. 이때 $ Q $를 초기 가중치로 사용한다.

Orthogonal 초기화를 구현할 때 주의할 점은 행렬의 크기와 신경망의 계층 수에 따라 직교 행렬을 적절히 생성해야 한다는 것이다. 또한, 일부 비선형 활성화 함수와의 상호작용도 고려해야 한다.

#### Orthogonal 초기화의 장점과 단점

Orthogonal 초기화의 주요 장점은 학습 과정의 안정성을 높이는 것이다. 직교 행렬은 초기 신호가 각 계층을 거치며 비례적으로 유지되도록 돕는다. 이로 인해 깊은 신경망에서 발생할 수 있는 기울기 소실(vanishing gradient)이나 기울기 폭발(exploding gradient) 문제가 줄어든다.

단점으로는 구현이 비교적 복잡하며, 무작위 초기화 방식에 비해 계산 비용이 증가할 수 있다는 점이다. 또한, 모든 신경망 구조에 적합하지 않을 수 있다. 특히, 특정 활성화 함수나 신경망 아키텍처와의 호환성 문제가 발생할 수 있다.

Orthogonal 초기화는 주로 깊고 복잡한 신경망 모델에서 그 효과를 발휘하지만, 모든 경우에 필수적인 것은 아니다. 초기화 방법의 선택은 모델 구조, 데이터 특성, 그리고 학습 목표에 따라 달라져야 한다.

***

관련 자료:

* Saxe, A. M., McClelland, J. L., & Ganguli, S. (2013). Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. arXiv preprint arXiv:1312.6120.
* LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
* Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the thirteenth international conference on artificial intelligence and statistics (pp. 249-256).