비선형성 (Non-linearity)
활성화 함수는 인공신경망에서 입력과 출력 사이의 비선형성을 도입하는 핵심 요소이다. 신경망이 단순한 선형 함수만을 사용할 경우, 네트워크의 깊이에 상관없이 동일한 선형 변환만을 수행하게 된다. 비선형성을 추가함으로써 복잡한 패턴과 관계를 모델링할 수 있는 능력이 생긴다. 활성화 함수는 이 비선형성을 효과적으로 제공해야 한다.
기울기 소실 및 기울기 폭발 문제 (Vanishing and Exploding Gradient Problems)
신경망의 학습 과정에서 중요한 고려사항 중 하나는 기울기 소실 및 기울기 폭발 문제이다. 일부 활성화 함수, 특히 시그모이드와 같은 함수는 네트워크가 깊어짐에 따라 기울기가 0에 가까워지거나, 반대로 폭발적으로 증가하는 문제를 유발할 수 있다. 이는 역전파(backpropagation) 알고리즘을 통한 가중치 업데이트를 방해하여 학습을 어렵게 만든다. ReLU와 같은 활성화 함수는 이러한 문제를 완화하는 데 효과적이다.
함수의 출력 범위 (Output Range)
활성화 함수의 출력 범위는 신경망의 성능에 직접적인 영향을 미친다. 예를 들어, 시그모이드 함수의 출력 범위는 (0, 1)로 제한되어 있으며, 이는 모든 출력이 양수임을 의미한다. 반면, 하이퍼볼릭 탄젠트 함수(tanh)는 (-1, 1) 사이의 출력을 제공하여, 입력이 평균 0에 가까워지도록 한다. 이는 특정 신경망 구조에서 더 빠른 수렴을 유도할 수 있다.
계산 비용 (Computational Cost)
활성화 함수의 계산 복잡도는 실시간 또는 대규모 데이터 처리와 같은 상황에서 중요한 고려 사항이 된다. 단순한 함수일수록 계산 비용이 낮고, 이는 네트워크의 학습과 추론 속도를 증가시킨다. ReLU 함수는 계산이 간단하고, 효과적이기 때문에 널리 사용된다. 반면, 고차원 함수나 복잡한 함수는 추가적인 계산 비용을 초래할 수 있다.
함수의 미분 가능성 (Differentiability)
활성화 함수의 미분 가능성은 역전파 알고리즘을 사용하는 신경망에서 필수적이다. 대부분의 활성화 함수는 미분 가능해야 하고, 그 미분값이 적절히 정의되어야 한다. 그러나 ReLU 함수의 경우 0 이하의 입력에 대해 미분이 정의되지 않는 문제가 있을 수 있다. 이러한 경우 Leaky ReLU나 Parametric ReLU와 같은 변형 함수가 사용된다.
출력을 희소하게 만드는 성질 (Sparsity-Inducing Property)
ReLU와 같은 활성화 함수는 네트워크에서 출력의 일부를 0으로 만들어 희소성을 유도한다. 희소성은 네트워크의 효율성을 높이고, 과적합(overfitting)을 줄이는 데 기여할 수 있다. 따라서, 네트워크의 구조와 목적에 따라 희소성을 유도하는 함수가 적절할 수 있다.
함수의 단조성 (Monotonicity)
활성화 함수의 단조성은 기울기 소실 문제와 학습 속도에 영향을 미칠 수 있다. 단조 함수는 항상 같은 방향으로 증가하거나 감소하기 때문에, 학습 과정에서 일관된 기울기 신호를 제공할 수 있다. ReLU는 단조 증가 함수의 대표적인 예이며, 안정적인 학습을 가능하게 한다.
다중 활성화 함수의 조합 (Combination of Multiple Activation Functions)
복잡한 신경망에서는 여러 활성화 함수를 함께 사용하는 경우도 있다. 서로 다른 활성화 함수가 네트워크의 서로 다른 부분에서 다양한 특성을 유도할 수 있다. 예를 들어, 입력 계층에서는 하나의 활성화 함수를, 은닉 계층에서는 다른 활성화 함수를 사용할 수 있다. 이러한 조합은 네트워크의 표현력을 높이고, 특정 문제에 대한 성능을 향상시킬 수 있다.
훈련 안정성 (Training Stability)
활성화 함수는 신경망의 훈련 안정성에 중요한 역할을 한다. 네트워크가 학습 과정에서 안정적으로 수렴하기 위해서는, 활성화 함수가 적절히 선택되어야 한다. 예를 들어, 잘못된 활성화 함수를 선택하면 네트워크가 수렴하지 않거나, 불안정한 학습 경로를 따르게 될 수 있다. 따라서 네트워크의 구조와 문제의 특성을 고려하여 훈련 안정성을 보장할 수 있는 활성화 함수를 선택해야 한다.
관련 자료:
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
Nair, V., & Hinton, G. E. (2010). Rectified Linear Units Improve Restricted Boltzmann Machines. Proceedings of the 27th International Conference on Machine Learning (ICML-10).
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS).