# 활성화 함수 (Activation Function) 소개

#### 정의 및 역할

활성화 함수(Activation Function)는 인공 신경망(Artificial Neural Networks)에서 뉴런(Neuron)의 출력 신호를 결정하는 중요한 구성 요소다. 뉴런은 입력 신호를 받아들이고, 이 신호를 처리한 후 출력 신호를 생성하는데, 이때 활성화 함수가 어떤 방식으로 입력 신호를 변환할지 결정한다. 활성화 함수는 이 신호 변환 과정을 비선형적으로 수행하여, 신경망이 단순한 선형 변환을 넘어 복잡한 데이터 패턴을 학습할 수 있게 만든다.

#### 비선형성의 중요성

활성화 함수는 신경망에 비선형성을 도입하는 주된 수단이다. 만약 활성화 함수가 선형적이라면, 여러 층의 신경망도 단일 선형 변환과 다르지 않게 되어, 층을 깊게 쌓는 의미가 사라지게 된다. 반면, 비선형 활성화 함수는 입력 신호를 비선형적으로 변환하므로, 다층 신경망에서 층이 깊어질수록 더 복잡하고 정교한 패턴을 학습할 수 있다.

비선형 활성화 함수는 신경망이 이미지 인식, 자연어 처리 등 다양한 복잡한 문제를 해결할 수 있게 해주는 핵심 요소다. 예를 들어, 단순한 선형 함수로는 구분할 수 없는 데이터 간의 경계를 비선형 활성화 함수가 구분할 수 있게 만들어준다.

#### 주요 활성화 함수들

**시그모이드 함수 (Sigmoid Function)**

시그모이드 함수는 오래전부터 신경망에서 널리 사용되어 온 활성화 함수로, 입력 신호를 0과 1 사이의 값으로 변환한다. 이 함수는 입력이 매우 크거나 작을 때, 출력이 각각 1 또는 0에 가까워지는 특징이 있다. 이러한 특성은 신경망에서 출력이 확실한 경우(즉, 신호가 강하거나 약할 때) 유용할 수 있지만, 학습 과정에서 기울기 소실(Vanishing Gradient) 문제를 일으켜 학습이 어려워질 수 있다.

**하이퍼볼릭 탄젠트 함수 (Hyperbolic Tangent Function, tanh)**

하이퍼볼릭 탄젠트 함수는 시그모이드 함수와 비슷하지만, 출력 범위가 -1에서 1까지 확장된다. 이 함수는 신호가 0을 중심으로 대칭적이어서, 신경망의 출력이 시그모이드 함수보다 더 안정적이고 균형 잡힌 학습을 가능하게 한다. 그러나 기울기 소실 문제에서는 시그모이드 함수와 유사한 한계를 가진다.

**렐루 함수 (ReLU, Rectified Linear Unit)**

렐루 함수는 최근 가장 많이 사용되는 활성화 함수로, 신경망에서 입력 신호가 0 이상일 때 그대로 통과시키고, 0 이하일 때는 출력을 0으로 만든다. 이 단순한 동작 방식은 계산 효율성을 높이고, 기울기 소실 문제를 완화시키는 데 기여한다. 그러나 렐루 함수는 음의 입력값에 대해 출력을 0으로 고정시키기 때문에, 일부 뉴런이 영구적으로 활성화되지 않는 '죽은 렐루(Dead ReLU)' 문제가 발생할 수 있다.

**리키 렐루 함수 (Leaky ReLU)**

리키 렐루 함수는 렐루 함수의 변형으로, 음의 입력 신호에 대해 작지만 음수가 아닌 기울기를 적용함으로써 죽은 렐루 문제를 완화한다. 이 함수는 음수 입력에 대해 작은 기울기를 허용함으로써, 모든 뉴런이 학습에 기여할 수 있는 가능성을 열어준다.

#### 활성화 함수의 선택

활성화 함수의 선택은 신경망의 성능에 큰 영향을 미친다. 시그모이드와 tanh 함수는 초기 신경망에서 많이 사용되었지만, 기울기 소실 문제로 인해 깊은 신경망에서는 한계가 있다. 반면, 렐루와 리키 렐루는 기울기 소실 문제를 극복하면서도 계산 효율성을 높여 현대의 깊은 신경망에서 주로 사용되고 있다. 활성화 함수의 선택은 주어진 문제와 데이터의 특성, 신경망의 구조에 따라 달라지며, 최적의 성능을 달성하기 위해 다양한 활성화 함수를 실험적으로 평가할 필요가 있다.

***

관련 자료:

* Goodfellow, I., Bengio, Y., & Courville, A. (2016). *Deep Learning*. MIT Press.
* Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep Sparse Rectifier Neural Networks. In *Proceedings of the 14th International Conference on Artificial Intelligence and Statistics*.
* Nair, V., & Hinton, G. E. (2010). Rectified Linear Units Improve Restricted Boltzmann Machines. In *Proceedings of the 27th International Conference on Machine Learning (ICML)*.
