# ELU 함수 (Exponential Linear Unit)

ELU(Exponential Linear Unit) 함수는 활성화 함수 중 하나로, 주로 딥러닝 모델에서 사용된다. ELU는 ReLU(Rectified Linear Unit)와 유사하지만, 입력 값이 음수일 때도 음수의 출력을 갖는다는 차이점이 있다. ELU 함수는 다음과 같은 수식으로 정의된다:

$$
f(x) = \begin{cases} x & \text{if } x > 0 \ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}
$$

여기서 $ \alpha $는 양수의 하이퍼파라미터로, 보통 1로 설정된다. $ x $가 0보다 클 때는 ELU 함수가 선형 동작을 하고, 0 이하일 때는 지수 함수로 동작한다.

#### ELU 함수의 특징

ELU 함수는 ReLU 함수의 몇 가지 단점을 보완하기 위해 제안되었다. ReLU는 입력 값이 음수일 때 항상 0을 반환하는데, 이는 '죽은 ReLU' 문제(dead ReLU problem)를 야기할 수 있다. 반면, ELU 함수는 입력 값이 음수일 때도 음수 값을 반환하므로, 신경망의 가중치 업데이트 시 더 다양한 정보가 반영된다.

ELU 함수의 주요 특징은 다음과 같다:

1. **선형 구간**: 입력이 양수일 때는 선형 함수처럼 동작하여 ReLU와 동일한 장점을 갖는다. 이는 깊은 신경망에서 기울기 소실 문제를 어느 정도 완화시켜 준다.
2. **음수 출력**: 입력이 음수일 때는 음수의 출력을 반환한다. 이는 신경망의 출력이 평균적으로 0에 가까워지도록 도와주며, 이는 학습 과정에서 기울기의 변동성을 줄이는 데 기여할 수 있다. 특히 배치 정규화(Batch Normalization)와 같이 동작할 때 유리한다.
3. **지수적 완화**: 입력이 매우 작은 음수일 때는 지수적으로 감소하는 출력을 갖는다. 이는 신경망이 극단적으로 작은 입력 값에 대해서도 민감하게 반응할 수 있게 만든다.

#### ELU 함수의 파라미터 $ \alpha $의 역할

ELU 함수에서 $ \alpha $는 매우 중요한 하이퍼파라미터이다. 일반적으로 $ \alpha $는 1로 설정되지만, 필요에 따라 조정될 수 있다. $ \alpha $가 커질수록 음수 구간에서 출력 값이 커진다. 이는 신경망이 음수 입력 값에 대해 더 강한 반응을 보이게 하며, 학습 속도에 영향을 미칠 수 있다. 반대로 $ \alpha $가 작을수록 ELU 함수는 ReLU와 더 유사해진다.

#### ELU와 다른 활성화 함수와의 비교

ELU는 ReLU, Leaky ReLU, 그리고 PReLU(Parametric ReLU)와 같은 다른 활성화 함수들과 비교되곤 한다. ReLU는 간단하고 효율적이지만, 앞서 언급한 대로 '죽은 ReLU' 문제를 가질 수 있다. Leaky ReLU와 PReLU는 ReLU의 이러한 단점을 보완하기 위해 도입되었지만, 여전히 선형 구간에서의 변화만을 고려한다.

ELU는 비선형 구간에서의 지수적 완화를 도입하여, ReLU 계열 함수들이 가지는 문제들을 추가적으로 해결하고자 한다. 특히, 평균 출력이 0에 가깝도록 만드는 성질은 ELU만의 독특한 장점 중 하나이다. 이는 네트워크의 수렴 속도를 높이는 데 기여할 수 있다.

#### ELU 함수의 미분

신경망 학습 과정에서 중요한 요소 중 하나는 활성화 함수의 미분 값이다. ELU 함수의 미분은 다음과 같다:

$$
f'(x) = \begin{cases} 1 & \text{if } x > 0 \ f(x) + \alpha & \text{if } x \leq 0 \end{cases}
$$

양수 구간에서는 미분 값이 1로 고정되며, 이는 ReLU와 동일한다. 음수 구간에서는 $ \alpha(e^x) $로 표현되며, 이로 인해 미분 값이 0으로 수렴하지 않는다. 이 특징은 학습 과정에서 기울기 소실 문제를 방지하는 데 도움이 된다.

***

관련 자료:

1. Clevert, D.-A., Unterthiner, T., & Hochreiter, S. (2015). Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). In International Conference on Learning Representations (ICLR).
2. Goodfellow, I., Bengio, Y., & Courville, A. (2016). *Deep Learning*. MIT Press.
3. Nair, V., & Hinton, G. E. (2010). Rectified Linear Units Improve Restricted Boltzmann Machines. In *Proceedings of the 27th International Conference on Machine Learning (ICML)*.
