# L1 정규화 (L1 Regularization)

#### 정규화의 기본 개념

정규화는 머신러닝 모델의 복잡도를 줄이고 과적합(overfitting)을 방지하기 위해 사용되는 기법이다. 정규화의 기본 원칙은 모델의 손실 함수에 규제 항(term)을 추가하여 특정 파라미터의 크기를 제한하는 것이다. 이로 인해 모델이 과도하게 복잡해지지 않도록 유도할 수 있다.

L1 정규화는 정규화 기법 중 하나로, 절대값을 이용하여 모델의 가중치를 규제한다. 이는 L1 노름(norm)이라고 불리는 규제 항을 손실 함수에 추가하는 방식으로 구현된다.

#### L1 정규화의 수학적 정의

L1 정규화는 손실 함수에 추가되는 규제 항으로, 가중치 벡터의 모든 요소의 절대값 합을 포함한다. 일반적인 회귀 문제에서 L1 정규화가 적용된 손실 함수는 다음과 같다:

$$
\text{L1 Regularized Loss} = \text{Loss Function} + \lambda \sum\_{i=1}^{n} |w\_i|
$$

여기서,

* $ \lambda $는 정규화 강도를 조절하는 하이퍼파라미터로, 일반적으로 0과 1 사이의 값을 갖는다. $ \lambda $가 클수록 정규화의 효과가 강해진다.
* $ w\_i $는 모델의 가중치 파라미터이다.
* $ \sum\_{i=1}^{n} |w\_i| $는 가중치 벡터의 L1 노름으로, 모든 가중치의 절대값을 합한 것이다.

이 수식에서 알 수 있듯이, L1 정규화는 모델이 사용하는 가중치의 절대값을 줄이려는 경향이 있다.

#### L1 정규화의 특징

L1 정규화의 가장 두드러진 특징은 가중치 벡터의 희소성(sparsity)을 촉진한다는 점이다. 이는 많은 가중치가 0이 되는 결과를 초래하여, 모델의 복잡도를 크게 줄일 수 있다. 이러한 특징은 특히 많은 변수 중 일부만이 중요한 경우에 유용하다. L1 정규화를 통해 모델은 중요한 변수만을 선택하게 되며, 불필요한 변수는 가중치가 0으로 수렴하게 된다.

이와 달리, L2 정규화는 가중치의 크기를 줄이지만, 가중치가 정확히 0이 되는 경우는 드물다. 따라서 L1 정규화는 변수 선택(variable selection)을 자연스럽게 수행하는 방법으로 간주될 수 있다.

#### L1 정규화의 장점과 단점

**장점:**

* 모델이 중요한 변수만을 선택하도록 유도하여 해석 가능성을 높인다.
* 높은 차원의 데이터에서 유용하며, 불필요한 특징을 제거할 수 있다.

**단점:**

* 데이터가 다중공선성(multicollinearity) 문제를 가지고 있을 때는 L1 정규화가 적합하지 않을 수 있다. 이는 L1 정규화가 변수 간의 상관관계를 고려하지 않기 때문이다.
* 가중치가 정확히 0으로 수렴하기 때문에, 일부 정보가 손실될 가능성이 있다.

#### L1 정규화의 수학적 이해

L1 정규화의 수학적 특성을 이해하기 위해서는, L1 정규화가 파라미터 공간에서 어떤 제약을 가하는지를 살펴보아야 한다. L1 노름은 파라미터 공간에서 다면체(polytope) 형태의 제약 조건을 제공한다. 이 다면체는 모서리에서 최적해를 가지는 경향이 있는데, 이는 많은 가중치가 0이 될 가능성을 높인다.

이는 최적화 문제를 해결할 때, L1 정규화가 가중치 벡터의 많은 요소를 0으로 만드는 방향으로 작용한다는 것을 의미한다. 따라서, 모델의 희소성을 촉진하며, 이는 고차원 데이터에서 특히 유용하다.

#### L1 정규화의 최적화 문제

L1 정규화는 Convex Optimization 문제로 표현되며, 이 문제를 해결하기 위한 여러 알고리즘이 존재한다. 대표적인 방법으로는 Lasso(Least Absolute Shrinkage and Selection Operator) 회귀가 있다. Lasso 회귀는 L1 정규화가 적용된 선형 회귀의 한 형태로, 변수 선택과 정규화를 동시에 수행한다.

최적화 과정에서 L1 정규화는 가중치 업데이트 시 절대값을 기반으로 하기 때문에, 가중치 벡터의 요소를 점진적으로 줄이는 역할을 한다. 이로 인해 일부 가중치는 0으로 수렴하고, 이는 모델의 복잡성을 줄이는 데 크게 기여한다.

***

관련 자료:

* Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society, Series B.
* Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Series in Statistics.
* Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.