최소제곱법의 기초 원리

배경 및 의의

주어진 데이터로부터 어떤 함수를 근사하고자 할 때 오차를 최소화하는 방법론을 연구하는 것은 수치해석의 핵심 주제다. 특히 관측값들이 일부 오차를 포함하고 있을 때, 함수(또는 모델)가 모든 점을 완벽히 지나가도록 만드는 것은 대체로 불가능하다. 대신 전체적인 의미에서의 '근사 적합'을 찾고자 하는데, 이때 가장 보편적으로 사용되는 방법이 최소제곱법이다. 최소제곱법은 에러 제곱합을 최소화함으로써 파라미터를 추정한다. 이 방법은 직선 근사, 곡선 근사, 일반적인 선형 회귀 문제 등 여러 상황에서 적용할 수 있으며, 데이터 해석과 예측의 기반이 된다.

오차 척도와 에너지 관점

관측된 데이터 $(x_i, y_i)$가 주어졌다고 할 때, 함수를 $f(x)$로 가정하고 싶다면, 보통 다음과 같은 오차 함수를 정의한다.

E = \sum_{i=1}^{n}\bigl(y_i - f(x_i)\bigr)^2

위 식에서 $E$는 에너지(또는 비용)로 볼 수도 있고, 잔차(residual) 제곱들의 합으로 해석할 수도 있다. 최소제곱법은 이 $E$를 최소화하는 $f(x)$를 찾는 것을 목표로 한다. $f(x)$가 어떤 파라미터 벡터 $\mathbf{p}$를 포함한다면, 적합 과정은 결국 $\mathbf{p}$에 대한 최적화 문제로 귀결된다.

벡터 표현과 선형 근사

가장 흔히 다루는 경우는 $f(x) = a_0 + a_1 x + \dots + a_m x^m$ 같은 다항식을 이용하여 곡선을 근사하는 상황이다. 이를 선형 형태로 일반화하면

f(x) = a_1 \phi_1(x) + a_2 \phi_2(x) + \dots + a_m \phi_m(x)

와 같이 가정할 수 있다. 여기서 $\phi_j(x)$는 서로 다른 기저함수들이다. 이를 벡터와 행렬로 표현하면 다음과 같다.

\mathbf{A} \in \mathbb{R}^{n \times m}, \quad \mathbf{p} \in \mathbb{R}^{m}, \quad \mathbf{y} \in \mathbb{R}^{n}

에서,

\mathbf{A} = \begin{pmatrix} \phi_1(x_1) & \phi_2(x_1) & \cdots & \phi_m(x_1) \\ \phi_1(x_2) & \phi_2(x_2) & \cdots & \phi_m(x_2) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_1(x_n) & \phi_2(x_n) & \cdots & \phi_m(x_n) \end{pmatrix}, \quad \mathbf{p} = \begin{pmatrix} a_1 \\ a_2 \\ \vdots \\ a_m \end{pmatrix}, \quad \mathbf{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}.

관측값 $\mathbf{y}$와 근사함수의 예측값 $\mathbf{A}\mathbf{p}$ 간의 차이를 잔차 벡터 $\mathbf{r}$이라 하면,

\mathbf{r} = \mathbf{y} - \mathbf{A}\mathbf{p}.

최소제곱법은 $|\mathbf{r}|_2^2$를 최소화하려고 한다. 즉 다음 최적화 문제를 푼다.

\min_{\mathbf{p}} \|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2.

최소제곱해의 선형대수학적 해석

위 문제를 선형대수학적으로 풀기 위해서는 $\mathbf{A}\mathbf{p}$가 $\mathbf{y}$에 가장 근접하도록, 즉 잔차 벡터 $\mathbf{r}$를 최소화하면 된다. 구체적으로 미분을 통해 도출된 정규방정식(normal equations)은 다음과 같이 요약된다.

\mathbf{A}^\top \mathbf{A} \mathbf{p} = \mathbf{A}^\top \mathbf{y}.

이는 $\mathbf{p}$에 대한 선형 방정식이며, 만일 $\mathbf{A}^\top \mathbf{A}$가 역행렬을 갖는 경우(일반적으로 $\mathbf{A}$의 열벡터들이 선형독립일 때) 유일해가 존재한다. 그 해는

\mathbf{p} = (\mathbf{A}^\top \mathbf{A})^{-1} \mathbf{A}^\top \mathbf{y}.

최소제곱법의 근본 원리를 이런 방식으로 이해할 수 있다. 다시 말해, $\mathbf{A}\mathbf{p}$가 $\mathbf{y}$에 직교투영된 벡터가 되도록 하는 $\mathbf{p}$를 찾는 과정과 동일하다.

직교투영과 기하학적 관점

잔차 벡터 $\mathbf{r}$가 최소가 되려면, $\mathbf{r}$는 적합 공간(즉 $\mathbf{A}$의 열공간)에 대해 직교해야 한다. 열공간을 스팬하는 벡터들에 대해 모두 내적이 0이 되도록 $\mathbf{p}$를 선택하는 것이 곧 $\mathbf{A}^\top (\mathbf{y} - \mathbf{A}\mathbf{p}) = 0$이라는 정규방정식과 동치다. 정규방정식을 만족하는 해 $\mathbf{p}$가 존재하면,

\mathbf{A}\mathbf{p} = \mathbf{P}\mathbf{y}

의 형태로 적합값이 얻어진다. 여기서

\mathbf{P} = \mathbf{A}(\mathbf{A}^\top \mathbf{A})^{-1}\mathbf{A}^\top

는 정사영(projection) 행렬이며, $\mathbf{P}$는 $\mathbf{A}$의 열공간으로 사영을 수행하는 역할을 한다.

범용적 적용과 단순성

최소제곱법은 위와 같이 선형 대수학을 바탕으로 잘 구조화되어 있으며, 계산이 단순할 뿐 아니라 수치적 안정성도 상당히 우수하다. 또한 최적화 문제로서도 매우 자주 연구되고 활용되며, 다양한 응용 분야에서 표준적인 해법으로 자리잡고 있다. 다항 회귀, 지수 회귀 등 구체적인 모델에 대해서도 같은 원리가 그대로 적용된다.

미분을 통한 최소제곱해 도출

최소제곱법의 본질은 에러 제곱합을 최소화하는 문제다. 모델의 파라미터를 담은 벡터를 $\mathbf{p}$라 하고, 관측값을 $\mathbf{y}$, 설계행렬을 $\mathbf{A}$라 하면, 에러 제곱합은

S(\mathbf{p}) = \|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2

가 된다. 이를 전개하면

S(\mathbf{p}) = (\mathbf{y} - \mathbf{A}\mathbf{p})^\top (\mathbf{y} - \mathbf{A}\mathbf{p}).

위 식을 $\mathbf{p}$에 대해 미분하고 그 결과가 0이 되도록 설정함으로써 최소점(정규방정식)을 구한다. 구체적으로

\frac{\partial S}{\partial \mathbf{p}} = -2\,\mathbf{A}^\top (\mathbf{y} - \mathbf{A}\mathbf{p}) = 0

에서

\mathbf{A}^\top \mathbf{A}\,\mathbf{p} = \mathbf{A}^\top \mathbf{y}

가 성립한다. 만일 $\mathbf{A}^\top \mathbf{A}$가 가역이라면

\mathbf{p} = (\mathbf{A}^\top \mathbf{A})^{-1}\mathbf{A}^\top \mathbf{y}

로 유일해를 얻는다. 이때 $\mathbf{p}$는 최소제곱해이며, $\mathbf{A}\mathbf{p}$는 관측값 공간에서 열공간의 정사영에 해당한다.

직교투영을 통한 해석

열공간을 $\mathcal{C}(\mathbf{A})$라 했을 때, 최소제곱근사 $\mathbf{A}\mathbf{p}$는 실제 관측값 $\mathbf{y}$를 $\mathcal{C}(\mathbf{A})$에 직교투영한 벡터다. 잔차 벡터 $\mathbf{r} = \mathbf{y} - \mathbf{A}\mathbf{p}$는 $\mathcal{C}(\mathbf{A})$에 수직이 되며, 이는

\mathbf{A}^\top \mathbf{r} = 0

와 동일하다. 다시 말해, 최소제곱해는 잔차가 열공간에 대해서 직교가 되도록 $\mathbf{p}$를 선택하는 과정과 일치한다.

과대/과소적합과 해의 존재성

정규방정식의 계수행렬 $\mathbf{A}^\top \mathbf{A}$가 역행렬을 가지려면 $\mathbf{A}$의 열벡터들이 선형독립이어야 한다. 관측 횟수보다 추정하고자 하는 파라미터 수가 많은 경우(언더샘플링)나, 열벡터 간에 중복관계가 있는 경우(선형종속)에는 역행렬이 존재하지 않는다. 이때는 일반화역행렬(pseudoinverse)을 사용하거나, 다른 규제(regularization) 기법을 통해 해를 구할 수 있다.

가중 최소제곱법

측정오차의 분산이 각 데이터마다 다르거나, 어떤 점에 더 큰 중요도를 부여해야 하는 상황에서는 가중치 $\mathbf{W}$를 도입하여 다음과 같은 에러 제곱합을 최소화한다.

S(\mathbf{p}) = (\mathbf{y} - \mathbf{A}\mathbf{p})^\top \mathbf{W} (\mathbf{y} - \mathbf{A}\mathbf{p}).

행렬 $\mathbf{W}$는 대각선 원소가 각 데이터의 가중치로 구성된 양의 정부호 행렬이 된다. 가중 최소제곱 문제에서의 정규방정식은

\mathbf{A}^\top \mathbf{W}\,\mathbf{A}\,\mathbf{p} = \mathbf{A}^\top \mathbf{W}\,\mathbf{y}

가 되며, $\mathbf{A}^\top \mathbf{W},\mathbf{A}$가 가역이면

\mathbf{p} = (\mathbf{A}^\top \mathbf{W}\,\mathbf{A})^{-1} \mathbf{A}^\top \mathbf{W}\,\mathbf{y}

로 해를 구한다. 오차 구조가 균일하지 않은 상황에서 가중 최소제곱법은 전체 적합 성능을 크게 향상시킬 수 있다.

비정규(Nonlinear) 최소제곱 문제

근사하고자 하는 함수가 비선형 형태를 갖는다면, 문제는 비정규 최소제곱(Nonlinear Least Squares) 형태가 된다. 예를 들어

f(x;a,b,c) = a e^{bx} + c

와 같은 함수를 가정하는 경우, 에러 제곱합

S(a,b,c) = \sum_{i=1}^{n}\bigl[y_i - (a e^{b\,x_i} + c)\bigr]^2

의 최소화를 위해서는 보통 반복적(Iterative) 접근법인 가우스-뉴턴(Gauss-Newton) 방법, 레벤버그-마콰르트(Levenberg-Marquardt) 방법 등이 사용된다. 비선형 최소제곱에서는 해가 복수 존재하거나, 지역최소(local minimum)에 빠질 가능성도 존재하므로 초기값 설정과 반복 스킴이 매우 중요하다.

정규방정식의 수치적 특성

정규방정식은 해석적으로 유용하나, 수치적 관점에서 $\mathbf{A}^\top \mathbf{A}$를 직접 계산하는 것은 조건수가 악화될 수 있다는 위험이 있다. 조건수가 크다는 것은 작은 오차(예: 측정값의 부정확성, 컴퓨터 부동소수점 연산오차)가 해에 크게 증폭될 수 있음을 의미한다. 이를 방지하기 위해 QR 분해, SVD 분해 등을 활용하는 것이 일반적이다. 예컨대 QR 분해에서는

\mathbf{A} = \mathbf{Q}\,\mathbf{R}

를 통해 선형 least squares 문제를

\|\mathbf{y} - \mathbf{Q}\,\mathbf{R}\,\mathbf{p}\|_2^2

로 바꾸며, 직교행렬 $\mathbf{Q}$의 특성 덕분에 $\mathbf{R},\mathbf{p}$를 효율적으로 구할 수 있다. SVD 분해 역시 $\mathbf{A}$가 가지는 고유의 랭크(rk) 정보를 명확히 전달해 주므로 최소제곱해를 안정적으로 구하는 데 활용된다.

QR 분해와 최소제곱 해

정규방정식을 직접 풀면 $\mathbf{A}^\top \mathbf{A}$의 수치적 조건수가 악화될 위험이 있다. 이를 대신해 QR 분해를 활용하면 안정적으로 해를 구할 수 있다. 설계행렬 $\mathbf{A}$가 $n\times m$ 행렬이라고 할 때, QR 분해는

\mathbf{A} = \mathbf{Q}\,\mathbf{R}

과 같은 형태로 표현된다. 여기서 $\mathbf{Q}$는 열벡터들이 직교정규화된(orthonormal) $n\times n$ 행렬이며, $\mathbf{R}$은 위가 삼각 형태를 띠는 $n\times m$ 행렬(보통 상삼각 부분만 의미 있게 사용)이다. $n>m$ 상황이라면, 실제로는 $\mathbf{R}$의 상위 $m\times m$ 부분만 의미가 있으며, 이를 $\mathbf{R}_1$, $\mathbf{Q}_1$과 같은 표현으로 사용해도 된다.

선형 least squares 문제

\min_{\mathbf{p}} \|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2

를 QR 분해를 통해 풀면,

\|\mathbf{y} - \mathbf{Q}\,\mathbf{R}\,\mathbf{p}\|_2^2

가 되는데, 직교행렬의 특성상 $\mathbf{Q}^{\top}\mathbf{Q} = \mathbf{I}$이므로 문제를 더욱 단순화할 수 있다. $\mathbf{y}' = \mathbf{Q}^\top \mathbf{y}$라고 둔다면,

\|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2 = \|\mathbf{Q}^\top\mathbf{y} - \mathbf{Q}^\top\mathbf{Q}\,\mathbf{R}\,\mathbf{p}\|_2^2 = \|\mathbf{y}' - \mathbf{R}\,\mathbf{p}\|_2^2.

이제 $\mathbf{R}$이 삼각형 구조를 가지므로, $\mathbf{p}$를 구하는 계산이 더 안정적이고 효율적으로 진행된다.

SVD(특이값분해)에 의한 접근

특이값분해(Singular Value Decomposition)는 일반적인 행렬을 직교행렬과 대각행렬(특이값)로 분해하는 기법이다. $\mathbf{A}$가 $n\times m$ 행렬이라면,

\mathbf{A} = \mathbf{U}\,\boldsymbol{\Sigma}\,\mathbf{V}^\top

로 표현 가능하다. 여기서 $\mathbf{U}$는 $n\times n$ 직교행렬, $\mathbf{V}$는 $m\times m$ 직교행렬이며, $\boldsymbol{\Sigma}$는 $n\times m$ 직사각 대각행렬 형태다. 대각원소에는 $\mathbf{A}$의 특이값들이 오름차순 또는 내림차순으로 배치된다.

최소제곱해를 찾고자 하는 문제에서 SVD를 활용하면, $\mathbf{A}\mathbf{p} \approx \mathbf{y}$를 $\mathbf{U},\boldsymbol{\Sigma},\mathbf{V}^\top \mathbf{p} \approx \mathbf{y}$의 형태로 보게 되며, 직교행렬 $\mathbf{U}$의 특성상 내적 공간을 보존하므로 $\mathbf{U}^\top \mathbf{y}$를 통해 해를 구할 수 있다. 이 과정을 통해 역행렬이 없는 경우(즉, 특이값 중 0이 존재하는 경우)에도 유사해(가장 작은 노름을 갖는 해)를 구할 수 있으며, 이를 무어-펜로즈(Moore-Penrose) 유사역행렬로 해석한다.

SVD 방식은 행렬의 랭크와 노이즈 구조를 명확히 파악할 수 있어, 다중공선성(multi-collinearity) 문제나 랭크 결핍(ranked-deficient) 상황에서도 유연하게 해를 구한다. 단점으로는, 큰 차원의 문제에서 SVD 계산 비용이 비교적 크다는 점이 있다.

다항 근사와 바람직한 기저 선택

다항식을 이용해 $(x_i,y_i)$ 데이터에 대해 $f(x)=a_0 + a_1 x + a_2 x^2 + \dots + a_m x^m$ 형태로 근사하는 것은 가장 직관적인 접근이다. 그러나 Vandermonde 행렬을 직접 이용하는 방식은 고차 다항식일 때 조건수가 매우 나빠지기 쉽다.

설계행렬 $\mathbf{A}$가

\mathbf{A}= \begin{pmatrix} 1 & x_1 & x_1^2 & \cdots & x_1^m \\ 1 & x_2 & x_2^2 & \cdots & x_2^m \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_n & x_n^2 & \cdots & x_n^m \end{pmatrix}

로 구성되어 있다면, $x_i$의 분포나 $m$의 크기에 따라 $\mathbf{A}^\top \mathbf{A}$의 조건수가 극도로 커질 수 있다. 이럴 때는 직교다항식(예: 체비쇼프 다항식)을 기저로 삼아 문제를 재구성하면 수치 안정성이 개선된다.

정규화, 규제, 및 과적합 문제

고차 다항식으로 갈수록 근사 오차가 감소하기는 하나, 특정 구간 밖에서는 예측 성능이 급격히 나빠지거나, 측정값의 작은 노이즈가 파라미터에 크게 반영되어 복잡한 곡선이 형성될 수도 있다. 이를 방지하기 위해 Tikhonov 정규화( Ridge regression )나 Lasso 등의 기법을 고려한다. 예를 들어 Tikhonov 정규화는 다음과 같은 목적함수를 사용한다.

\min_{\mathbf{p}} \Bigl\{\|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2 + \lambda \|\mathbf{p}\|_2^2\Bigr\}.

이때 정규방정식은

(\mathbf{A}^\top \mathbf{A} + \lambda \mathbf{I})\,\mathbf{p} = \mathbf{A}^\top \mathbf{y}

로 바뀌며, $\mathbf{A}^\top \mathbf{A} + \lambda \mathbf{I}$가 역행렬을 가지는 것은 한층 용이해진다. 적절한 $\lambda$를 택하면 과적합 문제를 완화할 수 있다.

대규모 문제에서의 반복법

빅데이터나 고차원 문제에서는 직접 QR 분해나 SVD를 수행하기가 어려운 경우가 많다. 이럴 때는 반복적 방법(Iterative Methods)을 사용한다. 예를 들어 쌍켤레구배법(Conjugate Gradient)을 정규방정식 $\mathbf{A}^\top \mathbf{A},\mathbf{p} = \mathbf{A}^\top \mathbf{y}$에 적용하거나, LSQR 방법 등을 활용할 수 있다. LSQR은 $\mathbf{A}\mathbf{p} \approx \mathbf{y}$ 구조를 그대로 반영하면서도, $\mathbf{A}^\top \mathbf{A}$를 직접 다루지 않는 방향으로 설계되어 있다.

반복법은 희소(sparse) 행렬이나 초대형 문제에서도 메모리를 적게 소모하며, 점진적으로 해를 개선해 나간다는 장점이 있다. 다만 빠른 수렴을 위해서는 적절한 선조건(preconditioning) 기법이 필요할 수 있다.

M-추정(Robust Regression)

최소제곱법은 잔차 제곱합을 최소화한다는 측면에서 이상치(outlier)에 취약하다는 단점이 있다. 극단적인 데이터 점 하나가 전체 적합 곡선을 크게 왜곡시킬 수 있기 때문이다. 이를 보완하기 위한 방법으로 M-추정(M-estimation)을 기반으로 한 강인회귀(robust regression) 기법이 존재한다.

M-추정에서는 일반적인 $L_2$ 노름 대신, 불필요하게 큰 가중이 부여되지 않는 손실함수(예: Huber 함수, Cauchy 함수 등)를 사용한다. 예를 들어, Huber 함수 $\rho$가 적용된 에러를 최소화하는 경우

S(\mathbf{p}) = \sum_{i=1}^{n} \rho\bigl( y_i - f(x_i; \mathbf{p}) \bigr)

를 최소화한다. Huber 함수는 작은 잔차 구간에서는 $L_2$ 특성을 유지하지만, 큰 잔차 구간에서는 $L_1$ 형태를 취해 이상치에 대한 영향력을 줄인다. M-추정 문제는 보통 반복적으로 가중 최소제곱법(IRLS: Iteratively Reweighted Least Squares)으로 풀린다. IRLS 접근은 $k$번째 반복에서 잔차 크기에 따라 가중 $\mathbf{W}^{(k)}$를 부여한 뒤, 가중 최소제곱해를 구한 다음, 다시 잔차를 갱신하는 과정을 반복한다.

L1 노름 기반 최소화

최소제곱법은 잔차 제곱합($L_2$ 노름)을 최소화하지만, 때로는 절대값합($L_1$ 노름)을 최소화하는 기법이 더 적합할 수 있다. 예컨대

\min_{\mathbf{p}} \|\mathbf{y} - \mathbf{A}\mathbf{p}\|_1

의 형태다. 이때 오차가 커질수록 제곱합보다 훨씬 덜 가중되므로, 이상치가 많거나 분포가 꼬리가 긴 경우에도 비교적 안정적인 결과를 얻게 된다. 다만 $L_1$ 문제는 $L_2$ 문제에 비해 해석적 해를 구하기가 훨씬 어렵고, 선형대수학적 공식도 간단하지 않다. 보통 선형계획법이나 특수 알고리즘(단계별 단체법 등)을 활용한다.

부분 제약(Constrained Least Squares)

현실의 여러 문제에서는 근사함수나 파라미터가 특정한 제약조건을 만족해야 하는 경우가 많다. 예를 들어, 파라미터 $\mathbf{p}$가 다음과 같은 선형 제약 $\mathbf{C},\mathbf{p} = \mathbf{d}$를 만족해야 한다고 하자.

\begin{align} \min_{\mathbf{p}} & \quad \|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2 \\ \text{subject to} & \quad \mathbf{C}\,\mathbf{p} = \mathbf{d}. \end{align}

이를 풀기 위해서는 보통 라그랑주 승수법(Lagrange multipliers)을 사용한다. 적절한 라그랑주 승수 $\boldsymbol{\lambda}$를 도입하면

\mathcal{L}(\mathbf{p}, \boldsymbol{\lambda}) = \|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2 + 2\,\boldsymbol{\lambda}^\top (\mathbf{C}\,\mathbf{p} - \mathbf{d})

의 형태의 목적함수를 설정하고, $\mathbf{p}, \boldsymbol{\lambda}$에 대해 편미분이 0이 되는 조건을 풀면 된다. 구체적으로

\begin{align} \frac{\partial \mathcal{L}}{\partial \mathbf{p}} &= -2\,\mathbf{A}^\top (\mathbf{y} - \mathbf{A}\mathbf{p}) + 2\,\mathbf{C}^\top \boldsymbol{\lambda} = 0,\\ \frac{\partial \mathcal{L}}{\partial \boldsymbol{\lambda}} &= 2\,(\mathbf{C}\,\mathbf{p} - \mathbf{d}) = 0. \end{align}

즉

\mathbf{A}^\top \mathbf{A}\,\mathbf{p} - \mathbf{A}^\top \mathbf{y} + \mathbf{C}^\top \boldsymbol{\lambda} = 0, \quad \mathbf{C}\,\mathbf{p} = \mathbf{d}.

위 연립방정식을 풀면 제약조건을 만족하는 최소제곱해를 얻는다. 가중 및 비선형 상황에서도 유사한 접근으로 확장할 수 있다.

선형화 기법

비선형 최소제곱에서 자주 활용되는 전략 중 하나는 모델을 국소 선형화하여 반복적인 선형 문제로 환원하는 것이다. 예를 들어, 함수 $f(x;\mathbf{p})$가 비선형이라면, 어떤 근사해 $\mathbf{p}^{(k)}$ 근방에서 1차 테일러 전개를 적용해

f(x;\mathbf{p}) \approx f\bigl(x;\mathbf{p}^{(k)}\bigr) + \mathbf{J}\bigl(\mathbf{p}^{(k)}\bigr) \left( \mathbf{p} - \mathbf{p}^{(k)} \right),

를 얻는다. 여기서 $\mathbf{J}$는 야코비(Jacobian) 행렬이다. 그런 후,

\mathbf{r}^{(k)} = \mathbf{y} - f\bigl(\mathbf{x};\mathbf{p}^{(k)}\bigr)

라 정의하면, 새로운 선형 least squares 문제

\min_{\Delta \mathbf{p}} \bigl\|\mathbf{r}^{(k)} - \mathbf{J}\bigl(\mathbf{p}^{(k)}\bigr)\,\Delta\mathbf{p}\bigr\|_2^2

를 설정하고, $\Delta \mathbf{p}$를 구해 $\mathbf{p}^{(k+1)} = \mathbf{p}^{(k)} + \Delta \mathbf{p}$로 갱신한다. 이러한 접근을 가우스-뉴턴 방법으로 부르며, 레벤버그-마콰르트 알고리즘은 추가로 감쇠(damping) 항을 넣어 수치 안정성을 더 높인 기법이다.

편의상 예시 (Python)

아래는 선형회귀를 최소제곱관점에서 직접 해석하는 예시 코드이다. 간단한 $y_i \approx a + b x_i$ 문제를 생각해보자.

import numpy as np

# 예시 데이터
x_data = np.array([1.0, 2.0, 3.0, 4.0])
y_data = np.array([2.1, 2.9, 3.7, 5.1])

# 설계행렬 A: 첫 열은 1, 둘째 열은 x
A = np.vstack((np.ones_like(x_data), x_data)).T
y = y_data.reshape(-1, 1)

# 정규방정식 p = (A^T A)^(-1) A^T y
p = np.linalg.inv(A.T @ A) @ (A.T @ y)

print("추정된 a, b =", p.ravel())

설계행렬 A의 형태는

\begin{pmatrix} 1 & x_1 \\ 1 & x_2 \\ 1 & x_3 \\ 1 & x_4 \end{pmatrix}

다. $p = (a;; b)^\top$로 정의하면, 위 코드를 통해 최소제곱법에 의한 해가 계산된다. 작은 데이터세트에서는 직접 $(\mathbf{A}^\top \mathbf{A})^{-1}$를 구해도 큰 문제가 없지만, 대규모 문제나 조건수가 나쁜 경우에는 QR 또는 SVD 분해가 권장된다.

다차원 확장과 곡면 근사

최소제곱법은 단일 독립변수(1D) 상황에만 제한되지 않는다. 다차원 데이터에서도 동일 원리를 적용할 수 있다. 예컨대 $(x_i, y_i, z_i)$가 주어졌을 때,

z \approx f(x, y)

형태의 모델을 추정하고 싶다면, $f(x, y)$를 적절한 기저함수들의 선형결합으로 가정하고, 벡터화 및 행렬화 과정을 거쳐서 최소제곱해를 구할 수 있다. 데이터가 2차원 평면 상의 $(x_i, y_i)$ 좌표와 대응하는 관측값 $z_i$로 구성된다고 할 때,

f(x, y) = a_0 + a_1 x + a_2 y + a_3 x^2 + a_4 xy + a_5 y^2 + \dots

와 같은 다항식 근사 모델을 세울 수 있다. 특정 차수 이하의 모든 단항( monomial )을 포함하여 설계행렬을 만들면, 문제 구조는 결국

\mathbf{A}\,\mathbf{p} \approx \mathbf{z}

형태가 되어, 이전과 동일하게 정규방정식을 사용하거나 QR, SVD 등으로 최소제곱해를 구한다.

이는 표면(surfaces)을 근사하거나, 다변량 데이터에 대한 예측모델을 구성할 때 매우 유용하다.

다중공선성과 레귤러라이제이션

다차원 문제에서 각 독립변수들 사이에 상관관계가 강하면, 설계행렬 $\mathbf{A}$의 열벡터들 간에 선형종속성이 발생하거나, 거의 종속에 가까운 상황이 되어 $\mathbf{A}^\top \mathbf{A}$의 조건수가 악화된다. 이를 다중공선성(multi-collinearity) 문제라고 한다. 이런 문제가 심각하면 추정된 계수값이 극단적으로 발산할 위험이 있으며, 해 자체가 불안정해질 수 있다. 레귤러라이제이션(Ridge, Lasso 등)은 이를 완화하기 위한 대표적인 기법이다. 특히 Ridge 정규화는

\mathbf{p} = (\mathbf{A}^\top \mathbf{A} + \lambda \mathbf{I})^{-1} \mathbf{A}^\top \mathbf{y}

와 같은 형태로 해를 구한다. $\lambda$ 값이 커질수록 계수값들이 더 강하게 억제되어, 노이즈나 이상치 등에 둔감해진다.

스플라인(Spline) 근사와 최소제곱

최소제곱 관점에서 스플라인 근사는 유연한 곡선을 구성하기 위해 구간별 다항식을 조합하되, 매끄러움 조건(예: 연속 미분가능성)을 추가로 부과하는 기법이다. 구간 경계를 매듭점(knots)이라 부르며, 각 구간에서의 다항식 차수 및 접속 조건을 설정해, 전체를 부드럽게 연결하는 구조다.

스플라인 근사도 잔차 제곱합을 최소화하되, 추가로 곡선의 굴곡 정도(2차 미분의 적분값 등)를 제한하거나, 매듭점의 개수를 설정하는 등 다양한 변형이 가능하다. 대표적으로 큐빅 스플라인(cubic spline)은 구간별 3차 다항식을 사용해 2차 미분 연속성을 만족시키며, 이를 최소제곱 스플라인(가중도 포함) 문제로 정식화할 수 있다.

일반화 선형모형(Generalized Linear Models)

반응변수 $y$가 정규분포를 이루지 않는 이산형(예: 이항분포, 포아송분포) 상황에서도 최소제곱법과 유사한 접근법을 취할 수 있다. 일반화 선형모형(GLM)은 연결함수(link function)를 통해 비선형 변환을 고려하면서도, 회귀 계수 추정을 위해 최소제곱과 유사한 기법(최대우도추정이나 IRLS)을 구사한다. 로지스틱 회귀(logistic regression) 등에서 잔차 제곱합 대신 로그우도를 극대화하지만, 실제 계산 절차는 최소제곱형식에 가까운 반복 알고리즘을 수행한다.

선형독립성과 최소제곱 근사 함수공간

최소제곱근사를 일반적 함수공간에서 논할 때, 근사 함수들의 집합이 선형독립인 기저를 이룰수록(또는 크게 확장하여 프레임(frame)이 되더라도) 안정적으로 해석할 수 있다. 직교기저(예: 직교다항식, 푸리에 기저 등)를 사용하면, 기저함수 간 내적이 0이 되므로 설계행렬의 대각화가 용이해지고, 상관성 문제를 크게 줄일 수 있다.

함수공간 $\mathcal{V}$에서 $\langle \phi_i, \phi_j \rangle = \delta_{ij}$를 만족하는 직교기저를 택한다면, 최소제곱해를 구할 때 해석적 단순화가 크게 일어난다. 예컨대 체비쇼프 다항식 기저에서 $\mathbf{A}^\top \mathbf{A}$의 대각항들만 남아 직접 해를 구하기 쉽다. 이와 같은 기법을 활용하면, 구간이 커지거나 다항식 차수가 올라가는 경우에도 조건수 문제를 어느 정도 완화할 수 있다.

커널 기법과 최소제곱 서포트벡터머신

머신러닝 관점에서 최소제곱법이 넓게 사용되는 예로 LS-SVM(Least Squares Support Vector Machine)이 있다. 전통적인 SVM은 마진을 최대화하기 위해 절대오차나 힌지손실을 사용하지만, LS-SVM에서는 잔차제곱항을 최소화하는 형태로 설계한다.

커널 기법을 사용하면 입력데이터를 고차원(또는 무한차원) 공간으로 사상한 뒤, 그 공간에서 선형 근사를 수행하는 과정을 등가적으로 표현한다. 이때 커널함수 $K(x_i, x_j)$가 유효한 내적역할을 하며, 설계행렬의 역할을 한다. LS-SVM은 정규방정식 구조가 유지되므로, 전통적 SVM 대비 계산이 더 단순화되는 장점이 있다. 다만 이상치 영향 및 해석적 측면에서는 차이가 존재한다.

고차원 문제와 희소화 기법

고차원(예: 파라미터 수가 데이터 수보다 훨씬 많은)의 상황에서는 최소제곱해가 본질적으로 무한히 많아지거나, 일반적인 역행렬 계산이 불가능할 수도 있다. 이때 Lasso와 같은 $L_1$ 규제 항을 넣어 계수를 희소(sparse)하게 유도한다.

\min_{\mathbf{p}} \Bigl\{\|\mathbf{y} - \mathbf{A}\mathbf{p}\|_2^2 + \lambda \|\mathbf{p}\|_1\Bigr\}

구조의 문제를 풀면, $\mathbf{p}$의 대부분 원소들이 0으로 떨어지는 해를 구할 수 있다. 이를 통해 불필요한 변수(기저함수)를 제거하고, 모델 해석성을 높일 수 있다.

이 문제는 경사하강법, 좌표최적화법, Proximal 방법 등을 사용하여 반복적으로 해를 구한다. 고차원 문제에서 희소성을 유도함으로써, 잡음에 대한 민감도를 낮추고 예측 성능을 개선하며, 모델을 단순화할 수 있다.

베이지안 관점

최소제곱해는 통계적 관점에서 조건부정규분포 가정 하의 최대우도추정(MLE)와 대응한다. 만약 파라미터 $\mathbf{p}$에 대해 사전분포(prior)를 부여한다면, 베이지안 관점으로 확장 가능하다. 예컨대 가우시안 사전분포를 가정하면, 리지 회귀가 베이지안 사후최대(a posteriori) 해석을 얻게 된다.

사전분포가 라플라스 분포( double exponential )라면 Lasso 형태를 얻을 수 있으며, 더욱 복잡한 사전분포(스파이크 앤 슬래브(spike-and-slab) 등)를 사용하면 희소성이나 그룹 구조를 반영한 다양한 회귀 모형을 구성할 수 있다.

부분 최소제곱법(Partial Least Squares)과 차원 축소

데이터의 예측변수(독립변수)가 매우 많고 서로 상관성이 높을 때 다중공선성 문제가 심화되어, 단순한 최소제곱 접근은 불안정한 해를 초래할 수 있다. 이를 극복하기 위해 부분 최소제곱법(PLS: Partial Least Squares)을 사용할 수 있다. PLS는 예측변수들과 종속변수 간의 공분산(covariance)을 최대화하는 방향으로 잠재변수(latent variable)를 추출하면서, 이 잠재변수 공간에서 회귀를 수행한다.

표면적으로는 주성분회귀(PCR: Principal Components Regression)와 유사하나, PCR은 단순히 독립변수들끼리의 분산만을 최대화하는 주성분을 찾고 나서 그 축으로 차원을 축소한 뒤 회귀를 수행한다. 반면 PLS는 종속변수 정보까지 고려하여 축을 찾기 때문에, 예측오차를 줄이는 데 좀 더 특화되어 있다. 화학 공정, 생물정보학, 센서데이터 분야 등에서 PLS가 효과적으로 사용된다.

적응형 방법(Adaptive Methods)

데이터가 순차적으로 들어오거나, 스트리밍 환경인 경우에는 기존 전체 데이터에 대해 매번 최소제곱 계산을 다시 수행하기가 부담스럽다. 이럴 때 적응형(adaptive) 최소제곱 알고리즘들이 고려된다. 예를 들어 LMS(Least Mean Squares) 알고리즘은 신호처리나 시계열 분석에서 흔히 쓰이며, 잔차를 기반으로 적은 양의 계산으로 계수를 점진적으로 업데이트한다.

적응형 알고리즘은 학습률(learning rate) 같은 하이퍼파라미터를 조절해야 하며, 너무 크게 잡으면 발산의 위험이, 너무 작게 잡으면 수렴 속도가 느려질 수 있다. 이들은 점진적(online) 선형 회귀 문제에서도 많이 응용된다.

온라인(Online) 및 배치(Batch) 방식

일반적으로 최소제곱법은 배치(batch) 방식으로 모든 데이터를 한꺼번에 사용해 해를 구한다. 하지만 대규모 데이터나 스트리밍 환경을 고려하면, 온라인(online) 방식으로 데이터를 조각 단위로 받아가면서 해를 갱신하는 방법을 고려해야 한다. 온라인 방식에서는 $\mathbf{A}$, $\mathbf{y}$를 크게 구성하지 않고, 미니배치(mini-batch)나 단일 샘플 단위로 업데이트한다.

예컨대 확률적 경사하강법(SGD) 계열 기법을 통해, 임의 추출된 작은 부분집합에 대한 오차를 최소화하는 방향으로 파라미터를 순차적으로 조정한다. 이러한 방식은 메모리를 덜 사용하고, 실시간 예측/적합 갱신에 유리하다. 다만 수렴정도를 정교하게 관리하기 위해 학습률 스케줄 등 세부 전략이 필요하다.

대규모 병렬 계산과 분산 환경

빅데이터 시나리오에서는 행렬 연산이 매우 커져서 단일 장비 메모리를 초과하기도 한다. 이때 분산/병렬 처리 프레임워크를 사용해 대규모 최소제곱 문제를 나누어 해결할 수 있다. 대표적으로 Spark, MPI, Hadoop 같은 시스템 환경에서 QR 분해나 SVD 계산을 분산 수행하거나, 반복적 방법(예: LSQR)을 병렬화한다.

분산 환경에서는 네트워크 통신 비용과 로드 밸런싱이 중요한 고려사항이다. 예컨대, QR 분해의 Householder 변환이나 Givens 회전 방법을 병렬화하기 위해서는 데이터 블록을 적절히 분배하고, 단계별로 통신을 최소화해야 한다.

또한, 슈퍼컴퓨팅이나 GPU 가속을 통해 BLAS/LAPACK 라이브러리를 병렬로 호출하면, 대형 행렬의 최소제곱 계산 속도를 크게 끌어올릴 수 있다.

잡음과 불확실성, 측정오차의 모형화

최소제곱법은 보통 종속변수 $y$ 쪽의 오차만을 고려하는 방식으로 시작한다. 그러나 실험물리, 공학 등에서는 독립변수 $x$에도 측정오차가 존재하는 경우가 흔하다. 이럴 때는 errors-in-variables 모델(EIV)이나 Deming regression과 같은 변형된 접근법을 사용한다.

Deming 회귀에서는 $x$와 $y$ 각각의 분산비를 고려하여, 오차들을 동시에 최소화하는 방향으로 회귀 계수를 구한다. EIV 모델은 좀 더 일반화된 형태의 문제로, 독립변수의 측정오차 구조(공분산 행렬 포함)를 명시해야 한다. 이런 문제는 비선형 최소제곱 방법으로 풀거나, 반복적 추정 기법이 활용된다.

실험계획법(Design of Experiments)과 최소제곱

데이터가 이미 주어진 상태에서 최적의 회귀계수를 찾는 것이 아니라, 실험 설계를 어떻게 할지(어떤 $x$값들을 취할지) 미리 결정할 수 있는 상황이라면, 실험계획법에서 제안하는 최적설계(optimal design)를 통해 $\mathbf{A}$가 가능한 한 좋은 조건수를 갖도록 $x$들을 배치할 수 있다. 예컨대 D-Optimal 설계는 $\det(\mathbf{A}^\top \mathbf{A})$를 최대화하는 방향으로 설계점을 선택해, 추정 계수의 분산을 최소화하려 한다.

이처럼 사전에 조건수를 개선하면, 최소제곱법으로 얻어지는 해의 불확실성이 크게 줄어든다. 이는 물리실험, 화학실험, 공정제어 등에서 효율적이고 정확도 높은 실험을 설계하는 기본원리이기도 하다.

모수적 vs 비모수적 접근

최소제곱법은 파라미터 공간이 유한차원이라는 점에서 모수적(parametric) 접근이다. 다항식 회귀, 지수함수 회귀, 로지스틱 회귀 등은 모델 형태가 미리 결정되어 있고, 그 파라미터(계수)들만 추정한다. 그러나 비모수적(nonparametric) 접근으로 넘어가면 스플라인, 커널 회귀, 가우시안 프로세스 회귀 등 훨씬 더 유연한 모형 구성이 가능하다.

비모수적 기법에서도 기본 아이디어는 잔차나 우도함수를 최소화하거나 최대화한다는 것이며, 특정한 조건하에서 최소제곱적인 해석이 가능하다. 다만 파라미터가 무한차원(함수 전 공간)으로 확장되는 것이므로, 적절한 정규화나 평활화(smoothing) 조건을 부과해야 한다.

최소제곱법의 확장된 활용

최소제곱법은 단순한 곡선근사에서부터, 대규모 회귀모델, 머신러닝, 신호처리, 베이지안 추론 등 다양한 분야와 접목되어 발전해 왔다. 주어진 데이터의 특성(오차 구조, 이상치, 고차원성 등)에 따라 적절한 변형 기법(가중, 정규화, 비선형화, 강인추정 등)을 결합하면, 보다 안정적이고 신뢰도 높은 추정 결과를 얻을 수 있다.

Previouschapter_07 Next오차제곱합 최소화와 회귀 분석

Last updated 1 year ago

hashtag배경 및 의의

hashtag오차 척도와 에너지 관점

hashtag벡터 표현과 선형 근사

hashtag최소제곱해의 선형대수학적 해석

hashtag직교투영과 기하학적 관점

hashtag범용적 적용과 단순성

hashtag미분을 통한 최소제곱해 도출

hashtag직교투영을 통한 해석

hashtag과대/과소적합과 해의 존재성

hashtag가중 최소제곱법

hashtag비정규(Nonlinear) 최소제곱 문제

hashtag정규방정식의 수치적 특성

hashtagQR 분해와 최소제곱 해

hashtagSVD(특이값분해)에 의한 접근

hashtag다항 근사와 바람직한 기저 선택

hashtag정규화, 규제, 및 과적합 문제

hashtag대규모 문제에서의 반복법

hashtagM-추정(Robust Regression)

hashtagL1 노름 기반 최소화

hashtag부분 제약(Constrained Least Squares)

hashtag선형화 기법

hashtag편의상 예시 (Python)

hashtag다차원 확장과 곡면 근사

hashtag다중공선성과 레귤러라이제이션

hashtag스플라인(Spline) 근사와 최소제곱

hashtag일반화 선형모형(Generalized Linear Models)

hashtag선형독립성과 최소제곱 근사 함수공간

hashtag커널 기법과 최소제곱 서포트벡터머신

hashtag고차원 문제와 희소화 기법

hashtag베이지안 관점

hashtag부분 최소제곱법(Partial Least Squares)과 차원 축소

hashtag적응형 방법(Adaptive Methods)

hashtag온라인(Online) 및 배치(Batch) 방식

hashtag대규모 병렬 계산과 분산 환경

hashtag잡음과 불확실성, 측정오차의 모형화

hashtag실험계획법(Design of Experiments)과 최소제곱

hashtag모수적 vs 비모수적 접근

hashtag최소제곱법의 확장된 활용