# 센서 퓨전의 이론적 기초: 추정 이론과 최대우도추정(MLE)

#### 추정 이론의 개요

추정 이론은 확률적 특성을 가진 데이터를 바탕으로, 그 데이터를 생성했다고 가정되는 확률분포의 매개변수(또는 상태)를 어떠한 기준에서 ‘최적’으로 추정하는 방법을 다룬다. 센서 퓨전에서는 여러 센서로부터 온 측정값들의 오차 특성을 반영하면서, 실제로 추정하고자 하는 물리량(예: 물체의 위치, 속도, 방향 등)을 효율적으로 계산해야 하는데, 이 때 통계적 추정 이론은 핵심적인 역할을 한다. 추정 이론에서 자주 사용되는 접근법으로는 최댓우도추정, 최대사후확률추정, 최소제곱추정, 베이지안 추정 등이 있다. 그 중에서 최대우도추정(MLE: Maximum Likelihood Estimation)은 가장 기초적이고 직관적인 추정 방식으로, 센서 퓨전의 다양한 알고리즘을 이해하는 첫걸음이 된다.

추정의 문제에서 $\mathbf{\theta}$를 추정해야 하는 매개변수라고 할 때, 센서로부터의 측정값(또는 데이터)을 $\mathbf{x}$라고 하자. $\mathbf{x}$가 확률적 현상에서 얻어지는 결과라고 가정하면, $\mathbf{x}$가 $\mathbf{\theta}$를 포함하는 확률분포로부터 샘플링된 값으로 볼 수 있다. 이 경우, 우리가 관찰한 $\mathbf{x}$를 통해 그 확률분포의 매개변수인 $\mathbf{\theta}$를 역으로 찾아내는 문제가 자연스럽게 성립한다. 추정 이론에서는 추정량(estimator)이라는 함수를 정의해 $\mathbf{\theta}$를 근사한다.

추정 이론을 적용하기 위해서는 측정값 $\mathbf{x}$와 추정해야 할 매개변수 $\mathbf{\theta}$ 사이에 어느 정도의 확률적 모형(probabilistic model)을 가정한다. 예를 들어, 센서 노이즈가 가우시안 분포를 따른다고 가정한다면, 그 분포의 평균과 공분산에 해당하는 파라미터를 특정 방식으로 추정해야 한다. 센서 퓨전에서 여러 센서가 있을 경우, 서로 다른 노이즈 분포를 가지는 다양한 측정값들을 결합하여 $\mathbf{\theta}$에 대한 정보를 최대한 효율적으로 추론한다.

추정 이론의 한 갈래인 빈도주의(frequentist) 관점에서는 매개변수 $\mathbf{\theta}$를 고정된 ‘진짜 값’이라고 가정하고, 이 값은 알 수 없지만 측정값 $\mathbf{x}$가 여러 번 반복 측정될 때 그 통계적 특성(분포)을 통해 $\mathbf{\theta}$의 추정값이 수렴한다고 본다. 반면 베이지안 관점에서는 $\mathbf{\theta}$ 자체도 확률변수로 보고, 사전분포(prior)를 고려한 뒤 사후분포(posterior)를 추정한다. MLE는 빈도주의적인 접근을 대표하며, 다른 추정 이론들과 비교하기에도 유용한 출발점이다.

#### 최대우도추정의 정의

MLE는 관측된 데이터가 “가장 발생하기 쉬운(likely) 매개변수”를 찾는 방식으로 이해할 수 있다. 관측치 집합을 $\mathbf{X} = {\mathbf{x}\_1, \mathbf{x}\_2, \dots, \mathbf{x}\_n}$라고 하고, 각 데이터 $\mathbf{x}\_i$가 $\mathbf{\theta}$를 파라미터로 갖는 확률분포 $p(\mathbf{x}|\mathbf{\theta})$에서 독립적으로 추출되었다고 가정하면, 전체 데이터에 대한 우도(likelihood)는 다음과 같다.

$$
\begin{align} L(\mathbf{\theta}|\mathbf{X})  = \prod\_{i=1}^{n} p(\mathbf{x}\_i|\mathbf{\theta}) \end{align}
$$

MLE는 이 우도 함수를 최대화하는 $\mathbf{\theta}$를 찾는 문제로 정의된다. 즉,

$$
\begin{align} \hat{\mathbf{\theta}}\_{\mathrm{MLE}}  = \underset{\mathbf{\theta}}{\mathrm{argmax}} \ L(\mathbf{\theta}|\mathbf{X}). \end{align}
$$

곱셈 형태의 우도 함수를 최대화하는 것은 계산상의 난이도를 높이므로, 보통 로그 우도(log-likelihood)를 사용한다. 로그는 단조증가 함수이므로 최대화 지점이 같다는 성질을 이용한다.

$$
\begin{align} \ell(\mathbf{\theta}|\mathbf{X})  = \log L(\mathbf{\theta}|\mathbf{X}) = \sum\_{i=1}^{n} \log p(\mathbf{x}\_i|\mathbf{\theta}). \end{align}
$$

따라서 MLE의 문제는 로그 우도 함수를 최대화하는 문제와 동치가 된다.

$$
\begin{align} \hat{\mathbf{\theta}}*{\mathrm{MLE}}  = \underset{\mathbf{\theta}}{\mathrm{argmax}} \ \ell(\mathbf{\theta}|\mathbf{X}) = \underset{\mathbf{\theta}}{\mathrm{argmax}} \ \sum*{i=1}^{n} \log p(\mathbf{x}\_i|\mathbf{\theta}). \end{align}
$$

#### 최대우도추정의 일반적 절차

최대우도추정을 실제로 수행하는 절차는 대체로 다음과 같다. 먼저, 데이터가 어떠한 분포를 따른다고 가정하고, 그 분포의 확률밀도함수(pdf)나 확률질량함수(pmf)를 설정한다. 그리고 그것을 바탕으로 우도 함수를 정의하고, 그 함수를 매개변수에 대해 최대화하는 문제를 푼다. 이 때, 매개변수가 여러 개인 경우가 많으므로, 보통은 미분을 이용해 로그 우도의 기울기(gradient)가 0이 되는 지점을 찾거나(선형 문제에서는 직접적인 공식 해를 구할 수 있음), 비선형 문제에서는 수치적 최적화 기법(예: Newton-Raphson, Gradient descent 등)을 통해 해를 찾는다.

센서 퓨전에서 측정값이 매우 많고 복잡한 분포를 가질 때는, 이 우도 함수를 직접적으로 최대화하기 어려울 수 있다. 그러나 MLE의 기본 아이디어는 간단하다. 센서 측정값이 “가장 가능성이 높도록 설명될 수 있는” 매개변수를 찾는다는 것이다. 예를 들어, 어떤 센서가 측정 노이즈가 가우시안이라고 알려져 있다면, 그 가우시안의 평균과 공분산을 추정하여 해당 데이터들이 나올 확률(우도)이 최대가 되도록 하는 방향으로 해를 구한다.

#### 예: 가우시안 분포를 가정한 경우

측정값 $\mathbf{x}\_i \in \mathbb{R}^d$가 모두 동일한 차원을 가진다고 하고, 이들이 다음과 같은 다변량 가우시안 분포에서 추출되었다고 가정한다.

$$
\begin{align} p(\mathbf{x}\_i|\boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{\frac{d}{2}} \sqrt{\det(\mathbf{\Sigma})}} \exp\Big(-\frac{1}{2}(\mathbf{x}\_i - \boldsymbol{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x}\_i - \boldsymbol{\mu}) \Big). \end{align}
$$

이 때, MLE 문제의 매개변수는 $\mathbf{\theta} = (\boldsymbol{\mu}, \mathbf{\Sigma})$이다. 독립 표본이라 가정하면, 우도는 데이터 전체에 대해 곱으로 나타나고, 로그 우도는 다음과 같이 쓸 수 있다.

$$
\begin{align} \ell(\boldsymbol{\mu}, \mathbf{\Sigma})  = \sum\_{i=1}^n \log \Big\[ \frac{1}{(2\pi)^{\frac{d}{2}} \sqrt{\det(\mathbf{\Sigma})}} \exp\Big(-\frac{1}{2}(\mathbf{x}\_i - \boldsymbol{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x}\_i - \boldsymbol{\mu}) \Big) \Big]. \end{align}
$$

이 식을 정리하면

$$
\begin{align} \ell(\boldsymbol{\mu}, \mathbf{\Sigma})  = -\frac{nd}{2} \log (2\pi) - \frac{n}{2} \log \big(\det(\mathbf{\Sigma})\big) - \frac{1}{2} \sum\_{i=1}^n  (\mathbf{x}\_i - \boldsymbol{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x}\_i - \boldsymbol{\mu}). \end{align}
$$

이를 $\boldsymbol{\mu}$와 $\mathbf{\Sigma}$ 각각에 대해 최대화하는 문제를 풀면, 고전적인 결과로서 다음과 같은 MLE 해가 유도된다.

$$
\begin{align} \hat{\boldsymbol{\mu}}*{\mathrm{MLE}} = \frac{1}{n}\sum*{i=1}^n \mathbf{x}\_i, \end{align}
$$

$$
\begin{align} \hat{\mathbf{\Sigma}}*{\mathrm{MLE}}  = \frac{1}{n}\sum*{i=1}^n (\mathbf{x}*i - \hat{\boldsymbol{\mu}}*{\mathrm{MLE}})(\mathbf{x}*i - \hat{\boldsymbol{\mu}}*{\mathrm{MLE}})^\top. \end{align}
$$

이는 가우시안 노이즈를 가정하는 많은 센서 퓨전 문제에서 근본적으로 많이 사용되는 결과이다. 가우시안 분포의 평균 추정치는 단순 산술평균이며, 공분산 추정치는 편차 항들의 평균으로 나타난다. 이러한 형태는 MLE가 갖는 단순성과 직관성을 잘 보여준다.

추가로, 가우시안 분포에서 공분산 추정 시, 빈도주의적 관점에서 표본공분산을 추정하는 방식이 되는 것인데, 베이지안 추정에서는 자유도(degree of freedom)를 조정하거나 사전분포를 곱하는 형태로 약간 다른 식이 나오기도 한다. 그러나 센서 퓨전의 여러 알고리즘(예: 칼만 필터 계열, 가우시안 프로세스 등)에서도 기본적으로는 이러한 가우시안 모형 하에서 MLE 혹은 그 변형이 중요한 개념적 토대를 이룬다.

#### 센서 퓨전에서 MLE의 의의

센서 퓨전에서 최대우도추정은 다음과 같이 해석할 수 있다. 여러 센서가 동일한 물리 상태(예: 위치, 자세, 속도)를 측정하지만, 각 센서는 다소 다른 노이즈 특성을 가진다. 이 때, “실제로 관측된 센서 데이터들의 발생 확률이 최대가 되도록 하는 상태”를 추정한다고 볼 수 있다. 예를 들어, 레이더 센서와 카메라 센서가 각각 측정한 물체 위치가 있을 때, 두 센서의 노이즈 분포가 알려져 있으면, MLE 관점에서 물체의 위치를 추론하는 것은 그 두 노이즈 분포로부터 계산된 우도 함수를 최대화하는 문제로 이어진다. 실제 구현에서는 이러한 문제를 풀기 위해 다양한 최적화 알고리즘과 모델링 기법이 사용된다.

더 나아가, 시계열 추정 문제에서 MLE는 필터링, 예측, 평활화(smoothing) 등 여러 단계의 확장형 문제로 확장될 수 있으며, 이는 칼만 필터나 확장 칼만 필터(EKF), 입자 필터(Particle Filter) 같은 알고리즘의 핵심 사상과도 연결된다. 하지만 MLE는 사전 정보(prior)를 활용하거나 측정이 불확실할 때 최소화해야 할 비용(cost)에 대한 설계가 충분치 않을 수 있다. 예를 들어, 한쪽 센서의 노이즈가 상당히 큰 상황에서 우도 함수를 구체적으로 어떻게 정의하고, 각 센서 데이터에 대한 가중을 어떻게 반영하느냐에 따라 결과가 달라질 수 있다. 이 때는 최대사후확률(MAP) 추정이나 베이지안 추정, 혹은 최소제곱 추정 등의 다른 방식이 선호되는 경우도 있다.

MLE 관점만으로는 센서 퓨전의 모든 측면을 다루기에 충분치 않을 수 있으나, 센서 측정값의 통계적 특성을 고려한 “가장 가능성이 높은 매개변수”를 찾는다는 기본 사상은 센서 퓨전 알고리즘에 있어 여전히 중요한 출발점이 된다. 특히, 복잡한 시스템에서 여러 불확실성이 존재할 때, MLE를 기반으로 문제를 정의해두고 여기에 추가적인 가정이나 제약, 비용함수 등을 부가하여 더 정교한 추정을 설계하는 전략이 많다.

#### 최대우도추정의 고급 이론적 배경

추정 이론에서 MLE가 갖는 수학적·통계적 속성은 센서 퓨전 알고리즘의 이해와 설계에 중요한 단서를 제공한다. 그 이유는 대규모 센서 데이터가 있을 때, MLE가 통계적으로 ‘좋은’ 추정량임을 보장하는 다양한 정리들이 존재하기 때문이다. 특히 대표본(large sample) 관점에서 편의(bias), 분산(variance), 그리고 효율성(efficiency) 측면에서 MLE는 간단한 가정 하에서는 최적에 가까운 성능을 보인다. 이런 성질들은 센서 데이터를 다룰 때도 마찬가지로 적용되어, MLE를 기반으로 다른 방법론(예: MAP 추정, 최소제곱추정, 베이지안 방법 등)을 이해하고 비교하는 데에도 핵심적인 준거점을 마련한다.

#### 편의와 일치성

편의(bias)는 추정량의 기댓값이 진짜 매개변수 값에서 얼마나 벗어나는지 측정하는 지표다. 어떤 추정량 $\hat{\mathbf{\theta}}$에 대해

$$
\begin{align} \mathrm{Bias}(\hat{\mathbf{\theta}}) = \mathbb{E}\[\hat{\mathbf{\theta}}] - \mathbf{\theta}. \end{align}
$$

MLE는 특정 조건(예: 지배 우도 정리, 정규성 조건 등)이 충족될 때, 표본 크기 $n$이 커짐에 따라 편의가 0에 가까워진다. 이를 일치성(consistency)이라고 부르며, 일치 추정량은 실제 매개변수로 수렴한다는 점에서 대규모 센서 데이터가 누적되는 환경에서 더욱 안정적인 추정 결과를 기대할 수 있다.

#### 점근적 정규성

MLE는 대표본 한계에서 중심극한정리(CLT)의 적용과 유사한 과정을 통해 정규분포로 근사될 수 있다는 점근적 정규성(asymptotic normality)을 가진다. 표본 크기 $n$이 매우 커진다고 할 때,

$$
\begin{align} \sqrt{n} , (\hat{\mathbf{\theta}}\_{\mathrm{MLE}} - \mathbf{\theta}) \ \xrightarrow{d}\ \mathcal{N}\Big(\mathbf{0}, \mathbf{I}(\mathbf{\theta})^{-1}\Big), \end{align}
$$

여기서 $\mathbf{I}(\mathbf{\theta})$는 피셔 정보(Fisher information) 행렬이다. 이는 추정량이 실제 매개변수 주변에서 “정규분포를 따르는 확률변수”로 볼 수 있음을 뜻한다. 센서 퓨전에서 데이터가 풍부하고 센서 간 측정 노이즈 특성이 비교적 잘 알려져 있으면, MLE 추정치가 대체로 정규분포 근사로 분석 가능해진다. 이를 통해 불확실성 전파를 다루거나, 신뢰구간(confidence interval)을 계산하는 등의 고급 분석이 이루어진다.

#### 피셔 정보와 효율성

피셔 정보(Fisher information)는 데이터가 매개변수에 대해 갖는 ‘정보량’을 측정하는 기준이다. 단일 표본 $\mathbf{x}$에 대한 피셔 정보 행렬을 $\mathbf{I}(\mathbf{\theta})$라고 할 때,

$$
\begin{align} \mathbf{I}(\mathbf{\theta})  = \mathbb{E}\Big\[\Big(\frac{\partial}{\partial \mathbf{\theta}} \log p(\mathbf{x}|\mathbf{\theta})\Big)\Big(\frac{\partial}{\partial \mathbf{\theta}} \log p(\mathbf{x}|\mathbf{\theta})\Big)^\top \Big]. \end{align}
$$

표본 크기가 $n$이면 전체 피셔 정보는 보통 $n$배가 된다(독립 표본을 가정). 점근적 정규성에서 나타난 분산 항 $\mathbf{I}(\mathbf{\theta})^{-1}$는 ‘추정이 얼마나 정밀할 수 있는가’를 가늠하게 해준다. MLE가 달성하는 이론적 분산 한계가, 조건이 잘 맞을 때는 추정 이론상 가장 낮은 분산 한계인 크래머-라오 경계(Cramér-Rao bound)에 도달한다. 이를 효율성(efficiency)이라 하며, MLE가 점근적으로 효율적인 추정량임을 수학적으로 보여준다.

센서 퓨전에서 노이즈 분포가 다차원, 복합적 구조를 가질 때도 피셔 정보 행렬은 확장된 형태로 정의된다. 예를 들어, 측정값이 특정 비선형 함수를 통해 실제 상태로 연결되는 경우, 선형화 기법(예: 야코비 행렬)을 통해 근사적 피셔 정보를 구하여 추정의 한계를 살펴본다. 이는 MLE 기반 필터링 기법이나, EKF 등에서 오차 공분산 행렬을 예측하고 갱신하는 과정과도 밀접한 관련을 맺는다.

#### 다중 센서 모델의 MLE와 융합

센서 퓨전에서 서로 다른 종류의 센서가 있을 경우, 측정 방정식이 서로 다른 형태를 가질 수 있고, 노이즈 특성(분산, 공분산 구조 등)도 상이할 수 있다. 예를 들어, 레이더 센서는 물체까지의 거리와 방위각을 측정하고, 카메라는 픽셀 좌표로 물체의 위치를 관측한다. 이를 통합하여 하나의 확률모형(라이클리후드)을 구성하면, 매개변수(예: 물체의 3차원 위치와 속도)가 센서 각자의 측정식과 노이즈 분포를 통해 전체 우도 함수로 결합된다.

전체 우도는 센서별 우도의 곱으로 표현되기 때문에, 여러 센서가 독립이라고 가정할 때,

$$
\begin{align} L(\mathbf{\theta}|\mathbf{X}*{\mathrm{radar}}, \mathbf{X}*{\mathrm{camera}}, \dots)  = L\_{\mathrm{radar}}(\mathbf{\theta}|\mathbf{X}*{\mathrm{radar}})  \times L*{\mathrm{camera}}(\mathbf{\theta}|\mathbf{X}\_{\mathrm{camera}}) \times \cdots . \end{align}
$$

이를 최대화하는 $\mathbf{\theta}$가 곧 여러 센서 측정을 동시에 만족시키는 MLE 해가 된다. 이 접근은 센서들의 측정 정확도나 노이즈 분포가 명시적으로 들어가므로, 각 센서의 특성을 반영한 ‘최적화된’ 매개변수를 구할 수 있다는 장점이 있다. 다만, 실제로 이 문제를 풀기 위해서는

* 센서별 측정식이 복잡하거나 비선형
* 추정하려는 매개변수 차원이 매우 높음
* 센서 간 시간동기나 데이터 결측, 노이즈 상관관계 등 다양한 실무 이슈

등을 고려해야 하므로, 수치 최적화 기법이나 필터링 알고리즘, 그리고 때에 따라서는 근사적 접근(분해/번갈아 최적화, 혹은 다양한 변분추정 등)을 활용한다.

#### 모델 불일치와 강건 MLE

현실적으로 센서 퓨전 과정에서 우리가 가정한 노이즈 모델이 실제 센서 특성을 완벽하게 반영하지 못하는 경우가 발생할 수 있다. 노이즈가 가우시안이라고 가정했는데, 실제로는 외란이 심하거나 레이아웃 구조상 ‘heavy-tailed’ 분포를 따르는 잡음이 있을 수도 있다. 이런 경우 모델 불일치(model mismatch) 문제가 생기는데, MLE는 가정된 모델에 ‘충실하게’ 적합하는 매개변수를 찾기 때문에, 모델 오차가 있을 경우 성능이 크게 저하될 위험이 있다.

이런 상황에 대비하기 위해, 센서 데이터의 이상값(outlier)이나 비선형 잡음을 좀 더 탄력적으로 처리할 수 있는 ‘강건(robust) 추정’ 기법이 연구되고 있다. 예를 들어, 공분산 계산 시 M-추정(M-estimator)이나 R-추정(R-estimator) 같은 방식으로, 극단치(outlier)가 우도 최대화 과정에서 지나치게 큰 영향을 주지 않도록 조정한다. 센서 퓨전에서도 L1-노름 기반, Huber 손실 등 다양한 비용함수를 대안적으로 사용함으로써, 모델 불일치에도 상대적으로 영향을 덜 받는 강건 추정 해를 도출하기도 한다.

#### 그 밖의 응용 가능성

MLE를 단순히 매개변수 추정 문제에만 적용하는 것이 아니라, 센서 퓨전 상황에서는 상태추정(state estimation), 시스템 식별(system identification), 외란 추정(disturbance estimation) 등 다양한 맥락에 확장할 수 있다. 예컨대 어떤 동적 시스템에서, 센서가 측정한 신호를 사용하여 시스템 모형의 파라미터(마찰계수, 동력학 계수 등)를 MLE 방식으로 추정하고, 그 결과를 필터링 알고리즘에 반영하여 더 정확한 상태 추정을 수행할 수 있다. 이처럼 추정 이론과 센서 퓨전을 결합하는 방식은 크게 보면 ‘센서 신호로부터 모든 필요한 정보를 최대한 효율적으로 뽑아내는’ 것이라 볼 수 있으며, MLE는 그 유력한 시작점이 된다.

#### 추가적인 수리적 확장: 부분적 관찰과 EM 알고리즘

센서 퓨전에서는 어떤 센서가 간헐적으로 측정 불가능해지거나, 관측 변수의 일부만 취득되는 상황이 자주 발생한다. 예를 들어, 시야에서 물체가 잠시 가려져 카메라 데이터에 결측치가 생긴다거나, 레이더가 특정 시간대에만 스위핑되어 관측이 누락되는 등의 일이 있을 수 있다. 이처럼 관측이 불완전하게 이루어질 때도, 최대우도추정의 개념은 유효하다. 다만 직접적으로 우도를 최적화하기 어렵게 되므로, EM(Expectation-Maximization) 알고리즘과 같은 보조 기법을 활용하는 경우가 많다.

EM 알고리즘은 완전 데이터(complete data)라고 부르는 이론적 관측값이 모두 알려졌다면 직접 MLE를 적용할 수 있지만, 실제로는 그 중 일부만 관측 가능한 불완전 데이터(incomplete data) 상황에서 MLE를 수행하도록 설계된 반복적 최적화 절차다. 센서 퓨전에서 불완전 관측 데이터가 존재할 경우, EM 알고리즘은 관측되지 않은 상태나 데이터(잠재 변수)를 잠정적으로 추정(E 단계)하고, 그 추정치를 기반으로 모델 파라미터에 대한 최대우도추정을 수행(M 단계)하면서 수렴해 나간다.

EM 알고리즘을 센서 퓨전에 적용할 수 있는 전형적인 예는 멀티 타겟 추적(multi-target tracking)이다. 복수 개의 물체가 존재하는 장면에서 레이더와 카메라가 각각 물체들을 특정 확률로만 관측하거나, 물체 간 혼동(association ambiguity)이 있는 경우, 실제 어떤 관측값이 어떤 물체를 가리키는지 불분명할 수 있다. 이 때 EM 알고리즘으로 대상-관측 대응관계를 잠정 추정하고, 그 결과를 토대로 위치나 속도 등의 상태 파라미터를 MLE 방식으로 갱신함으로써 수렴된 해를 얻는다.

이 과정은 일반 MLE와 맥락이 일치한다. 다만, EM은 “보이지 않는(unobserved) 변수”를 양적으로 추정하여 우도 함수를 간접적으로 최대화하는 알고리즘이라는 특징이 있다. 센서 퓨전 상황에서 발생하는 결측치나 불완전 관측 등의 문제에 대한 ‘우도 기반’ 접근으로 EM이 널리 사용되는 이유다.

#### 최대우도추정과 최대사후확률(MAP) 비교

MLE는 데이터로부터만 매개변수를 ‘가장 그럴듯하게(가장 높은 우도)’ 설명하는 해를 구한다. 반면 최대사후확률(MAP: Maximum A Posteriori) 추정은 사전분포(prior)라는 개념을 추가하여, 관측 데이터로부터 얻는 우도뿐 아니라 사전에 알고 있는 정보(예: 과거 통계, 물리적 제약 등)를 함께 고려해 매개변수를 추정한다.

MAP는 다음과 같이 정의된다. 사후확률은 베이즈 정리에 의해

$$
\begin{align} p(\mathbf{\theta}|\mathbf{X}) \propto p(\mathbf{X}|\mathbf{\theta}) p(\mathbf{\theta}), \end{align}
$$

으로 주어지며, 이를 최대화하는 해가

$$
\begin{align} \hat{\mathbf{\theta}}\_{\mathrm{MAP}}  = \underset{\mathbf{\theta}}{\mathrm{argmax}} \ p(\mathbf{X}|\mathbf{\theta}) , p(\mathbf{\theta}). \end{align}
$$

즉 MLE와 달리 $p(\mathbf{\theta})$ 항이 추가된다. 사전분포가 균일(상수)이라면 MLE와 동일해지지만, 실제 센서 퓨전에서는 다양한 형태의 사전 지식이 있는 경우가 많다. 예를 들어 센서가 어느 범위 내에서만 측정 가능하다거나, 물리법칙이나 주행경로, 현장 규칙 등이 미리 주어져 있다면, 그 정보를 사전분포로 반영해 MAP 추정을 수행할 수 있다.

그럼에도 MLE는 여전히 중요한 기준점이다. 사전정보가 없거나 이를 무시하고 싶을 때, 혹은 사전정보가 측정값에 비해 상대적으로 중요도가 낮을 때, MLE 접근이 단순하고 직관적이다. 또한 점근적 특성, 계산 편의성 등에서 MLE가 갖는 우수성 때문에 센서 퓨전 알고리즘에서도 종종 MLE를 기반으로 확장된 형태(MAP 포함)를 고려한다.

#### 동적 시스템에서의 MLE 해석

센서 퓨전 문제에서 흔히 다루는 동적 시스템은 다음과 같은 형태를 취한다.

$$
\begin{align} \mathbf{x}\_{k+1} = f(\mathbf{x}\_k, \mathbf{u}\_k, \mathbf{w}\_k), \end{align}\\
$$

$$
\begin{align} \mathbf{z}\_k = h(\mathbf{x}\_k, \mathbf{v}\_k). \end{align}
$$

여기서 $\mathbf{x}\_k$는 시점 $k$에서의 상태(state), $\mathbf{u}\_k$는 제어입력, $\mathbf{w}\_k$와 $\mathbf{v}\_k$는 동적 모델과 관측 노이즈다. 관측값 $\mathbf{z}\_k$는 센서로부터 얻은 측정치다. 이 경우, 시스템 전체에 대해 MLE를 적용하면, 시간에 따른 모든 상태 ${\mathbf{x}\_0, \mathbf{x}\_1, \dots, \mathbf{x}\_N}$와 노이즈 통계 파라미터(노이즈 분산 등)에 대한 우도 함수를 최대화하는 문제가 된다. 즉,

$$
\begin{align} p({\mathbf{z}*k}*{k=0}^{N} | {\mathbf{x}*k}, \mathbf{\theta}) = \prod*{k=0}^{N} p(\mathbf{z}\_k|\mathbf{x}\_k, \mathbf{\theta}), \end{align}\\
$$

$$
\begin{align} p({\mathbf{x}*k}*{k=0}^{N} | \mathbf{\theta}) = \prod\_{k=0}^{N-1} p(\mathbf{x}\_{k+1} | \mathbf{x}\_k, \mathbf{\theta}). \end{align}
$$

전체 우도는 동적 모델과 측정 모델 우도의 곱(또는 로그 우도의 합)으로 나타난다. 이를 동적 MLE라고 부르기도 하는데, 시간상으로 전체 상태 궤적(trajectory)을 포함해 최대우도를 달성하는 경로를 찾는 문제이므로, 최적화 난이도가 커진다.

이 문제는 칼만 필터가 가우시안-선형 가정 하에서 순차적 형태로 효율적으로 해를 제공하는 과정과 대응된다. 즉, 칼만 필터의 필터링 해는 실제로는 MAP 추정의 한 형태이지만, 가우시안-선형에서 사전분포가 적분으로 자동 갱신되는 구조이므로, MLE와 크게 다르지 않은 형태로 해석할 수 있다. 비선형 문제에서는 확장 칼만 필터(EKF), 무향 칼만 필터(UKF), 입자 필터(PF) 등으로 확장해서 유사한 아이디어를 쓴다.

#### 센서 퓨전에서 MLE를 구현하는 예시 (Python)

간단한 예로 1차원 가우시안 센서 데이터로부터 평균과 분산을 추정하는 Python 코드를 제시한다. 센서 데이터가 실제로는 평균이 5.0, 표준편차가 2.0인 가우시안 분포에서 추출되었다고 하고, MLE를 통해 이를 추정해 본다. 편의상 표본공분산 식을 활용한다.

```python
import numpy as np

# 가정된 실제 파라미터
true_mean = 5.0
true_std = 2.0
n_samples = 1000

# 난수 생성
np.random.seed(0)
measurements = np.random.normal(loc=true_mean, scale=true_std, size=n_samples)

# MLE 추정
mle_mean = np.mean(measurements)
mle_var = np.mean((measurements - mle_mean)**2)
mle_std = np.sqrt(mle_var)

print("MLE Estimated Mean:", mle_mean)
print("MLE Estimated Std :", mle_std)
```

위 코드에서 `mle_mean`과 `mle_std`는 각각 MLE 해 $\hat{\boldsymbol{\mu}}*{\mathrm{MLE}}$와 $\sqrt{\hat{\sigma^2}*{\mathrm{MLE}}}$에 대응한다. 표본 수가 충분히 크면, 이 추정치는 실제 평균(5.0)과 표준편차(2.0)에 근접하게 수렴한다. 센서 퓨전 환경에서 여러 센서가 있으면, 이 예시를 각 센서별 독립 가우시안 노이즈 모델로 확장한 뒤, 측정들을 합산하여 공분산 행렬을 추정하는 식으로 일반화할 수 있다.

#### 비선형 MLE 문제와 근사 기법

센서 퓨전 문제에서 측정 모델이 비선형적이라면, 우도 함수를 최대화하기가 훨씬 어려워진다. 가령,

$$
\begin{align} \mathbf{z} = h(\mathbf{x}) + \mathbf{v}, \end{align}
$$

에서 $h(\cdot)$가 복잡한 비선형 함수를 나타내고, $\mathbf{v}$가 가우시안이라고 할 때, 우도 함수

$$
\begin{align} p(\mathbf{z}|\mathbf{x}) \propto \exp\Big(-\frac{1}{2}\[\mathbf{z}-h(\mathbf{x})]^\top \mathbf{R}^{-1} \[\mathbf{z}-h(\mathbf{x})]\Big) \end{align}
$$

를 매개변수 $\mathbf{x}$에 대해 최대화해야 한다. 일반적으로 닫힌형 해(closed-form solution)는 구하기 어려우며, 수치적 최적화(Gradient descent, Gauss-Newton, Levenberg-Marquardt, Newton-Raphson 등)를 적용해야 한다.

센서 퓨전에서는 시계열적으로 관측되는 데이터를 계속 갱신하며 추정값을 업데이트해야 하므로, EKF나 UKF 같은 재귀적 필터링 기법을 사용한다. 이들 필터는 근본적으로는 “현재 시점에서의 MLE 혹은 MAP 문제를 선형화 혹은 근사화해서 순차적으로 해결한다”로 이해될 수 있다. 실제로 비선형 문제에서 근사 기법을 사용하면, 수렴성이 보장되지 않거나 지역 극소에 빠지는 경우가 있을 수 있다. 이를 보완하기 위해 초기값 설정, 강건화 파라미터 조정, 재시작 전략 등 여러 엔지니어링 테크닉이 함께 쓰인다.

#### 분산 최적화와 분해 접근

센서 수가 매우 많고, 상태 차원도 큰 복잡계 문제에서는 중앙집중식으로 모든 데이터를 모아 MLE를 풀기 어려울 때가 있다. 이때 분산(dispersed) 또는 분산형(distributed) 센서 퓨전 기법을 도입하기도 한다. 여러 센서 노드 각각이 로컬 데이터로부터 부분적인 MLE 추정을 수행한 뒤, 서로 정보를 교환하며 전체 상태에 대한 추정치 혹은 추정 파라미터를 갱신해 나가는 식이다.

분산형 MLE 문제를 해석하기 위해서는 네트워크 그래프 상에서 우도를 분해(decomposition)해서 표현하거나, 라그랑주 승수법 혹은 ADMM(Alternating Direction Method of Multipliers) 같은 분산 최적화 알고리즘을 사용하는 방식이 대표적이다. 예를 들어, 각 센서 노드 $i$에서 관측된 데이터 $\mathbf{X}\_i$가 있고, 전체 매개변수를 $\mathbf{\theta}$로 잡았을 때,

$$
\begin{align} L(\mathbf{\theta} | \mathbf{X}\_1, \dots, \mathbf{X}*m)  = \prod*{i=1}^{m} L\_i(\mathbf{\theta}|\mathbf{X}\_i). \end{align}
$$

로그 우도는 센서별 로그 우도의 합이므로, 각자 부분문제를 풀고 합으로 표현된 목적함수를 최대화하는 협업 과정을 거친다. 센서 노드 간의 통신 지연, 패킷 손실, 보안 이슈가 있음에도, 전체적으로는 MLE 원리를 유지하면서 확률모형에 근거한 추정을 분산 방식으로 수행할 수 있다.

#### 시각적 예시 (Mermaid)

아래는 여러 센서가 하나의 상태(예: 로봇의 위치)를 추정하기 위해 각자 로그 우도를 계산하고, 이를 합산하여 전체 MLE를 구현하는 과정을 단순화한 흐름도다.

{% @mermaid/diagram content="flowchart TB
A\[Start:\n각 센서 관측값] --> B{센서별 \n로그 우도 계산}
B --> C\["$\ell(\mathbf{\theta}|\mathbf{X}\_1)$"]
B --> D\["$\ell(\mathbf{\theta}|\mathbf{X}\_2)$"]
B --> E\["$\ell(\mathbf{\theta}|\mathbf{X}\_m)$"]
C --> F\["합산 $\sum\_i \ell\_i(\mathbf{\theta}|\mathbf{X}*i)$"]
D --> F
E --> F
F --> G\["최대화 $\hat{\mathbf{\theta}}*{\mathrm{MLE}} = \arg\max \sum\_i \ell\_i$"]
G --> H\["결과: 추정 상태 $\hat{\mathbf{\theta}}$"]" %}

이 그림은 센서별로 독립 가정이 있을 때, 우도 혹은 로그 우도의 곱(또는 합)을 통해 MLE가 결정됨을 간단히 나타낸다. 분산형으로 구현된다면 각 노드가 부분 우도를 계산한 뒤, 적절히 통신하여 합산 또는 최적화 알고리즘을 협의해 나가게 된다.

#### MLE와 최소제곱추정(LS)의 관계

센서 퓨전에서 측정값이 가우시안 노이즈를 따른다고 가정하면, MLE와 최소제곱추정(LS, Least Squares)이 본질적으로 동일하게 귀결되는 경우가 많다. 예를 들어 가우시안 노이즈를 다음과 같은 형태로 모델링한다고 하자.

$$
\begin{align} \mathbf{z} = \mathbf{H}\mathbf{x} + \boldsymbol{\epsilon}, \end{align}
$$

여기서 $\mathbf{z}$는 측정 벡터, $\mathbf{x}$는 추정해야 하는 상태 벡터, $\mathbf{H}$는 선형 측정 행렬, $\boldsymbol{\epsilon}$는 평균 0, 공분산 $\mathbf{R}$인 가우시안 노이즈다. 그러면 우도는

$$
\begin{align} p(\mathbf{z} | \mathbf{x})  \propto \exp\Big(-\frac{1}{2}(\mathbf{z} - \mathbf{H}\mathbf{x})^\top \mathbf{R}^{-1} (\mathbf{z} - \mathbf{H}\mathbf{x})\Big), \end{align}
$$

이 되고, 로그 우도를 최소화하는 것은 다음 식을 최소화하는 것과 동치다.

$$
\begin{align} (\mathbf{z} - \mathbf{H}\mathbf{x})^\top \mathbf{R}^{-1} (\mathbf{z} - \mathbf{H}\mathbf{x}). \end{align}
$$

이는 가중 최소제곱 문제와 정확히 동일하다. 측정 공분산이 스칼라(동일 분산)라면, 보통의 최소제곱이 되고, 공분산이 대각 행렬이면 가중치가 센서별로 달라지는 가중 최소제곱이 된다. 결과적으로 가우시안 노이즈 가정 하에서의 MLE는 최소제곱해를 구하는 것과 동등하며, 이는 센서 퓨전 분야에서도 자주 이용되는 기본적인 원리다.

그렇지만 측정 노이즈가 가우시안이 아니라면, MLE와 최소제곱해는 달라질 수 있다. 예컨대 라플라스(Laplace) 분포로 노이즈를 가정하면, 로그 우도를 최대화하는 문제는 L1-노름 형태의 오차 합을 최소화하는 로버스트 회귀(robust regression)로 나타난다. 센서 데이터가 heavy-tailed 분포를 가진다면, 일반적인 최소제곱법보다 L1-노름 기반 접근이 이상값(outlier)에 덜 민감할 수 있다. 이처럼 노이즈 분포 가정에 따라 “어떤 형태의 잔차(residual) 합을 최소화하느냐”가 달라지고, 그에 따라 MLE와 LS가 일치하거나 달라진다.

#### 다중가우시안 혼합 모델의 MLE

센서 퓨전에서 노이즈가 단순 단일 가우시안이 아니라, 여러 가지 성분이 섞인 혼합분포(mixture distribution)를 가질 때도 종종 있다. 레이더 측정 오차가 상황에 따라 서로 다른 분산 특성을 보이거나, 카메라가 실내·실외 환경에서 각각 다른 잡음 모델을 갖는 경우가 예다. 이런 상황을 가우시안 혼합 모델(Gaussian Mixture Model, GMM)로 표현하면,

$$
\begin{align} p(\mathbf{z} | \mathbf{x})  = \sum\_{j=1}^M \alpha\_j , \mathcal{N}\big(\mathbf{z} | h\_j(\mathbf{x}), \mathbf{R}\_j\big), \end{align}
$$

와 같이 쓸 수 있다. 여기서 $\alpha\_j$는 가중치이며, $\mathbf{R}\_j$는 각각의 가우시안 성분에 대응되는 공분산 행렬이다. 이런 혼합 모델을 쓸 때 MLE 문제를 풀면, 단일 가우시안보다 훨씬 복잡한 우도 함수를 다뤄야 하므로, 일반적으로 EM 알고리즘이나 수치적 최적화 방법을 사용한다. 센서 퓨전에서는 이혼합 모델들이 시나리오에 따라 다른 센서의 측정 모드를 설명하거나, 환경적 조건의 변화(조도, 기상 상태 등)에 따른 노이즈 변화 등을 반영한다.

#### 비선형·비가우시안 상황과 MLE 기반 필터

센서 퓨전에서 동적 시스템이 비선형이고 노이즈가 비가우시안이라면, 칼만 필터(KF)의 가우시안-선형 가정이 깨진다. 이런 경우에도 MLE 정신을 적용한 방법들이 제안되어 왔다. 예컨대 확장 칼만 필터(EKF)는 비선형 함수를 1차 선형화하여 가우시안 근사를 수행함으로써, 국소적으로 MLE 해를 구하는 순차적 접근으로 볼 수 있다. 또한 언스센티드 칼만 필터(UKF), 입자 필터(PF)는 샘플링을 통해 비가우시안을 근사하거나, 시그마 포인트 변환으로 비선형 함수를 좀 더 정확히 반영하려고 시도한다.

이처럼 MLE적 관점을 확장하거나 근사하는 다양한 필터 계열이 존재하며, 실제 구현에서는 각 문제의 특성(비선형 정도, 노이즈 형태, 계산 리소스)에 따라 적절한 방법을 선택한다. 모두가 우도를 최대화하거나 사후확률(베이지안 관점)을 최대화한다는 공통점을 갖되, 구현 방법과 가정이 조금씩 다르다고 볼 수 있다.

#### MLE 기반 센서 정렬(Sensor Alignment) 문제

센서 퓨전에서 중요한 과제 중 하나가 서로 다른 좌표계나 타이밍 스케일을 갖는 센서들을 정렬(alignment)하는 것이다. 예를 들어, 레이더는 지구 기준 좌표계에서 측정하고, 카메라는 차량 본체 좌표계에서 위치를 추정한다면, 두 센서가 측정하는 물체 위치를 결합하기 위해서는 좌표변환 행렬이나 오프셋, 그리고 시간 지연 등을 정확히 알고 있어야 한다. 이를 ‘센서 정렬’ 또는 ‘센서 캘리브레이션’ 문제라 하며, 이것도 MLE 관점에서 접근 가능하다.

예컨대 $\mathbf{T}$라는 좌표변환 파라미터(회전, 이동)와 시간오프셋 $\Delta t$ 등을 매개변수로 두고, 실제 물체 위치 $\mathbf{x}\_k$와 센서 측정 $\mathbf{z}\_k$ 간의 관계식을 우도 형태로 표현한 뒤, $\mathbf{T}$와 $\Delta t$를 동시에 최대우도추정으로 구할 수 있다. 실무에서는 측정이 다수 축적된 뒤 일괄최적화(batch optimization)를 하거나, 온라인(online)으로 점진적 정렬을 업데이트하는 필터 방식을 택하기도 한다. 어느 방식이든, 우도 함수를 최대화하여 ‘측정이 가장 잘 들어맞는’ 정렬 파라미터를 찾는 것이 목표다.

#### 외란이나 시스템 에러 모델까지 포함한 MLE

복잡한 센서 퓨전 환경에서 외란(disturbance), 바이어스(bias), 드리프트(drift) 등 측정 과정에 부가되는 오차 요소들을 모델링할 수도 있다. 예를 들어, 관성측정장치(IMU)에서 일정 바이어스 항이 존재하고, 시간이 지날수록 드리프트가 누적된다고 가정하면, 그 바이어스와 드리프트를 상태의 확장 파라미터로 설정하고 우도 함수를 구성한다. 그러면 측정값들이 실제 물리량뿐 아니라 ‘바이어스가 얼마였느냐’에 의해서도 결정되는 구조를 이루게 된다. 이때도 최대우도추정으로 전체 파라미터(실제 상태 + 바이어스 + 드리프트 항 등)를 동시에 찾을 수 있다.

센서 간 오프셋, 시간지연, 동적 모델 파라미터, 측정 바이어스 등등을 모두 하나의 대규모 최적화 문제로 묶으면, 센서 퓨전 시스템 전체를 정밀하게 보정(calibration)하는 방안이 된다. 다만, 이렇게 차원이 커진 문제는 수렴 안정성과 계산 비용이 매우 클 수 있으므로, 일반적으로는 부분문제를 분할하여 푸는 방식이나 적절한 초기화를 통해 점진적으로 근사한다.

\---적 시각화 (Mermaid)

아래는 복잡한 파라미터(상태, 바이어스, 오프셋 등)를 포함해 우도 함수를 최대화하는 센서 퓨전 구조를 단순화한 시퀀스다.

{% @mermaid/diagram content="flowchart TD
A(측정 데이터:\n여러 센서) --> B(모델 설정:\n상태+외란+오프셋)
B --> C("우도 함수 수립:\n$p(\mathbf{Z}|\boldsymbol{\theta})$")
C --> D("MLE 최적화:\n$\hat{\boldsymbol{\theta}}\_{\mathrm{MLE}}$")
D --> E(보정된 상태/매개변수)
E --> F(필터링/추적/예측)" %}

이 도식에서 $\boldsymbol{\theta}$는 여러 센서 측정 과정에 등장하는 모든 중요한 불확실성 파라미터(바이어스, 드리프트, 외란 등)를 포함할 수 있다. 이를 통해 센서 퓨전의 신뢰성을 높이고, 실제 물리 상태에 대한 정확한 추정을 수행하게 된다.

#### 다중 타겟 추적에서의 데이터 연관(Data Association)과 MLE

센서 퓨전에서 대표적인 어려움 중 하나는 동시에 여러 물체(타겟)를 추적해야 할 때, 새롭게 들어온 관측이 어느 타겟에 해당하는 것인지 결정하기가 까다롭다는 점이다. 이를 데이터 연관(data association) 또는 트랙 연관(track association) 문제라 부른다. 고전적인 알고리즘으로는 JPDA(Joint Probabilistic Data Association), MHT(Multiple Hypothesis Tracking) 등이 있으며, 확률 기반의 접근이 널리 알려져 있다.

MLE 관점에서 이 문제를 보면, 관측 ${\mathbf{z}\_k}$가 어떤 타겟 $i$의 실제 상태 $\mathbf{x}\_k^{(i)}$에서 발생했다는 이벤트를 확률적으로 모형화하고, 그 우도를 고려해 전체 매개변수(모든 타겟 상태 + 연관 관계)를 최대화하는 과정을 구성할 수 있다. 예를 들어 타겟이 $M$개이고, 시간 단계가 $N$번이라면, 데이터 연관 문제는 “$N$번의 측정치를 어떤 방식으로 $M$개 타겟에 할당하는가”를 결정하는 조합적 문제와 함께, 각 타겟의 상태를 추정해야 하는 연속적 문제가 동시에 얽힌다.

만일 타겟별 상태추정이 가우시안-선형 모델을 따른다면, 각 타겟 상태에 대한 칼만 필터 식으로 우도를 평가할 수 있다. 그러나 관측이 어느 타겟에 속하는지 모호하다면, 우도 계산에서 그 모호성을 합산(혼합)해야 하므로 복잡도가 높아진다. MHT나 JPDA는 이러한 복잡도를 완화하기 위해, 가정된 확률적 시나리오에 대해 타겟-관측 대응관계를 확률적으로 만들어두고, 그 확률을 가중한 우도 합을 최대화 또는 근사적으로 계산한다. 이 역시 넓은 의미에서 MLE(또는 MAP) 문제의 해법으로 볼 수 있다.

#### SLAM(동시적 위치추정 및 지도작성) 문제와 MLE

SLAM(Simultaneous Localization And Mapping)은 로봇이 자기 위치를 추정하면서 주변 환경의 지도(map)도 동시에 만들어나가는 문제로, 센서 퓨전의 대표적 분야다. SLAM에서는 다음과 같은 요소가 동시에 포함된다.

* 로봇 상태(위치, 자세, 속도 등)
* 환경 피처(feature)의 위치 혹은 맵의 파라미터
* 센서 측정(거리, 각도, 영상 특징점, 등)

여기서도 각 측정은 ‘로봇 상태 및 맵 상태’를 매개변수로 하는 확률분포를 따른다고 보고, 전체 우도(로그 우도)를 최대화하는 해를 구하는 것이 근본적인 접근이다. 고전적인 EKF-SLAM은 선형화를 통해 순차적으로 칼만 필터 업데이트를 수행하며, 이는 “현재 시점에서의 상태+맵 파라미터에 대한 MLE 해를 재귀적으로 근사한다”고 해석할 수 있다.

최근에는 그래프 SLAM, factor graph를 통한 최적화 기반 SLAM 기법이 활발하다. 그래프 구조 상에서 노드들은 로봇 상태(또는 맵 피처)이고, 에지들은 센서 측정이 제공하는 제약(constraint)을 의미한다. 이 그래프 형태의 최적화 문제는 최소제곱 관점(에지 오차의 제곱합 최소화)으로 자주 표현되지만, 이는 곧 “가우시안 노이즈 가정 하에서의 MLE”와 동등하다. 따라서 그래프 SLAM 알고리즘에서 에지의 오차 항을 설정하는 방식은, MLE가정에서의 로그 우도 항을 정의하는 것과 동일하다.

#### 부정확 측정(Outlier) 처리를 위한 강건 비용 함수

센서 퓨전 시 여러 센서 데이터 중 일부가 큰 오차나 비정상치(outlier)를 포함할 수 있다. 예를 들어 GPS가 일시적으로 큰 측정 오차를 내거나, 카메라가 피사체를 잘못 인식했을 때, 단순 가우시안 MLE는 그런 이상값 때문에 전체 추정결과가 크게 왜곡될 위험이 있다. 이를 방지하기 위해 강건(robust) 비용 함수를 사용한 ‘로버스트 MLE’ 접근이 연구되어 왔다.

예시로, 잔차(residual)에 대해 가우시안 분포 대신 후버(Huber) 손실, Cauchy 분포, 혹은 L1-노름 계열 등을 사용하면, 아웃라이어가 발생했을 때 그 기여도가 제한(bounded)되도록 설계할 수 있다. 실제 구현에서는 최소제곱 형태의 비용 함수 대신, 다음과 같은 $\rho(\cdot)$ 함수를 두어

$$
\begin{align} \sum\_{k} \rho\big(|\mathbf{z}\_k - h(\mathbf{x}\_k)|\big), \end{align}
$$

을 최소화(또는 로그 우도 관점에서 최대화)한다. $\rho(\cdot)$가 가우시안 손실이 아니라, ∥⋅∥|\cdot|이 큰 경우에도 기여도가 서서히 증가하거나 포화되도록 정의된다. 이 기법은 SLAM, 구조-정보 추정(Structure from Motion), 일반적인 멀티 센서 추적 등에서 아웃라이어 억제 효과를 발휘한다. 엄밀히 말하면 이는 표준 MLE와는 조금 다른 분포 가정을 하는 것이지만, ‘가장 그럴듯한 파라미터를 찾는다’는 근본 철학은 동일하다.

#### 컴퓨팅 복잡도와 실시간성

센서 퓨전 알고리즘은 종종 실시간(real-time) 처리가 필수적이다. 레이더, 카메라, LiDAR 등에서 초당 수십\~수백 Hz 이상의 데이터가 들어오는 시스템에서, MLE 형태의 대규모 최적화를 매번 수행하기가 쉽지 않을 수 있다. 이 문제를 해결하기 위해 다음과 같은 방법들이 사용된다.

* (1) 순차적/재귀적 필터링: 칼만 필터, EKF, UKF, 입자 필터 등.
* (2) 소규모 윈도(window) 또는 배치(batch)에 대해서만 MLE 최적화 수행.
* (3) 근사/선형화를 통한 계산 간소화.
* (4) 분산 처리나 병렬 처리, GPU 가속.

예컨대 그래프 SLAM에서도 모든 관측을 한꺼번에 모아서 대규모 최적화를 하기보다는, 앞선 해를 초기값으로 사용하고 신규 관측만 국소적으로 최적화하는 incremental 방법이 자주 쓰인다. 이는 실시간성 요구사항이 있는 로봇이나 자율주행차 등에서 필수적인 최적화 전략이다.

#### 제한 조건(Constraints)과 MLE

센서 퓨전 문제에서, 물리 법칙이나 지오메트리적 구조를 제약으로 추가할 때가 있다. 예를 들어 “이 로봇은 바닥을 벗어날 수 없다.”, “이 타겟은 속도가 일정 범위를 넘지 못한다.”, “카메라의 시야각 밖에 있는 점은 관측될 수 없다.” 등등. 이를 제약조건(constraint)으로 포함하면,

$$
\begin{align} \hat{\mathbf{\theta}}\_{\mathrm{MLE}}  = \underset{\mathbf{\theta}}{\mathrm{argmax}} \ L(\mathbf{\theta}),  \quad \text{subject to } g(\mathbf{\theta}) \leq \mathbf{0}, \end{align}
$$

형태의 제한된(constrained) 최적화 문제가 된다. 이 문제는 라그랑주 승수, 내부점법, 투사(projection) 방식 등 다양한 방법으로 풀거나, 필터링 시에 제약을 만족하도록 상태를 조정(예: Constrained Kalman Filter)하기도 한다.

#### 실제 구현 팁: 초기값, 스케일링, 수치안정성

비선형 MLE 문제를 수치 최적화로 풀 때는 초기값 선택이 매우 중요하다. 잘못된 초기값을 주면 지역 극소(local minimum)에 빠지거나, 수렴에 장시간이 걸릴 수 있다. 센서 퓨전에서 일반적으로는 “이전 시점의 추정 결과”를 좋은 초기값으로 삼아 점진적 업데이트를 수행한다. 예컨대 칼만 필터 계열은 내부적으로 이전 시점의 추정치를 예측값(prediction)으로 사용하고, 그 예측치를 측정값에 맞추어 갱신(update)한다.

또한 서로 다른 센서에서 들어오는 측정값이 아주 다른 스케일(예: 하나는 mm 단위, 다른 하나는 km 단위)을 가질 수 있다면, 이를 적절히 스케일링(정규화)해 주는 것이 좋다. 그렇지 않으면 우도 함수에서 한 측정항만 지나치게 큰 기여를 하거나, 수치 오버플로/언더플로가 발생할 위험이 있다. 로그 우도를 다룰 때도 마찬가지로 수치적 주의가 필요하다.

#### MLE와 결합된 순환신경망(RNN), 딥러닝 접근

최근에는 센서 퓨전에서 딥러닝 기법을 결합해 추정 성능을 높이는 시도가 활발하다. 예컨대 RNN 계열(예: LSTM, GRU)이나 Transformer를 통해 센서 시계열을 처리하고, 그 결과를 확률모델의 파라미터 추정과 결합할 수 있다. 단순히 회귀로 결과를 ‘맞추는’ 방식이 아니라, 딥러닝 모델이 “노이즈 분산 예측”이나 “우도 함수의 형태”를 학습하도록 설계하여, MLE 최적화 과정에 포함시키기도 한다.

즉, 데이터 기반으로 학습된 확률모델을 바탕으로,

$$
\begin{align} p(\mathbf{z}|\mathbf{x}; \boldsymbol{\phi}), \end{align}
$$

에서 $\boldsymbol{\phi}$가 신경망 파라미터가 되며, 실제 추정 변수 $\mathbf{x}$에 대한 MLE(혹은 MAP)를 구할 때, 이 러닝된 분포모델을 활용한다. 이는 전통적 통계 모델을 수작업으로 설정하기 어려운 복잡 센서환경(대규모 라이다 포인트 클라우드, 고난이도 영상인식 등)에서 특히 유용하다. 다만 학습을 위해서는 충분한 데이터와 검증 절차가 필요하며, 신경망 모델의 해석 가능성이 낮다는 점이 단점이 될 수 있다.

***

지금까지 최대우도추정(MLE)의 기본 원리부터, 센서 퓨전 문제에서 발생할 수 있는 다양한 상황(비선형, 부분관측, 다중 타겟, SLAM, 외란 및 바이어스 등)에 확장하는 과정까지 살펴보았다. 센서 퓨전에서 MLE는 빈도주의적 추정 이론의 핵심 개념으로, “관측 데이터가 가장 높게 발생할 수 있는 매개변수”를 찾는다는 직관적이고도 강력한 접근법이다. 여러 센서가 있을 때, 우도를 곱(로그 우도 합)해서 최대화함으로써 각 센서의 정보를 종합적으로 반영할 수 있다.

여기서 배운 MLE는 다른 추정 이론(최대사후확률, 베이지안 추정, 최소제곱추정 등)과 유사하거나 대비되는 특성을 지니고 있어, 센서 퓨전 알고리즘을 폭넓게 이해하고 설계할 수 있는 토대를 제공한다. 비선형, 비가우시안, 결측, 아웃라이어 상황에 대처하기 위한 확장이나 근사 기법, 강건 기법들도 실무에서 매우 중요하다.