# 센서 퓨전의 이론적 기초: 확률과 통계의 기초

#### 들어가며

센서 퓨전은 여러 센서가 제공하는 정보를 통합해 하나의 더 정확하고 신뢰할 만한 추정값을 도출하는 기법이다. 이를 수행하기 위해서는 불확실성을 다루는 수학적 도구가 필요하고, 그 핵심은 확률과 통계다. 센서에서 발생하는 노이즈, 측정된 데이터 간의 상관관계, 그리고 그 데이터가 내포하고 있는 다양한 오류 요소를 적절히 모델링하기 위해서는 확률론적 해석이 필수적이다. 여기서는 센서 퓨전의 기반이 되는 확률과 통계의 기초 개념을 기초부터 심화된 내용까지 엄밀하게 다룬다.

#### 확률론의 기초 개념

확률론은 어떠한 사건이 일어날 가능성을 수학적으로 다루는 학문이다. 센서 퓨전 맥락에서, 측정값이 특정 값을 가질 확률 혹은 주어진 관측값에 대한 상태값의 확률적 추정 등에 대해 이해해야 하므로, 확률론의 기본 개념부터 출발한다.

우선 표본공간(sample space)은 가능한 모든 결과의 집합으로, 일반적으로 $\mathbb{S}$로 표기한다. 사건(event)은 표본공간의 부분집합이다. 예를 들어, 표본공간이 연속인 경우(실수 전체 혹은 부분구간 등)에도 사건은 그 부분집합으로 정의된다.

어떤 사건 $A$가 발생할 확률을 $P(A)$로 쓴다. 고전적 정의에서는 유한 표본공간에서 모든 단순 사건이 동등한 가능성을 갖는다고 가정했으나, 센서 퓨전에서는 연속값을 다루는 경우가 많으므로, 콜모고로프(Kolmogorov)의 측도론적 정의가 일반적으로 쓰인다.

$$
\begin{align} P: \sigma(\mathbb{S}) \to \[0,1] \end{align}
$$

여기서 $\sigma(\mathbb{S})$는 표본공간 $\mathbb{S}$ 위의 시그마-대수(sigma-algebra)이며, 이는 측도론적 확률 정의의 핵심 개념이다. $P$는 다음 성질을 만족한다.

$$
\text{(비음수성) } P(A) \geq 0,\\
$$

$$
\text{(정규화) }P(\mathbb{S}) = 1,
$$

$$
\text{(가산가법성) } A\_i \cap A\_j = \varnothing \text{ (for } i \neq j) \implies P\Bigl(\bigcup\_{i} A\_i\Bigr) = \sum\_{i} P(A\_i).
$$

시그마-대수, 측도론, 가산가법성은 센서로부터 얻어지는 무수히 많은(혹은 연속적인) 가능성을 엄밀하게 다루기 위해 필수적이다.

#### 확률 공간과 무작위 변수

일반적으로 확률공간(probability space)은 $(\mathbb{S}, \sigma(\mathbb{S}), P)$로 정의한다. $\mathbb{S}$는 표본공간, $\sigma(\mathbb{S})$는 시그마-대수, $P$는 확률측도다. 무작위 변수(random variable) $X$는 이 확률공간에서 정의된 함수로, $\mathbb{S}$의 각 원소(표본)에 실수 값을 대응시킨다.

예를 들어 센서가 출력하는 전압값을 하나의 무작위 변수 $X$로 볼 수 있다. 관측값(샘플) $x$는 실수이므로 $X: \mathbb{S} \to \mathbb{R}$이다.

무작위 변수가 취하는 값에 대한 누적분포함수(CDF)는

$$
\begin{align} F\_X(x) = P(X \leq x) \end{align}
$$

로 정의한다. 만약 $X$가 연속형이라면 확률밀도함수(pdf) $f\_X(x)$가 존재하며, 이는

$$
\begin{align} F\_X(x) = \int\_{-\infty}^x f\_X(t),dt \end{align}
$$

로 연결된다. 반면 이산형 변수라면 확률질량함수(pmf) $p\_X(x) = P(X=x)$가 존재한다.

센서 퓨전에서는 대체로 연속형 확률변수를 다룰 때가 많지만, 특정 이벤트(예: 센서 이상 여부)가 발생하는 이산 확률변수도 함께 고려한다.

#### 결합 확률과 독립성

센서가 여러 개일 때, 여러 무작위 변수를 동시에 취급해야 한다. 두 확률변수 $X$와 $Y$의 결합확률 분포 $p\_{X,Y}(x,y)$ 또는 $f\_{X,Y}(x,y)$는 $(X, Y)$가 각각 $(x, y)$ 값을 가질 확률 혹은 확률밀도를 말한다. 이를 통해 센서 간의 상관관계를 해석할 수 있다.

두 무작위 변수 $X$와 $Y$가 독립(independent)이라면,

$$
\begin{align} p\_{X,Y}(x,y) = p\_X(x),p\_Y(y), \end{align}
$$

혹은 연속형의 경우

$$
\begin{align} f\_{X,Y}(x,y) = f\_X(x),f\_Y(y). \end{align}
$$

센서 퓨전에서는 센서 간 노이즈가 독립적이라고 가정하는 경우가 많지만, 실험적으로 상관관계가 존재하는지도 주의 깊게 살펴봐야 한다. 독립성은 결합확률분포가 곱 형태로 분해되어야 하고, 이는 오차 분석에서 매우 중요한 가정이다.

#### 조건부 확률과 베이즈 정리

측정 결과가 업데이트된 후 시스템 상태(예: 물체의 위치, 속도) 확률을 재평가할 때, 조건부 확률 개념이 필수적이다. 두 사건 $A$와 $B$에 대해 $B$가 주어졌을 때 $A$가 발생할 확률은

$$
\begin{align} P(A \mid B) = \frac{P(A \cap B)}{P(B)}. \end{align}
$$

확률변수 관점에서, 특정 관측값 $\mathbf{z}$가 주어졌을 때 상태변수 $\mathbf{x}$의 확률분포는

$$
\begin{align} p(\mathbf{x}\mid \mathbf{z}) = \frac{p(\mathbf{z}\mid \mathbf{x}),p(\mathbf{x})}{p(\mathbf{z})}. \end{align}
$$

이를 베이즈 정리라 하며, 센서 퓨전 전반에 걸쳐 핵심 역할을 한다. 센서 측정 노이즈 모델이 $p(\mathbf{z}\mid \mathbf{x})$로 주어졌고, 사전확률(prior)인 $p(\mathbf{x})$가 존재한다면, 관측 $\mathbf{z}$가 들어왔을 때 사후확률(posterior) $p(\mathbf{x}\mid \mathbf{z})$를 업데이트할 수 있다.

#### 기댓값과 분산

무작위 변수 $X$의 기댓값(expectation)은 평균적인 값을 나타내며

$$
\begin{align} E\[X] = \int\_{-\infty}^{\infty} x f\_X(x),dx \end{align}
$$

(연속형 변수의 경우) 혹은

$$
\begin{align} E\[X] = \sum\_{x} x, p\_X(x) \end{align}
$$

(이산형 변수의 경우)로 정의된다.

분산(variance)은 무작위 변수의 퍼짐(spread)을 나타내며

$$
\begin{align} \mathrm{Var}(X) = E\bigl\[(X - E\[X])^2\bigr]. \end{align}
$$

실제로는 편의상

$$
\begin{align} \mathrm{Var}(X) = E\[X^2] - (E\[X])^2 \end{align}
$$

공식을 더 자주 사용한다.

센서 노이즈의 모델링에 있어 평균값(바이어스 혹은 오프셋)과 분산(노이즈의 세기)은 가장 기본이 되는 파라미터다.

#### 공분산과 상관관계

센서가 다수 존재할 때는 공분산(covariance)이 중요하다. 두 무작위 변수 $X$와 $Y$의 공분산은

$$
\begin{align} \mathrm{Cov}(X, Y) = E\bigl\[(X - E\[X])(Y - E\[Y])\bigr]. \end{align}
$$

이를 행렬 형태로 확장한 것이 공분산 행렬이다. 예를 들어, $\mathbf{x} \in \mathbb{R}^n$인 랜덤 벡터에 대해,

$$
\begin{align} \mathbf{\Sigma} = E\bigl\[(\mathbf{x}-E\[\mathbf{x}])(\mathbf{x}-E\[\mathbf{x}])^\top\bigr]. \end{align}
$$

센서 퓨전 알고리즘(예: 칼만 필터)에서 공분산 행렬은 상태 추정의 정확도 및 다중 센서 간 상관관계를 나타내는 핵심적인 요소다.

#### 변환과 야코비

센서가 비선형 함수를 통해 상태를 측정하는 경우, 랜덤 벡터 $\mathbf{x}$가 측정 공간으로 사상될 때 그 확률분포도 변형된다. 예를 들어, 어떤 비선형 함수

$$
\begin{align} \mathbf{z} = h(\mathbf{x}) \end{align}
$$

에 의해 측정값 $\mathbf{z}$가 결정된다면, 그에 따른 오차 공분산도 야코비(Jacobian) 행렬 $\mathbf{H}$을 통해 근사적으로 전파된다. 확률 분포 함수 자체를 직접 변환하는 것은 복잡하지만, 1차 선형 근사를 사용하면

$$
\begin{align} \mathbf{z} \approx h(\mathbf{\mu}) + \mathbf{H}(\mathbf{x}-\mathbf{\mu}), \end{align}
$$

$\mathbf{H} = \bigl.\frac{\partial h}{\partial \mathbf{x}}\bigr|\_{\mathbf{x}=\mathbf{\mu}}$ 이고, 공분산 전파는

$$
\begin{align} \mathbf{\Sigma}\_z \approx \mathbf{H},\mathbf{\Sigma}\_x,\mathbf{H}^\top \end{align}
$$

형태로 나타난다.

#### 중요한 분포들

센서 퓨전에서 자주 등장하는 확률분포는 정규분포, 가우시안 혼합분포, 지수분포, 베르누이/바이노미얼 등이다. 그중에서도 가우시안(정규) 분포는 측정 노이즈로 가장 흔히 가정되며, 선형 가우시안 시스템에서 칼만 필터 분석이 가능하게 만든다. 정규분포를 살펴보자.

연속형 확률변수 $\mathbf{x} \in \mathbb{R}^n$가 평균 벡터 $\mathbf{\mu}$와 공분산 행렬 $\mathbf{\Sigma}$를 갖는 다변량 정규분포를 따른다면,

$$
\begin{align} p(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^n \det(\mathbf{\Sigma})}} \exp\Bigl(-\tfrac12 (\mathbf{x}-\mathbf{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu})\Bigr). \end{align}
$$

이는 중앙극한정리에도 부합하며, 센서 노이즈 모델링의 핵심이 된다.

#### 짧은 Python 예시: 정규분포 표본 생성

로 간단히 정규분포를 시뮬레이션하고 히스토그램을 살펴볼 수 있다.

```python
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)
mu = 0.0
sigma = 1.0
data = np.random.normal(mu, sigma, 10000)

plt.hist(data, bins=50, density=True, alpha=0.7, color='blue')
plt.title("Histogram of Gaussian samples")
plt.show()
```

간단히 평균이 0, 분산이 1인 정규분포에서 무작위 표본을 생성한 뒤 분포를 시각화해볼 수 있다.

#### 중심극한정리

중심극한정리(Central Limit Theorem, CLT)는 무작위 변수들의 합이 (일정 조건 하에) 정규분포로 근사된다는 강력한 정리다. 센서 노이즈가 다양한 요인으로부터 누적된 합이나 평균으로 나타나는 경우가 많기에, 센서 노이즈를 가우시안으로 모델링하는 중요한 이론적 근거가 되기도 한다.

$X\_1, X\_2, \ldots, X\_n$이 독립이고 동일 분포(i.i.d.)를 가지며, 공통 기댓값 $E\[X\_i] = \mu$와 분산 $\mathrm{Var}(X\_i) = \sigma^2$라고 하자. 그렇다면 $n$개의 표본 평균

$$
\begin{align} \bar{X} = \frac{1}{n} \sum\_{i=1}^n X\_i \end{align}
$$

은 $n$이 커질수록 점차 정규분포

$$
\begin{align} \bar{X} \approx \mathcal{N}\Bigl(\mu, \frac{\sigma^2}{n}\Bigr) \end{align}
$$

에 근사한다. 이는 잡음이나 오차가 누적될 때 그 합이 정규분포 형태를 보이게 되는 이유이기도 하며, 센서 퓨전에서 가우시안 가정을 널리 쓰는 동기 중 하나다.

#### 합성 확률분포와 컨볼루션

두 독립 확률변수 $X$와 $Y$의 합 $Z = X + Y$를 생각해보면, 그 확률밀도함수 $f\_Z(z)$는 $f\_X$와 $f\_Y$의 컨볼루션(convolution)이 된다.

$$
\begin{align} f\_Z(z) = \int\_{-\infty}^{\infty} f\_X(x),f\_Y(z - x),dx. \end{align}
$$

물리적으로도, 두 센서 노이즈가 독립적이라면 그 합의 분포는 이 컨볼루션으로 표현된다. 정규분포의 경우 컨볼루션 결과도 정규분포가 되므로 분석이 수월하다.

#### 예상되는 추가 내용

이번 회에서는 확률과 통계의 전반적인 기초와 주요 개념들을 일별했다. 아직 다루지 않은 내용들, 예를 들어 몬테카를로 시뮬레이션, 최대우도추정(MLE), MAP 추정, 정보 이론적 관점 등 센서 퓨전에 더욱 직접적으로 활용되는 통계 기법 등이 남아 있다. 또한 확률적 추정 과정의 다양한 응용 예시도 추가로 살펴봐야 한다.

#### 몬테카를로 기법과 표본 추출

센서 퓨전에서 복잡한 확률분포의 형태를 직접 해석하거나 적분을 계산하기가 어려울 수 있다. 이런 경우 대표적인 접근법으로 몬테카를로(Monte Carlo) 기법이 있다. 이는 무작위 표본을 많이 생성한 뒤, 그 표본 통계를 이용해 분포를 근사 혹은 적분값을 추정하는 방법이다.

예를 들어 복잡한 확률분포 $p(\mathbf{x})$가 주어졌다고 하자. 이때 어떤 함수 $g(\mathbf{x})$의 기댓값 $E\[g(\mathbf{x})]$를 직접 구하기가 어려울 수 있다. 하지만 $p(\mathbf{x})$로부터 표본을 다량 생성해 $\mathbf{x}\_1, \mathbf{x}\_2, \ldots, \mathbf{x}\_N$을 얻은 뒤에는,

$$
\begin{align} E\[g(\mathbf{x})] \approx \frac{1}{N}\sum\_{i=1}^N g(\mathbf{x}\_i). \end{align}
$$

와 같이 단순 평균으로 근사할 수 있다. 센서 퓨전에서 비선형 분포나 고차원 상태를 취급할 때, 이 방법은 복합 확률분포를 취급하는 강력한 도구가 된다.

몬테카를로 기법의 성공 여부는 $p(\mathbf{x})$에서 표본을 효율적으로 뽑는 방법에 크게 좌우된다. 예컨대 역변환 표본추출(inverse transform sampling), 거절 샘플링(rejection sampling), 중요도 샘플링(importance sampling), 혹은 마코프 연쇄 몬테카를로(MCMC) 기법들이 실무에서도 자주 쓰인다.

#### 최대우도추정(MLE)과 사후확률최대(MAP) 추정

센서 퓨전 과정에서 모델 파라미터나 상태를 추정할 때, 특정 기준 하에서 '최적' 해를 구하는 대표적인 방법이 최대우도추정(MLE; Maximum Likelihood Estimation)과 최대사후확률(MAP; Maximum A Posteriori) 추정이다.

**최대우도추정**

관측 데이터 $\mathbf{z} = {\mathbf{z}\_1, \dots, \mathbf{z}\_N}$가 있고, 이를 설명하는 파라미터 $\boldsymbol{\theta}$에 대해 우도함수(likelihood function)는

$$
\begin{align} L(\boldsymbol{\theta}; \mathbf{z}) = p(\mathbf{z} \mid \boldsymbol{\theta}). \end{align}
$$

라고 한다. MLE는 이 우도함수를 최대화하는 $\boldsymbol{\theta}$를 구한다:

$$
\begin{align} \hat{\boldsymbol{\theta}}\_{\mathrm{MLE}} = \underset{\boldsymbol{\theta}}{\mathrm{arg,max}}\ L(\boldsymbol{\theta}; \mathbf{z}). \end{align}
$$

연속 확률분포의 경우 로그우도(log-likelihood)를 주로 다룬다. 예:

$$
\begin{align} \ell(\boldsymbol{\theta}; \mathbf{z}) = \ln L(\boldsymbol{\theta}; \mathbf{z}) = \ln p(\mathbf{z} \mid \boldsymbol{\theta}). \end{align}
$$

MLE는 사전확률(prior)을 고려하지 않고 관측데이터만으로 파라미터를 정한다.

**최대사후확률 추정**

베이즈 관점에서는 파라미터 $\boldsymbol{\theta}$ 자체도 확률변수로 본다. 사후확률(postrior) 분포는

$$
\begin{align} p(\boldsymbol{\theta} \mid \mathbf{z}) = \frac{p(\mathbf{z} \mid \boldsymbol{\theta}),p(\boldsymbol{\theta})}{p(\mathbf{z})}. \end{align}
$$

이고, MAP 추정은 이를 최대로 하는 $\boldsymbol{\theta}$를 구한다:

$$
\begin{align} \hat{\boldsymbol{\theta}}\_{\mathrm{MAP}} = \underset{\boldsymbol{\theta}}{\mathrm{arg,max}}\ p(\boldsymbol{\theta} \mid \mathbf{z}). \end{align}
$$

이는 결국

$$
\begin{align} \hat{\boldsymbol{\theta}}\_{\mathrm{MAP}} = \underset{\boldsymbol{\theta}}{\mathrm{arg,max}}\ \bigl\[p(\mathbf{z}\mid \boldsymbol{\theta}),p(\boldsymbol{\theta})\bigr] = \underset{\boldsymbol{\theta}}{\mathrm{arg,max}}\ \bigl\[\ell(\boldsymbol{\theta}; \mathbf{z}) + \ln p(\boldsymbol{\theta})\bigr]. \end{align}
$$

사전확률 $p(\boldsymbol{\theta})$가 균등분포이면 MLE와 MAP 추정이 동일해진다. 하지만 일반적으로는 사전정보(prior)가 있으면 MAP가 보다 정확한 추정을 제공할 수 있다.

#### 예시: 가우시안 가정에서의 MLE 추정

단변량 가우시안 분포 $\mathcal{N}(\mu, \sigma^2)$를 가정하고, 독립 시료 $z\_1, \dots, z\_N$이 주어졌다고 하자. 이때 $\mu$를 모르는 상태에서 MLE를 구해보자. 우도함수는

$$
\begin{align} L(\mu; z\_1,\dots,z\_N) &= \prod\_{i=1}^N \frac{1}{\sqrt{2\pi},\sigma} \exp\bigl(-\tfrac{1}{2\sigma^2}(z\_i - \mu)^2\bigr),\ \ell(\mu) &= \ln L(\mu) = \sum\_{i=1}^N \Bigl\[-\ln(\sqrt{2\pi},\sigma) - \tfrac{1}{2\sigma^2}(z\_i - \mu)^2 \Bigr]. \end{align}
$$

이를 $\mu$에 대해 미분하고 0이 되도록 푼다면,

$$
\begin{align} \hat{\mu}*{\mathrm{MLE}} &= \frac{1}{N}\sum*{i=1}^N z\_i. \end{align}
$$

즉 표본평균이 MLE 해가 된다.

#### 신뢰구간(Confidence Interval)과 추정의 불확실성

파라미터를 추정했을 때, 그 추정값이 얼마나 불확실한지를 나타내는 척도가 필요하다. 빈도주의 통계에서는 신뢰구간(Confidence Interval) 개념을 사용한다. 예컨대 정규분포를 가정했을 때 표본평균 $\bar{z}$의 95% 신뢰구간은

$$
\begin{align} \bar{z} \pm 1.96 \frac{\sigma}{\sqrt{N}} \end{align}
$$

형태를 가진다. 센서 퓨전 관점에서는 추정값과 그 오차 범위를 함께 제시해야 실제 운용에서의 안전성과 신뢰도를 확보할 수 있다.

반면 베이즈 통계에서는 '신뢰구간' 대신 사후분포에서 95% 누적질량을 갖는 구간(credible interval)을 정의하기도 한다. 이는 사후분포에 근거한 불확실성 측정이므로, 사전확률 정보까지 반영되는 차이가 있다.

#### 가우시안 혼합 모델(GMM)과 비모달 분포

일부 센서 노이즈는 하나의 정규분포로 설명하기에는 한계가 있을 수 있다. 예컨대 배경 조건이나 환경이 여러 상태로 구분되면서, 전체 분포가 여러 개의 가우시안 성분(components)으로 이루어진 혼합 분포 형태를 보일 수 있다. 이를 가우시안 혼합 모델(Gaussian Mixture Model, GMM)이라 한다.

$K$개의 혼합성분 각각이 가우시안 분포 $p\_k(\mathbf{x})$를 가지면서, 혼합 가중치가 $\pi\_k$라고 할 때,

$$
\begin{align} p(\mathbf{x}) = \sum\_{k=1}^K \pi\_k, p\_k(\mathbf{x}). \end{align}
$$

이때 $\sum\_{k=1}^K \pi\_k = 1$, $\pi\_k \ge 0$ 이다. GMM은 EM(Expectation-Maximization) 알고리즘을 사용해 파라미터를 추정하는 것이 표준적이다. 센서 퓨전에서 잡음이 여러 원인으로부터 발생하고 모달(modal) 구조가 다중인 경우, 하나의 정규분포만으로 충분하지 않을 때 GMM 등 혼합 모델을 고려한다.

#### 고차원 공간과 희박성

로봇이나 자율주행, 여러 센서가 많은 상태변수를 측정하는 상황에서는 상태공간이 매우 커질 수 있다. 차원이 높아질수록(‘차원의 저주’) 밀도추정이나 정규분포 근사에 기반을 둔 분석도 계산량 및 샘플 수요가 기하급수적으로 늘어난다. 이런 문제를 해결하기 위해서는 다음과 같은 아이디어가 쓰인다.

* 스파스(sparse) 모델, 즉 대부분의 파라미터가 0에 가깝다고 가정하고 중요한 몇 개만 활성화됨을 가정하는 방법(예: 라소 회귀, 스파스 베이즈 추정 등)
* 저차원 임베딩 기법(PCA, SVD, 혹은 오토인코더 등)을 통해 상태나 노이즈 특징의 차원을 축소
* 몬테카를로 기반 기법에서도 중요도 샘플링을 비롯해 효율적인 표본추출 전략 사용

센서 퓨전에서는 특히 환경 특성이나 물리 모델에 기반한 사전정보를 적극적으로 활용함으로써, 무차별적으로 모든 차원을 다루는 문제를 완화하려는 시도가 이루어진다.

#### Python 예시: EM 알고리즘으로 GMM 추정

로 GMM 추정을 시뮬레이션하는 아주 간단한 예시를 볼 수 있다.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture

# 실제로 두 개의 가우시안에서 샘플 생성
np.random.seed(42)
N = 1000
data1 = np.random.normal(loc=-2, scale=1.0, size=N//2)
data2 = np.random.normal(loc=3, scale=0.5, size=N//2)
data = np.concatenate([data1, data2]).reshape(-1, 1)

# GMM 추정
gmm = GaussianMixture(n_components=2, random_state=42)
gmm.fit(data)

print("Estimated means:", gmm.means_.flatten())
print("Estimated variances:", gmm.covariances_.flatten())
print("Estimated mixing weights:", gmm.weights_.flatten())

# 시각화
x_vals = np.linspace(-6, 8, 200).reshape(-1,1)
pdf_vals = np.exp(gmm.score_samples(x_vals))
plt.hist(data, bins=30, density=True, alpha=0.5, color='gray')
plt.plot(x_vals, pdf_vals, 'r-', label='GMM PDF')
plt.legend()
plt.show()
```

이 코드는 단순히 `sklearn` 라이브러리에 내장된 `GaussianMixture`를 사용하여 EM 알고리즘 기반으로 혼합 가우시안을 추정한다. 센서 데이터가 다중 모달 특성을 가진 상황에서 이러한 접근이 유용하다.

#### 정보 이론적 관점

센서 퓨전에서 확률모형을 통해 측정 데이터를 융합하는 과정은 본질적으로 ‘정보’를 최대한 효율적으로 결합하는 문제로 해석할 수 있다. 정보 이론에서는 확률분포나 무작위 변수의 ‘불확실성(uncertainty)’을 엔트로피(entropy)로 측정하고, 센서들 간 정보 결합 과정은 상호정보량(mutual information)을 활용해 해석할 수 있다.

무작위 변수 $X$가 가질 수 있는 엔트로피 $H(X)$는 이산형 변수라면

$$
\begin{align} H(X) = -\sum\_{x} p(x),\log p(x), \end{align}
$$

연속형 변수의 경우 미분 엔트로피(differential entropy)라는 개념으로

$$
\begin{align} h(X) = -\int p(x),\log p(x),dx \end{align}
$$

로 정의한다. (연속형에서의 미분 엔트로피는 음수가 될 수도 있고, 절대적인 불확실성 척도로 쓰기엔 주의가 필요하다.)

센서 퓨전에서 상태 벡터 $\mathbf{x}$와 관측 벡터 $\mathbf{z}$ 간 상호정보량 $I(\mathbf{x}; \mathbf{z})$는

$$
\begin{align} I(\mathbf{x}; \mathbf{z}) = \int p(\mathbf{x}, \mathbf{z}),\log \frac{p(\mathbf{x}, \mathbf{z})}{p(\mathbf{x}),p(\mathbf{z})} ,d\mathbf{x},d\mathbf{z}. \end{align}
$$

이 양이 클수록 $\mathbf{z}$가 $\mathbf{x}$에 대해 제공하는 정보가 많음을 의미한다. 센서가 새로 들어올 때, 기존 정보와 새 센서가 얼마나 추가 정보를 제공하는지 해석하는 틀로 상호정보량을 활용하기도 한다.

#### 피셔 정보와 크래머-라오 하한

센서 퓨전 시스템에서 상태추정의 이론적 한계를 알아볼 때는 피셔 정보(Fisher information)와 크래머-라오 하한(CRLB)을 사용한다. 확률밀도함수 $p(\mathbf{z}\mid \boldsymbol{\theta})$가 파라미터 $\boldsymbol{\theta}$에 대해 충분히 부드럽고 정규화되어 있다고 하자. 피셔 정보행렬 $\mathbf{I}(\boldsymbol{\theta})$는

$$
\begin{align} \mathbf{I}(\boldsymbol{\theta})  = E\Bigl\[ \nabla\_{\boldsymbol{\theta}} \ln p(\mathbf{z}\mid \boldsymbol{\theta}) ,\nabla\_{\boldsymbol{\theta}} \ln p(\mathbf{z}\mid \boldsymbol{\theta})^\top \Bigr]. \end{align}
$$

* $\nabla\_{\boldsymbol{\theta}}$는 $\boldsymbol{\theta}$에 대한 그라디언트)

스칼라 파라미터의 경우 피셔 정보 $I(\theta)$가 크면, 해당 파라미터를 더 정밀하게 추정할 수 있음을 뜻한다.

크래머-라오 하한은 어떤 불편추정량(unbiased estimator)에 대해 추정오차 공분산이 최소로 가질 수 있는 한계다. 즉,

$$
\begin{align} \mathrm{Cov}\bigl(\hat{\boldsymbol{\theta}}\bigr) \succeq \mathbf{I}(\boldsymbol{\theta})^{-1}. \end{align}
$$

* $\succeq$는 행렬이 양의 반정(definite)이라는 의미

센서 퓨전에서 여러 관측이 추가되면 피셔 정보가 증가하고, 그 결과 가능한 추정오차 하한이 낮아진다. 이는 센서를 추가할수록 정보량이 늘어나고 추정정확도가 좋아진다는 것을 이론적으로 뒷받침한다.

#### 비모수적 추정과 커널 밀도 추정

센서 노이즈나 상태분포가 특정 파라미트릭(pararametric) 형태(예: 가우시안)로 깔끔히 맞아떨어지지 않을 수도 있다. 이런 경우 비모수적 기법이 유용하다. 비모수적 추정(nonparametric estimation)은 분포의 형태를 특정하지 않고, 관측 데이터(샘플) 자체에서 직접 분포를 근사한다.

가장 간단한 예가 히스토그램(histogram)이며, 이를 연속적으로 확장하면 커널 밀도 추정(kernel density estimation, KDE)가 된다. 1차원 예시에서 커널 밀도 추정은

$$
\begin{align} \hat{p}*h(x) = \frac{1}{N h} \sum*{i=1}^N K\Bigl(\frac{x - x\_i}{h}\Bigr), \end{align}
$$

형태로 쓸 수 있다. 여기서 $K$는 커널 함수(예: 가우시안 커널), $h$는 대역폭(bandwidth) 파라미터, ${x\_i}$는 샘플이다. 대역폭을 어떻게 설정하느냐에 따라 추정 성능이 크게 달라진다.

다차원 KDE는 차원의 저주 때문에 샘플수가 충분히 크지 않으면 밀도 추정이 어려울 수 있다. 그러나 센서 퓨전에서 비정형적 노이즈나 복잡한 분포를 다뤄야 할 경우 비모수적 기법의 필요성이 제기된다.

#### 강건 통계(Robust Statistics)와 이상치(outlier) 처리

센서 데이터는 실험 오차뿐 아니라 환경적 충격, 고장, 통신 장애 등으로 인해 극단값(outlier)을 포함하기 쉽다. 전통적인 최소자승(least squares) 기반 추정법이나 가우시안 가정하의 방법은 이상치에 취약할 수 있다. 이를 완화하기 위해 강건 통계(Robust Statistics) 개념이 사용된다.

예를 들어 M-추정(M-estimation)이라는 접근법은 최소자승 문제를 일반화한다. 잔차(residual)에 대한 어떤 로손수(r)를 최소화하는 형태로 문제를 정의함으로써, 이상치에 대한 영향력을 제한한다. 대표적인 예가 허버(Huber) 손실함수를 사용하는 방식이다.

센서 퓨전 관점에서도 강건한 상태 추정 기법이 필요하다. 예를 들어, 일부 센서가 고장나서 완전히 엉뚱한 측정값을 내는 경우, 그것이 전체 추정에 큰 영향을 주지 않도록 하는 장치가 요구된다. 이를 위해

* 신뢰구간 기반의 게이트(gating) 기법: 측정이 허용 범위를 벗어나면 제외
* 베이즈적 스파스 모델: 관측 오차의 분포를 라플라스나 Student-t 등 heavy-tail 형태로 가정 등 다양한 방법론이 연구되고 있다.

#### 시계열 분석과 동적 확률 모델

로봇이나 자율주행 환경에서는 센서가 연속적으로 데이터를 생성하고, 이는 시계열로서 동적(dynamic) 성격을 갖는다. 확률과 통계의 기초 지식은 칼만 필터, 입자 필터, 히든 마코프 모델(HMM), Dynamic Bayesian Network(DBN) 등을 이해하는 데 필수적이다.

시간에 따라 진화하는 상태 $\mathbf{x}\_t$와 측정값 $\mathbf{z}\_t$ 사이에

$$
\begin{align} \mathbf{x}*t &= f(\mathbf{x}*{t-1}) + \mathbf{w}\_t, \ \mathbf{z}\_t &= h(\mathbf{x}\_t) + \mathbf{v}\_t, \end{align}
$$

같은 선형 혹은 비선형 모델이 주어질 때, 오차항 $\mathbf{w}\_t, \mathbf{v}\_t$를 통계적으로 모델링하여 시계열 추정을 수행한다. 센서 데이터가 노이즈를 포함하되 시간적으로 상관이 있을 수 있으므로, 동적 베이즈 추론 기법이 핵심이다.

#### 실험설계(DoE)와 표본추출

센서 퓨전 시스템의 퍼포먼스를 검증하거나, 분포 파라미터를 추정하기 위해 실험 또는 시뮬레이션을 설계하는 과정을 생각해볼 수 있다. 실험계획법(Design of Experiments, DoE)은 최소한의 실험(혹은 시뮬레이션) 횟수로 최대한의 정보를 얻는 방법론이며, 통계학에서 다뤄지는 중요한 분야다.

예를 들어 센서 퓨전 알고리즘의 에러 성능을 평가할 때, 변화될 수 있는 여러 입력 변수(조도, 온도, 센서 배치, 이동 속도 등)를 어떻게 설계해 반복 실험할지 체계적으로 결정하면, 추정된 성능에 대한 신뢰도가 더 높아진다.

#### mermaid를 통한 개념 구조도

센서 퓨전에서 확률·통계 개념이 어떻게 연결되는지 mermaid를 활용해 간단히 나타내면 다음과 같다.

{% @mermaid/diagram content="flowchart TB
A\[확률적 모델링] --> B\[확률 밀도함수]
A --> C\[조건부 확률 & 베이즈]
B --> D\[MLE & MAP 추정]
C --> D
D --> E\["센서 퓨전 알고리즘 (예: 칼만 필터)"]
E --> F\["추정 성능 해석 (CRLB, 피셔 정보)"]
E --> G\[강건 통계 & 이상치 처리]
E --> H\[몬테카를로 기반 기법]
A --> I\["정보 이론(엔트로피, 상호정보량)"]
I --> E" %}

이 흐름도에서 확률론적 기본 이론이 센서 퓨전 알고리즘 이해와 개발에 어떻게 파생되어 적용되는지 볼 수 있다.

#### 나아갈 방향

센서 퓨전에서 확률과 통계적 지식을 종합적으로 다루기 위해서는 여러 가지 확률론적 도구와 통계적 추정 방법을 탄탄히 익혀야 한다. 특히 베이즈 추론, 동적 추정 기법, 정보 이론적 관점, 그리고 모델링 가정이 벗어났을 때(모델 불일치, 이상치 등) 어떻게 대비할지에 대한 강건성까지 모두 고려해야 한다.

앞으로 칼만 필터, 파티클 필터, 베이즈 필터 등 구체적 센서 퓨전 알고리즘에서 확률론과 통계적 추론이 어떻게 녹아들어 있는지, 그리고 실제 구현시 어떤 점에 유의해야 하는지 계속 살펴볼 필요가 있다.

#### 랜덤 프로세스와 시불변성

센서 퓨전에서는 시간에 따라 변화하는 센서 데이터 스트림을 취급해야 하므로, 무작위 변수를 확장한 개념인 랜덤 프로세스(random process)를 이해하는 것이 중요하다. 랜덤 프로세스는 시간축(또는 어떤 연속적·이산적 지표 집합)에 대해, 각각 무작위 변수를 정의해 둔 집합이다. 이를 다음과 같이 나타낸다.

$$
\begin{align} { X\_t : t \in T } \end{align}
$$

연속시간(예: $t \in \mathbb{R}$) 혹은 이산시간(예: $t \in \mathbb{Z}$) 모두 가능하다. 센서 퓨전에서는 보통 이산시점으로 샘플링된 센서 측정값을 다루므로, 이산시간 랜덤 프로세스 형태가 흔하다.

랜덤 프로세스가 시간 이동에 대해 통계적 특성이 변하지 않는 경우를 ‘정상성(stationarity)’이라 한다. 완전 정상성(strict-sense stationarity)은 모든 차수(moment) 분포가 시간 이동에 대해 불변임을 요구하지만, 실무에서는 1차·2차 통계량(평균, 자기상관함수)만 시간에 무관하면 된다는 약한 정상성(weak-sense stationarity) 혹은 광의 정상성(WSS)을 주로 가정한다.

예를 들어 센서 노이즈 $\mathbf{w}\_t$가

$$
\begin{align} E\[\mathbf{w}\_t] = \mathbf{0}, \quad E\[\mathbf{w}*t \mathbf{w}*\tau^\top] =  \begin{cases} \mathbf{Q}, & t = \tau, \ \mathbf{0}, & t \neq \tau \end{cases} \end{align}
$$

형태로 시간적으로 상관되지 않고 분산 $\mathbf{Q}$가 일정하다면, 이는 WSS의 한 예가 된다. 센서 퓨전 설계 시 노이즈가 시간에 따라 달라질 수 있음을 고려해야 하지만, 특정 구간 내에서 정상성 가정이 적용될 수도 있다.

#### 자기상관과 파워 스펙트럼

랜덤 프로세스 {Xt}{ X\_t }의 2차 통계적 성질을 표현하는 자기상관(auto-correlation) 함수는

$$
\begin{align} R\_X(\tau) = E\[X\_t , X\_{t+\tau}] \end{align}
$$

(단변량 기준)로 정의된다. 센서 노이즈가 시간적으로 상관이 있을 때, 인접 시점 사이의 상관구조를 파악하는 것이 센서 퓨전 성능에 큰 영향을 준다. 실제로 상태추정 알고리즘에서는 상관된 노이즈의 공분산을 어떻게 반영할지 결정해야 한다.

WSS인 경우에는 RX(τ)R\_X(\tau)가 시점 tt에 무관하게 시차 τ\tau에만 의존한다. 이 자기상관함수를 푸리에 변환하면 파워 스펙트럼 밀도(power spectral density; PSD)가 된다. 센서 측정 노이즈가 특정 주파수 대역에 집중되어 있을 경우, 해당 부분을 보완하거나 필터링할 방법을 모색할 수 있다.

#### 다변량 랜덤 프로세스와 교차상관

센서가 여러 개이고, 각각 시계열을 방출한다면 다변량 랜덤 프로세스(multi-variate random process)를 형성한다. ${\mathbf{X}\_t} \in \mathbb{R}^n$가 그 예다. 이 경우 자기상관함수 대신, 공분산 행렬 함수를 분석해야 한다. 두 다른 프로세스 $\mathbf{X}\_t$와 $\mathbf{Y}\_t$ 간 교차상관(cross-correlation) 함수가 비(0)라면 시간적·공간적 의존성이 존재함을 의미한다.

센서 퓨전 알고리즘에서는 일반적으로 다중 채널 측정값들의 교차상관이 0이라고 단순 가정할 때가 많지만, 실제로는 기계적 진동이나 환경적 교란으로 인해 상관구조가 유의미하게 나타날 수 있다. 그런 경우에는 해당 교차상관을 고려해야 추정 정밀도를 높일 수 있다.

#### 마코프 성질과 히든 마코프 모델(HMM)

마코프 프로세스(Markov process)는 현재 상태가 과거의 이력 전체가 아니라 바로 직전 상태(혹은 제한된 몇 단계)만으로 결정되는 메모리 없는 성질을 띤다. 시간적으로 인접한 센서 측정값 사이가 마코프 구조를 갖는다면, 히든 마코프 모델(HMM)을 이용해 센서 퓨전을 진행할 수 있다.

HMM은 관측(출력) $\mathbf{z}\_t$가 상태 $\mathbf{x}\_t$의 확률적 함수를 통해 생성되는데, 이 상태 $\mathbf{x}\_t$ 자체가 마코프 체인을 이루는 상황을 말한다.

$$
\begin{align} p(\mathbf{x}*t \mid \mathbf{x}*{t-1},\dots,\mathbf{x}\_0) = p(\mathbf{x}*t \mid \mathbf{x}*{t-1}) \end{align}
$$

$$
\begin{align} p(\mathbf{z}*t \mid \mathbf{x}*t,\mathbf{x}*{t-1},\dots,\mathbf{z}*{t-1},\dots,\mathbf{x}\_0) = p(\mathbf{z}\_t \mid \mathbf{x}\_t). \end{align}
$$

이런 구조를 모형화하면, 베이즈 필터링(예: 칼만 필터, 입자 필터, HMM 필터 등)으로 상태 추정을 효율적으로 수행할 수 있다.

#### 확률 불등식(Chebyshev, Markov, Hoeffding 등)

오차 범위를 확률적으로 보장하기 위해 다양한 확률적 불등식(probabilistic inequality)을 사용할 수 있다. 센서 데이터가 독특한 분포를 가지고 있더라도, 불등식을 통해 “오차가 특정 구간 내에 존재할 확률” 같은 결과를 얻을 수 있다.

가장 기초적인 것이 마코프 부등식(Markov’s inequality)과 체비쇼프 부등식(Chebyshev’s inequality)이다. 예를 들어, 체비쇼프 부등식은 분산이 σ2\sigma^2인 무작위 변수 XX에 대해

$$
\begin{align} P(|X - E\[X]| \geq k\sigma) \leq \frac{1}{k^2} \end{align}
$$

을 보장한다. 이는 분포의 꼬리가 얼마나 크게 벌어질 수 있는지 상한을 준다.

호프딩(Hoeffding) 부등식이나 체르노프(Chernoff) 부등식도 몬테카를로 기법, 샘플 사이즈 설정, 확률적 신뢰 보장 등에 응용된다. 센서 퓨전에서 대규모 데이터 샘플로부터 시스템 파라미터나 상태값을 추정할 때, 추정오차가 주어진 구간 내에 속할 확률에 대한 경계를 설정하는 데 쓰인다.

#### 신뢰도 이론과 생존 함수

센서 자체의 고장 확률, 오작동 확률 등도 확률·통계적 관점으로 다룰 수 있다. 이를 신뢰도(reliability) 이론 혹은 생존 분석(survival analysis)에서 주로 다룬다. 특정 센서가 시점 tt까지 정상 동작할 확률을 생존 함수(survival function) S(t)S(t)라 하고,

$$
\begin{align} S(t) = P(T > t), \end{align}
$$

TT는 센서 고장 발생 시점이다. 센서 퓨전 시스템을 설계할 때, 각 센서의 수명 분포나 고장 모드 분석을 통해 전체 시스템의 신뢰도와 중복 구성(redundancy)을 검토하기도 한다.

#### 차수추정(Order statistics)과 극값이론

분산이 큰 노이즈나 이상치(outlier)가 잦은 센서 환경에서는 관측값 중 극값(maximum, minimum)을 추적하는 것도 중요하다. 차수추정(order statistics)은 표본 ${X\_1, \ldots, X\_n}$을 오름차순 정렬한 $(X\_{(1)}, \dots, X\_{(n)})$에서 $k$-번째로 작은(혹은 큰) 값의 분포를 다루는 이론이다. 센서 데이터 중 특정 구간에서 최대값만 모으는 식의 변칙적 상황에서도 도움이 된다.

큰 외란이 발생할 확률을 해석할 때는 극값이론(extreme value theory)이 유용할 수 있다. 일반화 극값분포(GEV)나 검벨( Gumbel ), 프레셰(Fréchet), 반덴(Min stable) 분포 등을 통해, 제한 구간 내에서 최댓값이 어느 정도 범위에 있을지 분석한다. 센서 데이터가 극단적인 잡음에 취약하다면 이 방식을 통해 안전한 임계값(threshold)을 설정할 수 있다.

#### 회귀와 분류 관점

센서 퓨전 문제는 주로 상태 추정이라는 회귀(regression) 문제로 많이 다뤄지지만, 객체 인식이나 이상치 탐지 등 분류(classification)적인 문제로 해석하기도 한다. 이때 확률 분포나 통계적 모델을 기반으로, 베이즈 분류기·판별분석(Linear Discriminant Analysis 등)을 활용하거나, 신경망 기반 분류기와도 결합할 수 있다.

회귀 문제의 예로는 레이더 센서와 카메라 센서를 융합해 목표물까지의 거리를 추정하는 작업이 있고, 분류 문제의 예로는 센서 데이터를 통해 “고장 상태인가/아닌가”를 판단하는 상황이 있을 수 있다. 둘 모두에서 확률과 통계는 “분류 오류 확률” 혹은 “추정 오차 공분산” 등의 형태로 측정치를 제공한다.

#### 센서 네트워크에서의 분산 추정

센서가 공간적으로 분산되어 있을 때, 각 센서가 지역적으로 데이터를 처리한 뒤, 네트워크를 통해 정보를 교환하며 전역적 추정을 수행하는 분산 추정(distributed estimation) 기법이 중요해진다. 각 노드가 로컬 추정값과 공분산을 교환하는 ‘분산 칼만 필터’ 류의 알고리즘, 혹은 베이즈적 합의를 통한 업데이트 방안 등이 연구되어 왔다.

이 때 확률론적 개념은 네트워크 노드들이 서로 다른 사전(prior) 혹은 관측데이터를 가질 때 어떻게 결합해야 최적(혹은 근사적 최적) 추정값이 나오는지, 통신 제약하에서 정보 손실을 최소화하려면 어떻게 해야 하는지 등을 결정하는 이론적 기반이 된다.

#### 확률 모델 검증과 피팅

센서의 노이즈 특성, 오프셋(바이어스), 드리프트(drift) 등을 나타내는 모델을 실제 데이터로부터 구축할 때, 특정 분포(정규, 라플라스, 혹은 카이제곱, 감마 분포 등)가 적절한지 검증해야 한다. 카이제곱 적합도 검정, 콜모고로프-스미르노프 검정(KS test), Anderson-Darling 검정 등이 대표적이다.

예를 들어, 센서 데이터를 히스토그램으로 그려서 정규분포를 눈으로 비교한 뒤, 추가로 KS 검정을 통해 귀무가설 “정규분포로부터의 표본이다”가 기각되지 않으면 실무적으로 가우시안 가정을 받아들일 수 있다. 반대로 잔차(residual)에 대한 검정 결과가 편차를 보이면, 혼합분포나 다른 형태를 고려해야 한다.

#### 작은 Python 예시: KS 검정

로우 센서 데이터가 정규분포를 따르는지 콜모고로프-스미르노프 검정을 수행하는 간단한 예시를 들어보면 다음과 같다.

```python
import numpy as np
from scipy.stats import kstest, norm

np.random.seed(0)
data = np.random.normal(loc=5.0, scale=2.0, size=1000)

# 귀무가설: data가 평균 5, 표준편차 2 인 정규분포로부터 생성되었다.
# 검정통계량과 p값을 반환
statistic, p_value = kstest(data, 'norm', args=(5, 2))

print("K-S statistic:", statistic)
print("p-value:", p_value)
```

p-value가 충분히 크면 정규분포 귀무가설을 기각하기 어렵다고 판단해, 이 데이터가 (평균 5, 표준편차 2) 정규분포와 부합한다는 결론을 임시로 내린다. 센서 데이터가 더 복잡한 분포를 가질 수도 있으므로, 다른 적합도 검정이나 시각화도 함께 수행하면 좋다.

#### 부트스트랩(Bootstrap) 기법

센서 데이터를 얻기 어려운 환경이거나, 정확한 확률분포를 모르는 상황에서 추정량의 분포 특성을 분석하고자 할 때 부트스트랩 기법이 유용하다. 원 표본(센서 데이터)으로부터 중복을 허용하여 랜덤 표본을 반복적으로 추출(리샘플링)함으로써 추정량의 분산, 신뢰구간 등을 추정한다.

예컨대 원 데이터셋이 ${z\_1, z\_2, \dots, z\_N}$이라고 할 때, 이 중 $N$개를 중복을 허용하여 임의추출한 부트스트랩 표본을 ${z\_1^*, z\_2^*, \dots, z\_N^\*}$라 하자. 이렇게 $B$번 반복하여 $\hat{\theta}\_b$ (추정 대상이 되는 통계량)를 구하면, 그 분산이나 신뢰구간을 통계적으로 유의미한 방식으로 근사할 수 있다.

센서 퓨전에서 분포 가정이 애매하거나 데이터 양이 한정된 경우, 부트스트랩 기법은 추정값에 대한 불확실성을 정량화하는 데 도움이 된다.

#### 백분위수와 분위수 기반 추정

센서의 측정 분포가 한쪽으로 치우쳐 있거나, 이상치(outlier)가 많아 평균이나 분산으로 대표값을 삼기 어려울 때, 분위수(quantile)를 활용하는 통계적 방법도 고려할 수 있다. 예를 들어 중앙값은 50% 분위수에 해당하고, 사분위수 범위(IQR)는 25%, 75% 분위수를 사용한다.

센서 퓨전에서는 간혹 평균치 기반 추정이 오류에 취약할 때, 중앙값 기반의 추정(예: RANSAC, 혹은 메디안 필터) 등을 사용하기도 한다. 이는 강건(robust) 측면에서 의의가 있다.

#### 융합 알고리즘의 수렴성과 안정성

센서 퓨전 알고리즘은 반복적으로 갱신되거나 재귀적으로 동작할 때가 많다. 예컨대 칼만 필터는 매 시점 측정값이 들어올 때마다 예측-갱신 단계를 거치고, 입자 필터는 재샘플링(resampling) 과정을 반복 수행한다. 이 과정에서 필터가 발산하지 않고, 어떤 안정적인 추정 궤도에 도달하려면 여러 통계적 조건이 맞아야 한다.

가장 간단한 선형 가우시안 칼만 필터의 경우,

$$
\begin{align} \mathbf{x}\_{k+1} &= \mathbf{F},\mathbf{x}\_k + \mathbf{w}\_k,\ \mathbf{z}\_k &= \mathbf{H},\mathbf{x}\_k + \mathbf{v}\_k, \end{align}
$$

에서 $\mathbf{w}\_k, \mathbf{v}\_k$가 각각 공분산 $\mathbf{Q}$, $\mathbf{R}$를 갖는 백색 잡음(독립 가우시안)이라면 필터 이득의 수렴성과 공분산 행렬의 안정성이 정리돼 있다.

그러나 비선형 시스템, 측정 잡음의 비가우시안성, 시변(time-varying) 특성 등에서는 수렴 증명이 어려워진다. 이런 상황에서 몬테카를로 시뮬레이션으로 경험적 안정성을 점검하거나, 확률적 수렴 이론(예: Martingale, Lyapunov 안정성 기법 등)을 적용하기도 한다.

#### 샘플링 복잡도와 입자 필터

입자 필터(Particle Filter) 같은 비선형 베이즈 필터는 확률분포의 직접적 해석이 어려울 때, 유한 개의 샘플(입자)로 분포를 근사하여 추정한다.

$$
\begin{align} p(\mathbf{x}*k \mid \mathbf{z}*{1:k}) \approx \sum\_{i=1}^{N\_p} w\_k^{(i)} ,\delta(\mathbf{x}\_k - \mathbf{x}\_k^{(i)}), \end{align}
$$

여기서 $\mathbf{x}\_k^{(i)}$는 $i$번째 입자의 상태, $w\_k^{(i)}$는 가중치, $\delta(\cdot)$는 디랙 델타함수, $N\_p$는 입자 수다. 입자 필터는 시간순으로 재귀 업데이트되는 형태를 가지며, 다음 과정을 반복한다.

* 예측(prediction): 상태진화모델을 통해 이전 입자들을 샘플링
* 업데이트(update): 측정모델에 따라 입자 가중치를 재계산
* 재샘플링(resampling): 효과적 입자 수가 작아지지 않도록, 높은 가중치 입자를 확률적으로 중복 선택

입자 필터는 고차원 문제에서 샘플 수가 기하급수적으로 필요해질 수 있다는 단점(차원의 저주)을 가진다. 분산 최적화(예: 입자유지 기법, 초입자(super-particle) 개념, 병렬화)와 함께, 시스템 물리모델을 잘 활용해 상태공간 차원을 줄이는 전략이 자주 쓰인다.

#### 랜덤 행렬 이론과 대규모 센서

대규모 센서 배열(antenna array, 마이크로폰 배열, 이미지 센서의 픽셀 대량 등)에서는 측정 행렬이 거대해지고, 그 통계적 성질을 해석하기 위해 랜덤 행렬 이론(Random Matrix Theory)이 활용되는 경우가 있다. 분산행렬의 스펙트럼 특성, 샘플 공분산 행렬이 큰 차원에서 수렴하는 특징 등을 파악하면, 노이즈 억제나 신호대잡음비(SNR) 개선 기법 설계에 도움이 된다.

예를 들어 대규모 MIMO(massive MIMO) 통신에서 안테나가 수십, 수백 개 이상이 될 때 채널 추정 오차 행렬이 고차원으로 확장되며, 이를 처리하기 위한 불필요한 연산을 줄이거나 근사 해석을 제공하는 방법론에 랜덤 행렬 이론이 적용된다. 센서 퓨전에서도 유사한 문제 설정이 가능하다.

#### 그래프 모델과 Factor Graph

다수 센서가 동시에 여러 변수에 대해 상호 관련된 측정을 할 때, 그래프 이론에 기반한 확률 모델이 강력한 도구가 된다. 특히 Factor Graph 형태를 사용하면, 전체 확률분포를 국소적인 요인(factor)들의 곱으로 나타내고, 이를 로 관점에서 메시지 전달(message passing) 알고리즘으로 추정할 수 있다. 센서 노드(측정방정식)와 상태변수 노드를 이분그래프로 구성하면, loopy belief propagation이나 sum-product 알고리즘을 통해 근사 추정이 가능하다. 이는 SLAM(Simultaneous Localization And Mapping)이나 구조화된 센서 네트워크 등의 문제에서 활발히 응용된다.

#### 비선형 최적화와 확률적 그래디언

센서 퓨전은 종종 비선형·확률적 최적화 문제로 귀결된다. 예를 들어,

$$
\begin{align} \hat{\mathbf{x}} = \underset{\mathbf{x}}{\mathrm{arg,max}} \ p(\mathbf{x} \mid \mathbf{z}), \end{align}
$$

를 직접 풀기 위해서, 혹은 사후분포(Posterior) 함수를 로그변환한 목적함수를 최소화하는 등의 접근이 필요할 때, 확률적 그래디언(Stochastic Gradient) 계열의 알고리즘을 적용할 수 있다. 이는 빅데이터나 실시간 스트리밍 센서 정보를 다룰 때 효율적이다.

센서 퓨전에서는 베이즈 Deep Learning 기법, 혹은 Variational Inference(변분추론) 같은 방법까지 활용하여 고차원 매개변수(신경망 가중치 등)를 최적화하기도 한다.

#### 추가 Python 예시: 간단한 입자 필터 (1차원)

로 직관적인 입자 필터 시뮬레이션을 보여줄 수 있다. 여기에선 상태 $\mathbf{x}\_k$를 단순히 1차원으로 두고, 관측도 1차원이다.

```python
import numpy as np
import matplotlib.pyplot as plt

# 시스템 파라미터
def state_transition(x):
    # 예: x_{k+1} = x_k + w_k, w_k ~ N(0, 0.5^2)
    return x + np.random.normal(0, 0.5)

def measurement_model(x):
    # 예: z_k = x_k + v_k, v_k ~ N(0, 1.0^2)
    return x + np.random.normal(0, 1.0)

# 초기 설정
true_state = 0.0
N_particles = 500
particles = np.random.normal(0, 2.0, size=N_particles)  # 초기 입자 분포
weights = np.ones(N_particles) / N_particles

estimated_states = []
true_states = []
measurements = []

for k in range(50):
    # 진짜 시스템 시뮬레이션
    true_state = state_transition(true_state)
    z = measurement_model(true_state)
    
    # 예측단계(transition)
    for i in range(N_particles):
        particles[i] = state_transition(particles[i])
        
    # 업데이트단계
    # 관측오차 분포: p(z|x) ~ N(x, 1.0^2)
    # 우도: w_i = exp( - (z - x_i)^2 / (2 * 1.0^2) )
    weights = np.exp(-0.5 * (z - particles)**2 / (1.0**2))
    weights += 1e-12  # underflow 방지
    weights /= np.sum(weights)
    
    # 재샘플링
    indices = np.random.choice(range(N_particles), size=N_particles, p=weights)
    particles = particles[indices]
    weights = np.ones(N_particles) / N_particles
    
    # 추정값 기록
    est_mean = np.mean(particles)
    estimated_states.append(est_mean)
    true_states.append(true_state)
    measurements.append(z)

# 결과 시각화
plt.figure(figsize=(10,6))
plt.plot(true_states, 'k-', label="True State")
plt.plot(estimated_states, 'r--', label="Estimated State (PF)")
plt.plot(measurements, 'gx:', label="Measurements")
plt.legend()
plt.xlabel("Time step")
plt.ylabel("State value")
plt.title("1D Particle Filter Simulation")
plt.show()
```

이 예시는 가장 기본적인 입자 필터 구조를 구현해, 단순 1차원 이동-관측 모델에서 상태를 추정한다. 실제 시스템 상태와 측정값, 그리고 입자 필터 추정값을 비교하면, 입자 필터가 노이즈 환경에서도 추정을 수행함을 확인할 수 있다.

#### 추가 논의

확률과 통계의 이론은 센서 퓨전을 이해하는 데 필수적이다. 여기서 다룬 내용들은 여러 센서 퓨전 알고리즘(특히 베이즈 필터 계열)에 직결된다. 또한 실제로 적용하려면:

* 센서 노이즈 모델 적합도 검정
* 분산 추정 기법(분산 칼만 필터, 분산 입자 필터)
* 실험계획법(DoE)
* 강건화(Robustification) 전략 등이 함께 고려되어야 한다.

#### 베이즈 필터의 일반적 형태

베이즈 필터(Bayesian Filter)는 동적인 확률 시스템에서 상태추정을 수행하기 위한 가장 일반적인 틀이다. 센서 퓨전의 많은 알고리즘(칼만 필터, 입자 필터, 가우시안 서치 필터, 가우시안 서킷 필터 등)이 실제로는 베이즈 필터의 특정 구현이나 근사이다.

시간 스텝을 $k$라고 하고, 상태 벡터를 $\mathbf{x}\_k$, 센서 측정값(관측)을 $\mathbf{z}\_k$라고 하자. 초기 분포 $p(\mathbf{x}\_0)$가 주어졌다고 하면, $\mathbf{z}\_1, \dots, \mathbf{z}\_k$가 순차적으로 들어올 때, 사후분포 $p(\mathbf{x}*k \mid \mathbf{z}*{1:k})$를 재귀적으로 업데이트한다. 이때 베이즈 필터는 다음 단계로 구성된다.

예측 단계:

기존 사후분포 $p(\mathbf{x}*{k-1}\mid \mathbf{z}*{1:k-1})$가 있다면, 시스템 동역학(상태전이) 모델 $p(\mathbf{x}*k \mid \mathbf{x}*{k-1})$를 통해

$$
\begin{align} p(\mathbf{x}*k \mid \mathbf{z}*{1:k-1}) = \int p(\mathbf{x}*k \mid \mathbf{x}*{k-1}),p(\mathbf{x}*{k-1} \mid \mathbf{z}*{1:k-1}),d\mathbf{x}\_{k-1}. \end{align}
$$

업데이트 단계:

새로운 관측 $\mathbf{z}\_k$가 들어오면 측정 모델 $p(\mathbf{z}\_k \mid \mathbf{x}\_k)$를 이용해 사후분포를 다음과 같이 갱신한다.

$$
\begin{align} p(\mathbf{x}*k \mid \mathbf{z}*{1:k}) = \frac{p(\mathbf{z}\_k \mid \mathbf{x}\_k), p(\mathbf{x}*k \mid \mathbf{z}*{1:k-1})}{p(\mathbf{z}*k \mid \mathbf{z}*{1:k-1})}. \end{align}
$$

분모 $p(\mathbf{z}*k \mid \mathbf{z}*{1:k-1})$는 정규화 상수로,

$$
\begin{align} p(\mathbf{z}*k \mid \mathbf{z}*{1:k-1}) = \int p(\mathbf{z}\_k \mid \mathbf{x}\_k),p(\mathbf{x}*k \mid \mathbf{z}*{1:k-1}) ,d\mathbf{x}\_k. \end{align}
$$

이 일반 공식이 선형·가우시안 가정하에서는 칼만 필터로 귀결되고, 비선형 시스템에서는 확장 칼만 필터(EKF), 언센티드 칼만 필터(UKF), 혹은 입자 필터(PF)로 확장된다.

#### 확장 칼만 필터(EKF)

상태전이와 측정 모델이 비선형 함수

$$
\begin{align} \mathbf{x}*k &= f(\mathbf{x}*{k-1}) + \mathbf{w}\_{k-1}, \ \mathbf{z}\_k &= h(\mathbf{x}\_k) + \mathbf{v}\_k \end{align}
$$

이더라도, 잡음 $\mathbf{w}\_k, \mathbf{v}\_k$가 가우시안이라는 전제하에, 1차 테일러 근사로 양쪽을 선형화하여 칼만 필터의 형태를 유지한다. 이 선형화 과정에서 야코비(Jacobian) 행렬을 이용한다.

예측 단계에서

$$
\begin{align} \hat{\mathbf{x}}*{k\mid k-1} &\approx f(\hat{\mathbf{x}}*{k-1\mid k-1}), \ \mathbf{P}*{k\mid k-1} &\approx \mathbf{F}*{k-1},\mathbf{P}*{k-1\mid k-1},\mathbf{F}*{k-1}^\top + \mathbf{Q}\_{k-1}, \end{align}
$$

$\mathbf{F}*{k-1}$는 $\frac{\partial f}{\partial \mathbf{x}}\bigr|*{\hat{\mathbf{x}}\_{k-1\mid k-1}}$.

업데이트 단계에서

$$
\begin{align} \mathbf{K}*k &= \mathbf{P}*{k\mid k-1},\mathbf{H}\_k^\top\Bigl(\mathbf{H}*k,\mathbf{P}*{k\mid k-1},\mathbf{H}*k^\top + \mathbf{R}*k\Bigr)^{-1}, \ \hat{\mathbf{x}}*{k\mid k} &= \hat{\mathbf{x}}*{k\mid k-1} + \mathbf{K}*k\Bigl(\mathbf{z}*k - h(\hat{\mathbf{x}}*{k\mid k-1})\Bigr), \ \mathbf{P}*{k\mid k} &= \bigl(\mathbf{I} - \mathbf{K}\_k \mathbf{H}*k\bigr),\mathbf{P}*{k\mid k-1}, \end{align}
$$

$$
\mathbf{H}*k = \bigl.\frac{\partial h}{\partial \mathbf{x}}\bigr|*{\hat{\mathbf{x}}\_{k\mid k-1}}.
$$

이처럼 EKF는 비선형성을 ‘국소 선형화’해서 처리한다. 큰 비선형 구간에서 성능이 떨어지지만, 계산량이 비교적 적고 구현이 간단하기에 산업 분야에서 자주 활용된다.

#### 언센티드 칼만 필터(UKF)와 시그마 포인트

UKF는 EKF의 야코비 대신, 시그마 포인트(sigma points)라 불리는 제한된 개수의 대표 표본을 공분산 행렬에 근거하여 ‘뽑은 뒤’, 이들을 비선형 함수에 통과시켜 평균과 공분산을 근사하는 방식이다.

시그마 포인트 생성에서, 상태 차원이 nn, 공분산이 $\mathbf{P}$라 하면 다음과 같은 $(2n+1)$개 포인트

$$
\begin{align} \mathbf{\chi}\_0 &= \hat{\mathbf{x}}, \ \mathbf{\chi}\_i &= \hat{\mathbf{x}} \pm \sqrt{(n+\lambda),\mathbf{P}},  \quad (i = 1, \dots, n), \end{align}
$$

등을 사용한다. λ\lambda는 가중치 파라미터. 이 시그마 포인트 각각을 비선형 함수 f(⋅)f(\cdot)에 통과시켜, 그 결과로부터 새로운 평균과 공분산을 합산·가중하여 얻는다.

이 방식은 2차 근사 수준의 정확도를 제공하므로, EKF보다 강건하게 비선형성에 대응한다는 장점이 있고, 입자 필터만큼 많은 샘플이 필요하지 않아 계산 부담도 상대적으로 낮은 편이다.

#### 정보 필터와 정보 행렬

칼만 필터에서 상태 공분산 행렬 $\mathbf{P}$ 대신 그 역행렬 $\mathbf{P}^{-1}$을 직접 다루는 기법을 정보 필터(Information Filter) 혹은 칼만 정보 필터라고 한다.

정보 행렬 $\mathbf{\Lambda} = \mathbf{P}^{-1}$과 정보 벡터 $\boldsymbol{\eta} = \mathbf{\Lambda},\hat{\mathbf{x}}$를 사용하면, 여러 개의 상태·측정이 합쳐질 때 행렬 합산으로 간단히 처리되므로, 분산 센서 네트워크나 고차원 문제에서 계산상 유리한 부분이 있다.

다만, $\mathbf{P}$를 직접 구하려면 $\mathbf{\Lambda}$를 역행렬화해야 한다. 그래프 기반 센서 퓨전에서도 정보 행렬을 활용하는 경우가 많다(예: SLAM에서 간선 가중치가 정보 행렬로 주어짐).

#### 가우시안 과정(Gaussian Process) 회귀

센서가 공간적으로 분포된 양을 측정할 때, 공간적 상관관계를 부드러운 함수 형태로 모델링하기 위해 가우시안 과정(GP)을 쓸 수 있다.

가우시안 과정은 임의의 점 집합에서 정의된 함수값 $\mathbf{f} = (f(\mathbf{x}\_1), \dots, f(\mathbf{x}\_n))^\top$이 다변량 정규분포를 이룬다는 가정이다. 공분산 함수(커널 함수) $\kappa(\mathbf{x}, \mathbf{x}')$에 의해 함수의 매끄러움이나 상관관계가 결정된다. 새로운 점에서의 함수값 추정도 베이즈 방정식을 통해 구할 수 있다.

센서 퓨전 예시로, 드론이나 로봇이 지역적 온도·습도·오염도 센서들을 이동하면서 측정하는 데이터를 기반으로, 전체 지역을 연속함수로 추정하고 싶다면 GP 회귀를 사용할 수 있다. 이때 함수값의 불확실도(분산)도 함께 추정되므로, 측정 지점(샘플링 전략)을 어떻게 결정하면 오차를 줄일 수 있는지도 확률적 설계가 가능해진다.

#### 베이즈 통계와 계층 모델

센서가 측정하는 파라미터가 여러 층위(계층 구조)에서 영향을 받는 상황에서는 계층적 베이즈 모델(Hierarchical Bayesian Model)이 유용하다. 예를 들어 어떤 센서가 여러 환경 조건(온도, 조도, 전압 레벨)에 따라 측정 잡음 분포가 달라진다면, 이 모든 조건에 대한 하이퍼파라미터를 상위 계층에서 추정하고, 센서마다 개별 파라미터를 하위 계층에서 추정하는 식이다.

$\boldsymbol{\alpha}$가 하이퍼파라미터, $\boldsymbol{\theta}\_i$가 센서 $i$의 개별 파라미터일 때,

$$
\begin{align} p(\boldsymbol{\theta}\_1, \dots, \boldsymbol{\theta}*N \mid \boldsymbol{\alpha})  = \prod*{i=1}^N p(\boldsymbol{\theta}\_i \mid \boldsymbol{\alpha}), \quad p(\boldsymbol{\alpha}) \ \text{(사전분포)}. \end{align}
$$

센서 ii가 생산하는 관측 zi\mathbf{z}\_i는

$$
\begin{align} p(\mathbf{z}\_i \mid \boldsymbol{\theta}\_i). \end{align}
$$

이렇게 계층 구조를 설정하면, 관측이 부족한 센서(혹은 환경 조건)에 대해서도 상위 계층에서 학습된 사전정보를 적용해 파라미터 추정의 정확도를 높일 수 있다. 계층 베이즈 모델은 MCMC, 변분추론 등으로 추정한다.

#### 변분추론(Variational Inference)과 딥러닝

고차원 확률분포를 직접 샘플링하기 어려운 경우, 복잡한 포스터리어 분포를 간단한 분포(예: 가우시안, 혼합가우시안)로 근사하고, 그 근사 분포와 실제 사후분포 사이의 Kullback-Leibler divergence를 최소화하는 방식으로 추정하는 것이 변분추론(VI)이다.

딥러닝과 결합하면 센서 퓨전 데이터를 통해 NN 파라미터의 사후분포를 근사적으로 학습하는 Bayesian Deep Learning으로 발전할 수 있다. 예컨대 센서 데이터가 방대하고 측정 잡음이 복잡한 패턴을 보일 때, 신경망 모델을 학습하면서도 추정 불확실도를 베이즈적으로 추정하려는 시도다.

#### 고차원 특징 추출과 차원 축소

센서가 다수의 형태(영상, 음향, Lidar, IMU, GPS 등)로 복잡한 정보를 제공할 때, 확률모델의 차원이 매우 커진다. 이때 차원 축소(dimensionality reduction) 기법을 적절히 적용하면 확률적 추정의 복잡도를 줄이거나, 핵심 특징을 추출해 퓨전 효율을 높일 수 있다.

고전적 차원 축소 방법(예: PCA, LDA, MDS)부터, 신경망 기반의 자동인코더(autoencoder) 계열까지 다양하다. 실제 센서 퓨전 시스템은 전처리(피처 추출) 단계를 두어서, 고차원 정보를 저차원 벡터로 요약한 뒤 그 벡터를 칼만 필터 혹은 다른 베이즈 필터에 투입하기도 한다.

#### 센서 간 동기화 이슈

확률과 통계의 기초에서 시계열 분석을 언급했듯이, 센서 퓨전에서는 시간 동기화(time synchronization)가 매우 중요한 문제다. 센서마다 샘플 타이밍이 다를 경우, 동일 시점의 정보를 정확히 매칭하지 못하면 필연적으로 오차가 발생하고, 그 오차가 확률적으로 축적된다.

이를 해결하기 위해서는 센서 타임스탬프의 정확한 추정(지터, 드리프트, 지연)을 확률 모델로 설정할 수 있다. 일부 응용에서 자기상관이나 교차상관을 이용해 센서간 시차(time delay)를 추정하기도 한다. 결국 센서 타이밍을 교정한 뒤에야, “동일 시점”의 상태를 의미 있게 추정할 수 있다.

#### 시뮬레이션과 실제 데이터의 갭

결국 어떤 센서 퓨전 알고리즘을 확률적 관점에서 잘 설계했다 해도, 실제 환경에 도입하면 다음과 같은 문제가 발생할 수 있다.

* 모델 불일치(model mismatch): 실제 노이즈가 가우시안이 아니다.
* 시간/공간적 상관관계가 모형보다 복잡하다.
* 이상 동작(outlier, fault)이 빈번한 상황이 발생한다.

이를 완화하기 위해 시뮬레이션에서 다양한 시나리오(잡음, 장애, 센서 고장)를 모사하고, 모형의 민감도를 분석한 뒤, 실제 측정 데이터를 통해 반복 교정(모델 파라미터 재추정, 강건화) 과정을 거쳐야 한다. 이는 센서 퓨전에서 확률·통계 모델이 단순 이론에 그치지 않고, 실제 데이터 중심으로 계속 학습·보정되는 ‘데이터 주도(data-driven)’ 접근의 중요성을 보여준다.

#### 정리

지금까지 센서 퓨전에 기반이 되는 확률·통계 이론을 폭넓게 살펴보았다. 이 기초를 토대로, 구체적인 센서 퓨전 알고리즘(선형·비선형 칼만 필터, 입자 필터, 그래프 기반 최적화 등)의 수학적 구조와 구현 방법을 이해할 수 있다.

#### 기타 분포 계열과 강건 분포

센서로부터의 노이즈나 측정오차가 가우시안 분포를 따르지 않고, 꼬리가 두꺼운(heavy-tailed) 형태를 보이는 경우도 많다. 예를 들어 진동 충격이나 간헐적 스파이크 노이즈가 존재하면, 평균이나 분산이 잘 정의되지 않거나, 이상치에 매우 민감해질 수 있다. 이를 위한 강건 분포로 Student-t 분포, Cauchy 분포 등이 거론된다.

Student-t 분포(자유도 ν\nu)를 예로 들면, 밀도함수는

$$
\begin{align} p(\mathbf{x}) \propto \bigl(1 + \tfrac{1}{\nu}(\mathbf{x}-\mathbf{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu})\bigr)^{-\tfrac{\nu + n}{2}}, \end{align}
$$

* ($\mathbf{x}$가 $n$차원일 때)

형태로 가우시안보다 꼬리가 두꺼워, 극단값 발생에 비교적 덜 민감하게 영향을 받는다.

센서 퓨전에서 Student-t를 사용하면, 칼만 필터의 가우시안 가정 대신 t-분포 기반 필터를 적용하기도 한다(‘Student-t 칼만 필터’ 등). 이는 이상치(outlier)에 대해 더 강건한 추정을 가능하게 해준다.

#### 타원형 분포(Elliptical Distribution)

가우시안 분포는 타원형 분포의 한 예이다. 타원형 분포(Elliptical distribution)는 특정 밀도 함수를 명시하지 않고도, 등밀도 곡선이 공분산 행렬에 의해 결정되는 ‘타원’ 모양이 된다고 가정하는 일반적 틀이다.

핵심 정의는, $\mathbf{x} - \boldsymbol{\mu}$가 어떤 대칭 스칼라 변수를 거쳐 $\mathbf{\Sigma}^{\tfrac12}$와 결합된 형태로 나타난다는 것. 가우시안, Student-t, Cauchy, Laplace 등 다양한 분포가 여기에 속한다.

센서 퓨전에서 여러 분포적 가정이 모호할 때, ‘타원형 분포 계열’로 넓게 두고, 실제로는 공분산 행렬 $\mathbf{\Sigma}$와 위치 $\boldsymbol{\mu}$만 강조하며 나머지 꼬리 부분의 형태를 시험적으로 조정하기도 한다.

#### 신뢰 타원(Confidence Ellipsoid)

센서에서 다차원 측정 오차를 표시할 때, 예를 들어 2차원 평면 상에서 ‘오차 타원(error ellipse)’을 사용하거나, 3차원일 때는 ‘오차 타원체(error ellipsoid)’를 사용한다. 이는 다변량 가우시안(또는 타원형 분포)에서 확률질량이 일정 비율(예: 95% 혹은 99%) 이하에 포함되는 영역을 나타낸다.

다변량 정규분포에서 평균 $\boldsymbol{\mu}$, 공분산 행렬 $\mathbf{\Sigma}$가 주어졌을 때,

$$
\begin{align} (\mathbf{x}-\boldsymbol{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu}) = \chi^2\_{\alpha}(n) \end{align}
$$

인 집합이 $\alpha%$ 신뢰구간에 해당하며, 이는 $n$차원 $\chi^2$ 분포의 임계값으로 결정된다. 센서 퓨전 결과(위치 추정 등)를 시각화하거나, ‘현재 추정치가 이 타원 범위 내에 있을 확률’을 표기할 때 자주 활용된다.

#### 베이지안 순차 실험과 적응형 센서 플래닝

동적 베이즈 추론과 실험계획(DoE)이 합쳐지면, 센서를 어디에 배치하거나 어느 시점에 측정해야 할지 ‘순차적으로 결정’하는 방법론이 만들어진다. 예를 들어, 로봇이 센서 측정 정보로 주변 환경을 학습하면서, ‘가장 불확실성이 큰 지점을 우선 측정하자’는 의사결정을 할 수 있다. 이는 액티브 센싱(Active Sensing) 또는 적응형 센서 플래닝(Adaptive Sensor Planning)이라 부르며, 확률분포의 불확실성을 줄이는 방향으로 탐색한다.

측정 위치·방향·주파수를 순차적으로 최적화하면, 보다 적은 측정 횟수로 정확한 환경·상태 정보를 획득할 수 있으나, 전체적인 최적화 문제는 복잡도가 커질 수 있다. 몬테카를로 시뮬레이션, 미분 가능한 상호정보량 근사, 혹은 강화학습(RL) 기법과 결합하기도 한다.

#### 신뢰도·가용성 분석과 데이터 융합

센서 노드가 여러 대일 때, 일부 노드는 품질이 낮거나 고장을 일으킬 수 있다. 센서 퓨전은 정상 센서들끼리 정보를 융합하더라도, 고장 센서의 잘못된 측정값이 결합되면 전체 추정이 크게 훼손될 수 있다. 이를 방지하기 위해 신뢰도나 가용성(availability)을 동적으로 평가하고, 낮은 품질의 센서 데이터를 가중치에서 제외하거나 강건 추정 알고리즘을 적용한다.

이와 더불어 데이터 융합 단계에서 소프트(information-level) 혹은 하드(decision-level) 결합 방식 중 무엇을 쓸지도 통계적 근거로 결정된다. 하드 결합은 각 센서가 독립적인 의사결정을 내리고, 그 결과(이산 클래스)를 결합하는 것이고, 소프트 결합은 각 센서의 확률(혹은 점수) 정보를 서로 합성하는 방법이다. 후자가 일반적으로 더 풍부한 정보를 살릴 수 있다.

#### 배치(Batch) 방식 vs. 온라인(Online) 방식

센서 퓨전은 크게 배치 추정(batch estimation)과 온라인 추정(online/recursive estimation)으로 나뉜다.

* 배치 추정: 일정 구간의 모든 센서 데이터를 모은 뒤, 한꺼번에 최적화하거나 사후분포를 추정한다. 예: Offline SLAM, 전체 로그 데이터를 모아 역추적
* 온라인 추정: 시간 흐름에 맞춰 재귀적으로 추정값을 갱신한다. 예: 칼만 필터류, 실시간 센서 퓨전

배치 방식은 계산 비용이 커지지만, 전구간 데이터를 활용하므로 전체적으로 더 정확한 해를 구하기 쉽다. 온라인 방식은 실시간 처리에 적합하며, 메모리나 계산 자원이 제한된 환경에서도 동작한다. 센서 퓨전 현장 적용에서는 온라인 방식을 선호하지만, 후처리에선 배치 방식으로 보다 정교한 해를 보정·분석한다.

#### 미지 파라미터 추정과 동시 추정(Joint Estimation)

센서 모델에서 노이즈 공분산 $\mathbf{R}$, 바이어스 파라미터 $\mathbf{b}$ 등을 모르는 상태라면, 상태 $\mathbf{x}$와 함께 이 파라미터들도 동시에 추정해야 할 수 있다. 이런 문제를 Joint State-Parameter Estimation이라고 한다. 베이즈 관점에서

$$
\begin{align} p(\mathbf{x}, \boldsymbol{\theta} \mid \mathbf{z}\_{1:k}), \end{align}
$$

를 업데이트해야 하므로, 차원이 더 커진다. EKF나 UKF에 이를 포함해 확장하여, $\[\mathbf{x}; \boldsymbol{\theta}]$를 하나의 상태벡터로 취급하기도 한다. 또는 EM 알고리즘(‘파라미터가 $\boldsymbol{\theta}$, 상태가 은닉변수 $\mathbf{x}’$)을 적용해 반복적으로 최대우도/사후 추정을 수행할 수도 있다.

이런 기법은 센서 캘리브레이션(예: IMU 바이어스, 카메라 렌즈왜곡 파라미터)을 온라인으로 동시에 추정할 때 자주 활용된다.

#### 추가 Octave 예시: 2D 센서 오차 타원 시각화

로, 2차원 가우시안 분포(평균, 공분산)를 가정했을 때 95% 오차 타원을 그려볼 수 있는 간단한 예시를 보이겠다.

```octave
% 2D 가우시안 분포 파라미터
mu = [2; 3];
Sigma = [2 1; 1 3];  % 대칭, 양의정
alpha = 0.95;  % 95% 신뢰구간

% Sigma^-1 계산
Lambda = inv(Sigma);

% 자유도 2의 chi-square 분포에서 alpha=0.95 일 때 임계값
chi2_val = chi2inv(alpha, 2);

% 오차 타원 좌표 생성
theta = linspace(0, 2*pi, 200);
circle_points = [cos(theta); sin(theta)];  % 단위 원
% (x - mu)' * Lambda * (x - mu) = chi2_val 형태 -> x = mu + A * circle_points
% A*A' = chi2_val * inv(Lambda)
A = sqrtm(chi2_val * inv(Lambda));
ellipse_points = A*circle_points + mu;

% 시뮬레이션 표본
N = 1000;
X = mvnrnd(mu, Sigma, N);  % 2D 정규 표본

figure;
hold on;
scatter(X(:,1), X(:,2), 10, 'b', 'filled', 'MarkerFaceAlpha',0.3);
plot(ellipse_points(1,:), ellipse_points(2,:), 'r-', 'LineWidth',2);
plot(mu(1), mu(2), 'kx', 'MarkerSize',10, 'LineWidth',2);
title('2D Gaussian Samples & 95% Error Ellipse');
axis equal;
hold off;
```

이 코드는 `chi2inv`(chi-square inverse CDF)를 사용해 2차원에서 신뢰구간에 대응하는 임계값을 구하고, 그에 따른 타원 $(\mathbf{x}-\boldsymbol{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu}) = \chi^2\_{\alpha}(2)$을 그린다. 여기서 `axis equal`을 통해 축 스케일을 동일하게 설정하면 정확히 타원 형태가 시각화된다.

#### 베이즈적 의사결정 이론과 비용함수

센서 퓨전의 목표가 단순 추정(estimation)에 그치지 않고, 특정 행동(action)이나 제어 신호를 결정하는 문제로 확장되면, 베이즈 의사결정 이론(Bayesian Decision Theory)이 유용하다. 예상되는 손실(비용 함수)을 정의하고, 그 비용의 기대값을 최소화하도록 의사결정을 최적화할 수 있다.

오류계수(confusion matrix)나 위험함수(risk function)가 주어질 때, 사후확률 $p(\mathbf{x}\mid\mathbf{z})$를 이용해 기대비용을 계산한다. 예컨대 분류 문제에서는 분류 오분류 비용을 최소화하고, 추정 문제에서는 ℓ2\ell\_2 오차나 ℓ1\ell\_1 오차 등 다양한 비용 함수를 최소화하도록 설계할 수 있다. 이는 센서 퓨전 결과를 ‘어떻게 활용할지’와 직결된다.

#### 최소제곱과 최소절댓값

센서 데이터의 잔차(residual) $r\_i = z\_i - \hat{z}\_i$에 대해, 비용함수로 제곱오차 $r\_i^2$를 쓰는 것은 가우시안 분포 가정에서 MLE와 동일하며, 이는 칼만 필터나 대부분의 전통적 퓨전 기법의 기반이다. 하지만 절댓값 $|r\_i|$을 비용함수로 사용하면, 평균보다 중앙값이 최적해가 되는 통계적 특성이 나타난다.

이러한 최소절댓값(minimum absolute deviation) 접근은 이상치(outlier)에 강건하고, 라플라스 분포(또는 L1-정규화)와 관련이 깊다. 센서 퓨전에서 일부 측정치가 크게 튀는 상황이 잦다면, 최소제곱보다 최소절댓값 오차나 허버(Huber) 손실 등을 적용해 강건성을 높일 수 있다.

#### 정보 필터 관점에서의 SLAM

SLAM(Simultaneous Localization and Mapping)은 자율주행 로봇이 자신의 위치(로컬라이제이션)와 환경 지도(맵)를 동시에 추정하는 문제다. 이는 전형적인 센서 퓨전 사례로, 다양한 센서(LiDAR, 카메라, IMU, GPS, 초음파 등)를 종합한다.

그래프 기반 SLAM은 상태(로봇 위치와 지도 특징)를 그래프의 노드로, 센서 측정 제약(에지)을 정보 행렬로 표현한다. 이러한 그래프를 최적화(주로 비선형 최소제곱)하는 방식은 대규모 문제에도 확장 가능하다. 정보 행렬을 큰 희소(sparse) 행렬로 취급함으로써, 효율적인 수치 해법을 찾는 것이 핵심이다. 이는 센서 퓨전에서의 확률통계 이론이 대규모 비선형 최적화로 이어지는 대표적 사례다.

#### 점근적 분석: Law of Large Numbers

자유로운 환경에서 센서를 계속 운용할 때, 관측치가 무한히 많이 수집된다고 가정하면, 관측 데이터의 평균이 참값에 수렴한다는 대수의 법칙(Law of Large Numbers)을 적용할 수 있다. 이는 센서 노이즈가 독립이고 분산이 유한하다는 조건 하에서 성립한다.

이 이론적 근거 때문에, 센서 퓨전에서 ‘충분히 많은’ 측정값을 모으면 잡음 평균이 0에 수렴해 추정 정확도가 높아진다고 해석한다. 그러나 실제로는 시간·공간적 상관관계나 분포 변동이 있어 엄밀하지 않을 수 있다. 그럼에도 불구하고, 데이터가 풍부해질수록 추정 성능이 향상된다는 직관은 대수의 법칙에 기반을 둔다.

#### 순열 검정과 랜덤화 검정

센서 성능이나 퓨전 알고리즘 성능을 비교 평가할 때, 순열 검정(permutation test)이나 랜덤화 검정(randomization test)을 활용하여 통계적 유의성을 검증할 수 있다. 예컨대 새로운 퓨전 알고리즘 A와 기존 알고리즘 B의 추정 오차 차이 분포가 유의미하게 다른지, 무작위로 레이블을 뒤섞어가며 재계산하는 순열 검정으로 확인한다.

이는 데이터 분포를 직접 가정하지 않고, 관측된 표본으로부터 귀무가설(“둘의 성능은 차이가 없다”)을 검정하는 순수 통계 기법이다. 센서 퓨전 알고리즘 간 퍼포먼스를 ‘수치 비교’ 이상의 통계적 근거로 해석할 때 유용하다.

#### 교차 검증과 과적합

센서 퓨전 시스템을 설계할 때, 노이즈 모델 혹은 파라미터를 학습(추정)한 뒤, 실제 운용에서 에러가 급증하는 ‘과적합(overfitting)’ 문제가 생길 수 있다. 특히 ML/DL 방법을 적용할 때는 더욱 문제가 된다. 이를 방지하기 위해 교차 검증(cross-validation)이나 홀드아웃 검증(훈련 세트와 검증 세트 분리)을 수행한다.

센서 데이터를 여러 폴드(fold)로 나누어, 한 폴드를 검증용으로 남기고 나머지로 파라미터를 학습한 뒤, 검증 폴드에서 성능을 측정하는 절차를 순환 수행하면, 모델 복잡도와 파라미터 조정이 과적합을 야기하는지 점검할 수 있다.

#### 실험 예시: 강건 회귀와 이상치

로, 센서 데이터에 일부 이상치가 섞여 있을 때, 최소제곱 회귀와 최소절댓값 회귀의 차이를 간단히 시뮬레이션해볼 수 있다.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import HuberRegressor

np.random.seed(0)

N = 50
x = np.linspace(0, 10, N)
y_true = 2.0 * x + 1.0  # 참 선형관계

noise = np.random.normal(0, 1, N)
y_obs = y_true + noise

# 일부 극단치 추가
y_obs[45:] += 20.0  # 마지막 5개 포인트에 큰 오프셋

# 최소제곱 회귀
lr = LinearRegression()
lr.fit(x.reshape(-1,1), y_obs)
y_pred_lr = lr.predict(x.reshape(-1,1))

# 허버 회귀(강건 추정) -> 이상치에 둔감
hr = HuberRegressor(epsilon=1.35)
hr.fit(x.reshape(-1,1), y_obs)
y_pred_hr = hr.predict(x.reshape(-1,1))

plt.figure(figsize=(8,6))
plt.scatter(x, y_obs, color='blue', alpha=0.6, label='Observations (with outliers)')
plt.plot(x, y_true, 'k--', label='True line')
plt.plot(x, y_pred_lr, 'r-', label='Least Squares')
plt.plot(x, y_pred_hr, 'g-', label='Huber (Robust)')
plt.legend()
plt.title("Outlier Effect on Linear vs. Robust Regression")
plt.show()
```

이 코드는 이상치가 있는 데이터를 대상으로 최소제곱(LinearRegression)과 허버 손실(HuberRegressor)을 비교한다. 허버 손실은 작은 잔차에 대해서는 제곱오차처럼 동작하지만, 큰 잔차(이상치)에는 선형으로 처리하여 영향력을 제한한다. 결과적으로 이상치가 있을 때 강건 회귀의 기울기·절편 추정이 덜 뒤틀리는 모습을 확인할 수 있다.

#### 마지막 요약

지금까지 센서 퓨전에서 필요한 확률·통계 기초 지식을 폭넓게 살펴보았다. 확률론적 모델링, 베이즈 추론, 통계적 검정, 강건 방법, 시계열 모델, 분산 추정, 그래프 최적화 등 다양한 주제가 실제 센서 퓨전 구현과 이어진다. 이 배경은 후속 장에서 다룰 구체적 알고리즘(예: 칼만 필터, 입자 필터, SLAM, 머신러닝 기반 퓨전 등)의 이해를 위한 핵심 토대가 된다.

#### 추가 심화 연구 및 참고자료

센서 퓨전 과정에서 불확실성을 다루는 확률·통계 이론은 방대하고, 계속 발전 중이다. 베이즈 추론, 정보 이론, 강건 통계, 시계열 모델, 그래프 최적화 등 핵심적인 분야만 해도 전문 서적과 논문이 매우 많다. 특히 확장 칼만 필터나 입자 필터 같은 센서 퓨전 알고리즘에 적용할 때, 실제 환경의 특이사항(이상치, 모델 오류, 시변 분포)을 어떻게 포괄할지 끊임없이 논의된다.

고전 확률론 입문으로는 측도론적 정의를 다루는 전통 교재나, 엔지니어링 관점에서 직관적으로 접근한 확률·통계 교재가 모두 도움된다. 실제 센서 퓨전 분야에서는 첨단 논문과 학회 발표를 통해 새 알고리즘이 소개되므로, 관심 있는 항목에 대해 최신 연구 동향을 추적하는 것이 유익하다.

시뮬레이션 검증 또한 중요하다. 수학적으로는 근사나 가정에 의해 알고리즘이 유도되지만, 실제 센서 데이터에 적용했을 때 오차가 어떠한 패턴으로 나타나는지 면밀히 관찰해야 한다. 만약 가우시안 가정과 실측 데이터 분포가 크게 어긋난다면, 보다 강건하거나 일반화된 분포(혼합분포, heavy-tailed 분포 등)로 전환해볼 필요가 있다.

이상으로 센서 퓨전에서 확률과 통계의 기초를 심도 있게 살펴보았다. 다음 장에서는 이러한 이론적 토대를 활용해 구체적인 퓨전 알고리즘과 구현 사례를 다루게 된다.