# 확률분포의 결합과 분해

#### 확률공간과 무작위변수

확률분포의 결합과 분해를 논하기에 앞서 확률 이론의 기초를 간단히 살펴보는 것이 중요하다. 확률론은 일반적으로 측도론(measure theory)에 기반을 두고 전개된다. 확률공간은 표본공간 $\Omega$, 사건들의 집합 $\mathcal{F}$, 확률측도 $P$로 이루어진 삼중항 $(\Omega, \mathcal{F}, P)$로 정의된다. 표본공간 $\Omega$는 우리가 실험을 통해 얻을 수 있는 모든 가능한 결과들의 집합이고, $\mathcal{F}$는 이 표본공간의 부분집합 중에서 확률측도가 부여될 수 있는 사건들의 집합이다. 확률측도 $P$는 사건 $A \in \mathcal{F}$에 대하여 $P(A)$라는 값을 할당하는 함수로서, 공리적 조건을 만족한다.

이제 무작위변수(random variable)를 생각한다. 무작위변수는 확률공간에서 실제 수 체계(또는 일반화된 공간)로 가는 가측함수(measurable function)로 정의된다. 예를 들어 무작위변수 $\mathbf{X}$가 $\Omega$에서 $\mathbb{R}^n$으로 매핑된다고 할 때, 임의의 $\mathbf{x} \in \mathbb{R}^n$에 대해 ${\omega : \mathbf{X}(\omega) \in B}$가 사건의 집합 $\mathcal{F}$에 속하도록 정의된다면, $\mathbf{X}$는 가측함수가 된다. 이렇게 정의된 $\mathbf{X}$가 가지는 분포(distribution)는 곧 $\mathbf{X}$가 취할 수 있는 모든 값들에 대한 확률들을 요약한 것이며, 이를 확률밀도함수(PDF, Probability Density Function) 혹은 확률질량함수(PMF, Probability Mass Function) 등으로 나타낼 수 있다. 일반적으로 $\mathbf{X}$가 연속형이라면 PDF $p(\mathbf{x})$로, 이산형이라면 PMF $p(\mathbf{x})$로 표기한다.

#### 확률분포의 결합: 개념과 기본 원리

센서퓨전에서는 여러 센서에서 관측된 무작위변수를 동시에 고려해야 하므로, 각 변수들의 분포가 아닌 그들의 결합분포(joint distribution)가 핵심적인 역할을 하게 된다. 두 무작위변수 $\mathbf{X}$와 $\mathbf{Y}$의 결합분포는 $p(\mathbf{x}, \mathbf{y})$처럼 표기한다. 결합분포는 임의의 사건 ${\mathbf{X} \in A, \mathbf{Y} \in B}$가 발생할 확률을 포괄적으로 나타낸다.

결합분포는 두 변수의 상호 의존성을 담고 있다. 예를 들어 $\mathbf{X}$와 $\mathbf{Y}$가 서로 독립(independence)이라면 $p(\mathbf{x}, \mathbf{y}) = p(\mathbf{x}) , p(\mathbf{y})$라는 간단한 곱 형태를 취하지만, 일반적으로 센서들의 측정치가 어떤 방식으로든 상호 관련되어 있을 가능성이 크므로, 결합분포는 단순 곱 형태로 나타나지 않을 수 있다. 센서퓨전 과정에서 중요한 것은 바로 이 결합분포를 올바르게 추정하고, 필요한 경우에는 적절하게 조건부분포로 바꾸어 해석하거나, 특정 변수를 마진화(marginalization)하여 사용함으로써 센서 측정치 간의 상호관련성을 반영하는 것이다.

두 변수 $\mathbf{X} \in \mathbb{R}^n$와 $\mathbf{Y} \in \mathbb{R}^m$에 대한 결합분포가 $p(\mathbf{x}, \mathbf{y})$로 주어졌을 때, 이를 적분(또는 합)하여 한 변수를 제거하면 나머지 한 변수의 주변분포(marginal distribution)를 얻는다. 예를 들어 연속형일 경우

$$
\begin{align} p(\mathbf{x}) &= \int p(\mathbf{x}, \mathbf{y}) , d\mathbf{y}  \\
p(\mathbf{y}) &= \int p(\mathbf{x}, \mathbf{y}) , d\mathbf{x}. \end{align}
$$

와 같이 표현된다. 이런 연산 자체가 확률분포의 결합과 분해의 가장 기본적인 연산이며, 센서퓨전에서는 여러 센서에서 들어온 측정치들이 결합된 분포를 적절히 분해하거나, 혹은 부분적으로 결합하여 사용할 필요가 매우 잦다.

#### 조건부확률과 조건부분포

센서퓨전에서 가장 많이 활용되는 도구 중 하나는 조건부확률과 조건부분포이다. 임의의 결합분포 $p(\mathbf{x}, \mathbf{y})$가 주어졌을 때, 조건부분포 $p(\mathbf{x}|\mathbf{y})$와 $p(\mathbf{y}|\mathbf{x})$는 다음과 같이 정의된다:

$$
\begin{align} p(\mathbf{x} \mid \mathbf{y}) &= \frac{p(\mathbf{x}, \mathbf{y})}{p(\mathbf{y})}  \\
p(\mathbf{y} \mid \mathbf{x}) &= \frac{p(\mathbf{x}, \mathbf{y})}{p(\mathbf{x})}. \end{align}
$$

이 때 분모 $p(\mathbf{y})$나 $p(\mathbf{x})$는 각각 주변분포이다. 두 개 이상의 무작위변수가 존재할 때, 한 변수가 관측되었을 때 다른 변수에 대한 불확실성이 어떻게 변화하는지를 수학적으로 표현해 주는 것이 조건부분포의 역할이다. 센서퓨전에서는 센서 A가 측정한 정보가 주어졌을 때(이를 $\mathbf{Y}$라 하자), 센서 B가 측정할 값 $\mathbf{X}$가 어떤 분포를 가지는지를 분석하고자 할 때 $p(\mathbf{x}|\mathbf{y})$를 사용한다.

조건부확률의 핵심에는 베이즈 정리(Bayes’ rule)가 있다. 베이즈 정리는

$$
\begin{align} p(\mathbf{x} \mid \mathbf{y}) = \frac{p(\mathbf{y} \mid \mathbf{x}) , p(\mathbf{x})}{p(\mathbf{y})} \end{align}
$$

처럼 표현되는데, 이는 센서퓨전에서 근본적인 원리를 제공한다. 센서로부터 새로 관측된 데이터를 갱신(evidence)으로 받아들여 사전분포(prior distribution)를 사후분포(posterior distribution)로 갱신해 나가는 과정에 바로 이 공식이 활용된다.

#### 확률분포의 분해: 연쇄법칙과 분해정리

여러 무작위변수를 동시에 다루기 위해서는 결합분포를 연쇄적으로 분해할 필요가 있다. 예를 들어, 세 변수 $\mathbf{X}\_1, \mathbf{X}\_2, \mathbf{X}\_3$에 대한 결합분포 $p(\mathbf{x}\_1,\mathbf{x}\_2,\mathbf{x}\_3)$가 주어졌을 때, 연쇄법칙(chain rule)에 의해

$$
\begin{align} p(\mathbf{x}\_1, \mathbf{x}\_2, \mathbf{x}\_3)  &= p(\mathbf{x}\_1) , p(\mathbf{x}\_2 \mid \mathbf{x}\_1) , p(\mathbf{x}\_3 \mid \mathbf{x}\_1, \mathbf{x}\_2). \end{align}
$$

더 많은 변수에 대해서도 확장 가능하며, $N$개의 무작위변수 $\mathbf{X}\_1, \ldots, \mathbf{X}\_N$에 대한 결합분포는

$$
\begin{align} p(\mathbf{x}\_1, \ldots, \mathbf{x}\_N)  &= p(\mathbf{x}\_1) , p(\mathbf{x}\_2 \mid \mathbf{x}\_1) , p(\mathbf{x}\_3 \mid \mathbf{x}\_1, \mathbf{x}\_2) \cdots p(\mathbf{x}\_N \mid \mathbf{x}*1, \ldots, \mathbf{x}*{N-1}). \end{align}
$$

처럼 나타낼 수 있다. 이것은 이론적 측면에서 매우 중요한 분해법칙이며, 센서퓨전 과정에서 여러 센서 측정치가 순차적으로 들어올 때 사후분포를 단계적으로 갱신하기 위한 토대를 제공한다. 예를 들어 첫 번째 센서에서 측정치가 들어오면 $p(\mathbf{x}\_1)$를 갱신하고, 두 번째 센서에서 측정치가 들어오면 $p(\mathbf{x}\_2 \mid \mathbf{x}\_1)$ 형태로 결합관계를 추가하여 전체 사후분포를 갱신하는 식으로 확장해 나간다.

조건부독립성(conditional independence) 개념도 분해법칙에서 큰 역할을 한다. 예를 들어 $\mathbf{X}\_1$을 알았을 때 $\mathbf{X}\_2$와 $\mathbf{X}\_3$가 서로 독립이라면 $p(\mathbf{x}\_2 \mid \mathbf{x}\_1, \mathbf{x}\_3) = p(\mathbf{x}\_2 \mid \mathbf{x}\_1)$로 단순화할 수 있다. 실제 센서퓨전 환경에서도 여러 센서들이 특정한 조건에서만 서로 독립적으로 작용한다거나, 부분적 상호의존성을 가지는 경우가 많다. 이를 올바르게 포착하기 위해서는 결합분포를 적절히 분해하고, 독립 혹은 조건부독립의 관계를 반영하여 분포를 간소화하는 과정이 필수적이다.

#### 다차원 확률분포의 분해와 센서퓨전

두 개 이상의 센서가 제공하는 측정값을 토대로 시스템 상태를 추정해야 하는 상황을 생각해 보자. 센서 A와 센서 B가 각각 $\mathbf{Z}\_A$와 $\mathbf{Z}\_B$라는 무작위변수를 관측한다고 할 때, 시스템 상태를 나타내는 무작위변수를 $\mathbf{X}$라 하면 센서퓨전 문제에서 가장 일반적으로 사용하는 모델 중 하나는 다음과 같은 결합분포 형태를 가진다:

$$
\begin{align} p(\mathbf{x}, \mathbf{z}\_A, \mathbf{z}\_B). \end{align}
$$

이를 연쇄적으로 분해하면

$$
\begin{align} p(\mathbf{x}, \mathbf{z}\_A, \mathbf{z}\_B)  &= p(\mathbf{x}) , p(\mathbf{z}\_A \mid \mathbf{x}) , p(\mathbf{z}\_B \mid \mathbf{x}, \mathbf{z}\_A). \end{align}
$$

어떤 조건에서 센서 A와 센서 B의 측정치가 서로 독립이라고 추가 가정한다면 $p(\mathbf{z}\_B \mid \mathbf{x}, \mathbf{z}\_A) = p(\mathbf{z}\_B \mid \mathbf{x})$로 간소화되며, 그 결과

$$
\begin{align} p(\mathbf{x}, \mathbf{z}\_A, \mathbf{z}\_B)  &= p(\mathbf{x}) , p(\mathbf{z}\_A \mid \mathbf{x}) , p(\mathbf{z}\_B \mid \mathbf{x}). \end{align}
$$

라는 단순 곱 형태가 된다. 이 분해가 간단해 보이지만, 실제로는 센서들이 서로 복잡하게 결합되어 있을 수 있다. 센서퓨전 문제를 해결하기 위해서는 이러한 분해(혹은 반대로 결합) 형태를 올바르게 설정하거나 추정하는 과정이 필수적이다.

센서의 물리적 특성, 측정 잡음 모델, 센서 간 상호간섭 등을 모두 고려해야 하므로, 실제 분포를 어떻게 모델링하느냐에 따라 문제의 난이도가 달라진다. 어떤 경우에는 노이즈 모델이 가우시안이라는 가정하에 쉽게 분해가 가능하지만, 센서가 제공하는 신호가 비선형적이거나 비가우시안 특성을 띠는 경우에는 더욱 복잡한 분해 구조를 고려해야 한다.

아래의 간단한 mermaid 예시는 센서퓨전에서 무작위변수들이 결합된 상황을 추상적으로 나타낸 것이다

{% @mermaid/diagram content="graph LR
X(시스템 상태 X) --> ZA(센서 A 관측치 ZA)
X --> ZB(센서 B 관측치 ZB)
ZA --> P("결합분포 p(X, ZA, ZB)")
ZB --> P" %}

앞에서 언급한 여러 분포의 결합과 분해 과정은 이 그림을 해석하는 주요 방법론이다. 센서 A, B의 측정치가 서로 독립인 경우와 아닌 경우에 따라 분해 형태가 달라지고, 최종적으로는 $p(\mathbf{x} \mid \mathbf{z}\_A, \mathbf{z}\_B)$를 구하는 문제로 귀결된다. 이 때 베이즈 정리, 마진화, 조건부독립성과 같은 핵심 도구들이 활용된다.

#### 정보이론적 관점에서의 확률분포 결합과 분해

센서퓨전 문제를 정보이론적 관점에서 들여다보면, 확률분포의 결합과 분해가 제공하는 의미를 더욱 풍부하게 해석할 수 있다. 정보이론은 확률변수들이 담고 있는 불확실성을 정량화하고, 여러 확률변수 간 상호관련성을 측정하는 수단을 제공한다. 예를 들어 엔트로피(entropy)는 확률분포의 불확실성을 나타내며, 상호정보량(mutual information)은 두 확률변수가 서로 주고받는 정보의 양을 나타낸다.

연속형 무작위변수 $\mathbf{X}$의 차원(예: $\mathbf{X} \in \mathbb{R}^n$)이 커질수록, 그리고 센서가 여러 개가 될수록 결합분포를 직접 다루기는 어려워진다. 이 때 정보이론적 지표들을 사용하면, 결합분포가 얼마나 복잡한 상호의존성을 나타내는지 혹은 특정 조건하에서 얼마나 많은 불확실성이 감소되는지를 체계적으로 파악할 수 있다.

엔트로피 $H(\mathbf{X})$는 다음과 같이 정의된다. 연속형 확률변수인 경우에는 차원이 $n$이라면 디퍼렌셜 엔트로피(differential entropy)를 사용하게 되는데,

$$
\begin{align} H(\mathbf{X}) = -\int p(\mathbf{x}) ,\log p(\mathbf{x}) , d\mathbf{x}. \end{align}
$$

(불연속형의 경우에는 적분 대신 합을 사용하고, 확률밀도 대신 확률질량을 사용한다.) 결합엔트로피 $H(\mathbf{X}, \mathbf{Y})$ 역시

$$
\begin{align} H(\mathbf{X}, \mathbf{Y}) = -\int \int p(\mathbf{x}, \mathbf{y}) ,\log p(\mathbf{x}, \mathbf{y}) , d\mathbf{x} , d\mathbf{y}. \end{align}
$$

처럼 정의된다.

엔트로피는 불확실성의 양을 측정하지만, 두 변수가 어떻게 연관되어 있는지 직접 나타내지는 않는다. 두 변수 $\mathbf{X}$와 $\mathbf{Y}$ 사이의 상호정보량(mutual information, MI)은

$$
\begin{align} I(\mathbf{X}; \mathbf{Y}) = \int \int p(\mathbf{x}, \mathbf{y}) ,\log \frac{p(\mathbf{x}, \mathbf{y})}{p(\mathbf{x}) , p(\mathbf{y})} , d\mathbf{x} , d\mathbf{y} \end{align}
$$

로 정의된다. 이는 두 변수가 서로 주고받는 정보의 양을 나타내며, 만약 $\mathbf{X}$와 $\mathbf{Y}$가 독립이라면 $p(\mathbf{x}, \mathbf{y}) = p(\mathbf{x}) , p(\mathbf{y})$이므로 상호정보량은 0이 된다. 센서퓨전 문제에서, 서로 다른 센서들이 측정한 값 간에 어느 정도 상호정보량이 존재하는지를 살펴보면, 이를 통해 센서들이 얼마나 중복된(혹은 상호보완적인) 정보를 제공하는지 알 수 있다. 예를 들어 센서 A와 센서 B가 측정하는 값의 상호정보량이 높다면, 두 센서는 비슷한 정보를 중복해서 관측하는 경향이 있다. 반대로 상호정보량이 매우 낮다면, 두 센서는 서로 상호보완적인 정보를 제공하거나, 하나의 센서로는 포착하기 어려운 정보를 다른 센서가 포착하고 있음을 시사한다.

상호정보량은 결합분포와 주변분포 사이의 로그비를 적분(또는 합)해 구하기 때문에, 결합분포를 정확히 알고 있어야 한다. 하지만 실제 센서퓨전 문제에서는 결합분포를 명시적으로 구하기 어려운 경우가 많으므로, 상호정보량 역시 직접적으로 계산하기가 쉽지 않다. 그럼에도 불구하고 정보이론적 툴을 통해 문제를 이해하거나, 부분적인 추정을 시도함으로써 측정 데이터가 얼마나 “유용한” 정보를 제공하는지 가늠할 수 있다.

엔트로피의 연쇄법칙(chain rule)은 확률분포의 결합과 분해를 정보이론 관점에서 다시 해석해 준다. 예를 들어 두 변수에 대한 연쇄법칙은

$$
\begin{align} H(\mathbf{X}, \mathbf{Y}) = H(\mathbf{X}) + H(\mathbf{Y} \mid \mathbf{X}) \end{align}
$$

으로 표현된다. 이는 결합엔트로피를 한 변수의 엔트로피와, 그 변수가 알려졌을 때 다른 변수의 조건부엔트로피의 합으로 나타낸다는 의미다. 센서퓨전에서 $\mathbf{X}$가 시스템 상태, $\mathbf{Y}$가 센서 측정치라고 생각하면, $H(\mathbf{X})$는 상태 자체의 불확실성을 나타내며, $H(\mathbf{Y} \mid \mathbf{X})$는 상태가 주어졌을 때 센서 측정치가 얼마나 불확실한지를 나타낸다. 만약 센서가 완전히 결정적인(deterministic) 관측을 제공한다면 $H(\mathbf{Y} \mid \mathbf{X}) = 0$이 될 것이고, 이것은 관측에 아무런 노이즈가 없는(이상적인) 상황을 의미한다.

#### 고차원 확률분포에서의 결합분포 추정과 분해

센서가 여러 대일 경우, 또는 센서 측정치가 고차원 데이터(예: 이미지 센서, 라이다 포인트 클라우드 등)라면 결합분포를 직접 수리적으로 추정하는 것은 매우 어려운 문제가 된다. 이론적으로는 모든 변수들을 포함한 결합분포 $p(\mathbf{x}\_1, \ldots, \mathbf{x}\_N)$를 구해 놓으면 이 안에서 필요한 어떠한 조건부분포든 쉽게 꺼내 쓸 수 있다. 하지만 이러한 접근은 차원의 저주(curse of dimensionality) 때문에 실용적이지 않을 때가 많다.

센서퓨전에서는 차원 축소(dimensionality reduction)나 분포 근사(distribution approximation) 방법을 통해 복잡한 결합분포를 효율적으로 다루려고 한다. 예를 들어 대표적인 방법 중 하나로 Gaussian Mixture Model(GMM)과 같은 혼합모델을 사용해서 복잡한 분포를 유한 개의 가우시안 혼합으로 근사할 수 있다. 또한 Variational Inference나 Markov Chain Monte Carlo(MCMC) 기법 등으로 고차원 분포의 밀도를 학습하거나 근사 추론을 수행하기도 한다.

결합분포를 직접 다루는 대신에, 그래프모델(graphical model)을 사용하여 변인(variable) 간의 종속 관계를 시각화하고, 필요한 부분만 연쇄법칙으로 분해하여 베이즈 추론 등을 수행하는 접근도 흔히 사용된다. 그래프모델에서 정점(vertex)은 무작위변수를 나타내고, 간선(edge)은 변수 간의 직간접적 종속 관계를 나타낸다. Markov Random Field(MRF), Bayesian Network(BN)와 같은 모델들은 확률변수들의 전체 결합분포를 특정 구조 하에서 분해하고, 독립/조건부독립을 명시적으로 표현할 수 있도록 한다.

#### Markov Random Field와 결합분포의 분해

Markov Random Field(MRF)는 undirected graph 형태로 표현되며, 각 노드는 무작위변수를, 에지는 변수 간의 상호 연결 관계(클릭(clique)을 통한 결합)를 나타낸다. 간선이 직접 연결되어 있지 않은 두 노드는 연결 경로에 존재하는 다른 노드가 주어졌을 때 서로 독립이 된다(그래프에서의 Markov 속성). 이런 구조 하에서는 결합분포를 클리크(clique) 함수의 곱 형태로 분해할 수 있다. 간단히 예를 들어, ${\mathbf{X}\_1, \mathbf{X}\_2, \mathbf{X}\_3}$ 세 노드로 구성된 undirected graph를 생각해 보자. 가능한 최대 클리크가 두 노드씩 이루어진다고 가정하면, 결합분포는 아래와 같이 분해된다:

$$
\begin{align} p(\mathbf{x}\_1, \mathbf{x}\_2, \mathbf{x}*3)  = \frac{1}{Z} , \psi*{12}(\mathbf{x}\_1, \mathbf{x}*2) , \psi*{23}(\mathbf{x}\_2, \mathbf{x}\_3), \end{align}
$$

여기서 $\psi\_{12}$, $\psi\_{23}$는 각각 해당 클리크에 대한 잠재함수(potential function)이 되고, $Z$는 정규화 상수(partition function)에 해당한다. 센서퓨전에서는 센서 노드와 상태 노드가 MRF 상에서 서로 연결되어 있는 구조를 만들 수 있으며, 그렇게 함으로써 여러 센서 간 측정치가 어떤 조건 하에서 독립 혹은 종속 관계를 가지는지 모델링한다.

#### Bayesian Network를 통한 위상적 분해

Bayesian Network(BN)는 directed acyclic graph(DAG) 형태를 기반으로 확률변수 사이의 인과구조(causality) 혹은 방향성 있는 종속성을 표현한다. 하나의 노드 $\mathbf{X}\_i$에 대해 그 부모노드들을 $\mathbf{Pa}(\mathbf{X}\_i)$라고 할 때, 전체 결합분포는

$$
\begin{align} p(\mathbf{x}\_1, \mathbf{x}\_2, \ldots, \mathbf{x}*N) = \prod*{i=1}^{N} p(\mathbf{x}\_i \mid \mathbf{Pa}(\mathbf{x}\_i)) \end{align}
$$

로 분해된다. 인과관계를 가정한 상황에서 센서퓨전 과정을 모델링할 때, 상태변수 $\mathbf{X}$가 어떤 과정을 통해 진화하고 센서 측정치 $\mathbf{Z}$가 어떤 과정을 통해 생성되는지를 BN 형태로 나타낼 수 있다. 이 경우 연쇄법칙과 조건부독립을 적절히 이용하여 큰 결합분포를 여러 개의 국소적(local) 분포로 분해해 처리함으로써 계산 부담을 완화할 수 있다.

센서퓨전에서 일반적으로 사용하는 Kalman Filter, Particle Filter 등도 베이즈 추론의 한 형태이며, 이들은 시간축을 따라 진화하는 상태변수와 센서 측정값 사이의 결합분포를 순차적으로 업데이트하는 알고리즘적 구현을 제공한다. 특히 동적 베이즈 네트워크(DBN, Dynamic Bayesian Network) 형태로 모델링하면, 과거 상태에서 현재 상태로 이어지는 전이분포(transition model)와 현재 센서 측정값이 상태에 의해 결정되는 관측분포(observation model)를 명확히 구분하여 나타낼 수 있고, 이를 효율적으로 결합·분해하여 필터링 과정을 수행하게 된다.

#### 결합·분해를 활용한 예측과 필터링

센서퓨전에서는 일반적으로 어떤 시점에서 $\mathbf{X}*{k-1}$을 알고, 새로운 관측 $\mathbf{Z}*{k}$가 들어왔을 때 현재 상태 $\mathbf{X}\_k$를 추정하는 문제를 다룬다. 간단한 형태의 베이즈 필터링을 예로 들면, 우리는 아래와 같은 두 분포를 정의한다:

$$
\begin{align} p(\mathbf{x}*k \mid \mathbf{x}*{k-1}) \quad &: \quad \text{상태 전이모델}\\
p(\mathbf{z}\_k \mid \mathbf{x}\_k) \quad &: \quad \text{관측모델} \end{align}
$$

상태 전이모델은 이전 상태에서 현재 상태로 이어지는 동적 특성을, 관측모델은 현재 상태에서 센서가 관측값을 어떻게 얻는지를 나타낸다. 우리가 원하는 것은 사후분포 $p(\mathbf{x}\_k \mid \mathbf{z}\_1, \mathbf{z}\_2, \ldots, \mathbf{z}\_k)$인데, 이때 결합분포를 베이즈 정리와 마진화를 통해 분해·결합해서 다음과 같이 순차 갱신을 수행한다.

$$
\begin{align} p(\mathbf{x}\_k \mid \mathbf{z}\_1, \ldots, \mathbf{z}\_k) &= \frac{p(\mathbf{z}\_k \mid \mathbf{x}\_k) , p(\mathbf{x}\_k \mid \mathbf{z}*1, \ldots, \mathbf{z}*{k-1})}{p(\mathbf{z}\_k \mid \mathbf{z}*1, \ldots, \mathbf{z}*{k-1})}. \end{align}
$$

여기서 분모는 정규화 상수 역할을 하므로, 실제 알고리즘 구현에서는 다음 두 단계를 나누어 수행한다. 먼저 예측(prediction) 단계에서 이전 시점의 사후분포 $p(\mathbf{x}\_{k-1} \mid \mathbf{z}*1, \ldots, \mathbf{z}*{k-1})$를 상태 전이모델로 마진화하여 사전예측분포(prior) $p(\mathbf{x}\_k \mid \mathbf{z}*1, \ldots, \mathbf{z}*{k-1})$를 구한다. 이후 업데이트(update) 단계에서 새로운 관측 $\mathbf{z}\_k$를 반영하여 사후분포 $p(\mathbf{x}\_k \mid \mathbf{z}*1, \ldots, \mathbf{z}*{k})$로 갱신한다. 이 과정을 센서가 여러 개인 경우에도 확장할 수 있으며, 센서 간 독립성 가정 여부, 노이즈 특성, 상호정보량 등을 고려하여 결합분포를 적절히 분해·결합함으로써 필터링을 효율화한다.

아래 mermaid 예시는 동적 베이즈 네트워크(DBN) 형태로 시스템 상태가 시간에 따라 진화하고, 각 시점마다 여러 센서가 측정치를 주는 상황을 간단히 도식화한 것이다

{% @mermaid/diagram content="graph LR
Xk-1(("X\_{k-1}")) --> Xk((X\_k))
Xk --> Xk+1(("X\_{k+1}"))
Xk --> Zk((Z\_k))
Xk+1 --> Zk+1(("Z\_{k+1}"))" %}

이 네트워크에서 $p(\mathbf{x}*k, \mathbf{x}*{k+1}, \mathbf{z}*k, \mathbf{z}*{k+1})$와 같은 결합분포는 전이모델과 관측모델을 통해 분해할 수 있으며, 실제 센서퓨전 알고리즘은 이 과정을 반복적으로 수행하며 상태추정을 진행한다.

#### Factor Graph와 Sum-Product 알고리즘

센서퓨전에서 많은 확률변수를 한꺼번에 다루어야 할 경우, Factor Graph는 결합분포를 이해하고 계산을 단순화하는 또 다른 대표적 방법론이다. Factor Graph는 양방향 그래프 형태로, 확률변수 노드(Variable Node)와 팩터 노드(Factor Node)로 구성된다. 간선은 어떤 팩터(함수)가 어떤 변수에 의존하는지를 나타낸다. 결합분포가 아래와 같은 형태로 분해된다고 하자.

$$
\begin{align} p(\mathbf{x}\_1, \mathbf{x}*2, \ldots, \mathbf{x}*N) = \frac{1}{Z} \prod*{a} f\_a(\mathbf{x}*{a}), \end{align}
$$

여기서 $f\_a(\mathbf{x}\_a)$는 해당 팩터의 입력 변수 집합(즉, $\mathbf{x}\_a$)에 대해 정의된 함수이고, $Z$는 전체 분포를 정규화하는 상수다. Factor Graph를 구성할 때, 각 $f\_a$를 팩터 노드로, 거기에 연결된 변수들을 변수 노드로 나타내면 된다.

센서퓨전 관점에서, $f\_a(\mathbf{x}\_a)$는 센서 모델(관측모델), 동적 모델(전이모델), 상태 제약(예: 물리적 구속조건) 등 문제 특성에 따라 달라진다. 예를 들어 여러 센서가 동시에 측정한 정보를 특정한 시간축에서 결합하려면, 센서별 관측모델을 각각 팩터로 두고, 이 팩터가 의존하는 상태변수(또는 잡음변수 등)를 변수 노드로 연결하여 Factor Graph를 구성한다.

Factor Graph의 대표적 활용 기법은 Sum-Product(또는 Belief Propagation) 알고리즘이다. 이 알고리즘은 국소적인 메시지 전달(message passing) 과정을 통해 전체 결합분포 또는 특정 변수의 주변분포를 근사적으로 계산한다. 메시지 전달 구조는 그래프의 연결방식에 따르며, 트리나 포리스트(사이클이 없는 구조)일 경우에는 정확한 마진화를 수행할 수 있다. 그러나 루프가 존재하는 일반 그래프(Loopy Graph)에서는 근사해만 얻을 수 있다. 그럼에도 불구하고 센서퓨전에서 매우 유용하게 쓰이는데, 고차원 분포를 직접 전개하지 않고도 로컬 메시지를 순환적으로 주고받으며 필요한 분포를 뽑아낼 수 있기 때문이다.

#### MAP 추정과 결합분포의 활용

센서퓨전에서 가장 흔히 구하고자 하는 대상은 사후분포 자체이거나, 사후분포에서 특정한 해(예: 점 추정값)를 구하는 것이다. 베이즈 추론 관점에서는 사후분포 $p(\mathbf{x} \mid \mathbf{z})$를 완전히 기술하는 것이 가장 이상적이지만, 실제 응용에서는 시간이나 자원 제한 때문에 전체 분포를 유지하기보다는 점 추정(point estimate)을 구하는 방식이 널리 사용된다.

가장 대표적인 점 추정 방식 중 하나가 사후확률을 최대화하는 MAP(Maximum A Posteriori) 추정이다. 예를 들어 $\mathbf{z}$를 모든 센서 측정치(혹은 데이터 세트)라 할 때, 다음 문제를 푼다.

$$
\begin{align} \hat{\mathbf{x}}*{\text{MAP}} = \arg\max*{\mathbf{x}} , p(\mathbf{x} \mid \mathbf{z}). \end{align}
$$

베이즈 정리에 따라 사후분포는 $p(\mathbf{z} \mid \mathbf{x}) , p(\mathbf{x})$에 비례하므로,

$$
\begin{align} \hat{\mathbf{x}}*{\text{MAP}} = \arg\max*{\mathbf{x}} ,\bigl\[p(\mathbf{z} \mid \mathbf{x}) , p(\mathbf{x})\bigr]. \end{align}
$$

센서퓨전에서 $p(\mathbf{z} \mid \mathbf{x})$는 여러 센서들의 관측모델을 결합한 우도함수(likelihood)에 해당하고, $p(\mathbf{x})$는 상태에 대한 사전정보(prior) 또는 동적 모델에서 유도된 예측분포가 될 수 있다. 만약 서로 다른 센서들이 독립 노이즈를 가지는 것으로 가정하면, 우도함수는 센서별 우도들의 곱으로 분해 가능하다. 즉,

$$
\begin{align} p(\mathbf{z} \mid \mathbf{x})  = \prod\_{i} p(\mathbf{z}\_i \mid \mathbf{x}), \end{align}
$$

이처럼 결합분포가 센서별 우도 함수로 곱분해되면, 실제로 MAP 추정을 수행할 때 계산량을 크게 줄일 수 있다. 그러나 센서 간 상호노이즈 의존성이 존재하면, 우도 함수가 단순 곱 형태가 아니라 훨씬 복잡한 분포 형태가 된다. 그럼에도 불구하고 결합분포를 어떻게든 분해·근사하여 사용할 수 있어야, 센서퓨전 시스템을 효과적으로 구현할 수 있다.

#### MCMC, Variational Inference를 통한 고급 추론

센서퓨전 문제에서 분포의 모양이 비가우시안(non-Gaussian), 비선형(nonlinear)으로 복잡해지면, 전통적 필터(Kalman, Extended Kalman, Unscented Kalman 등)만으로는 정확한 추론이 어려울 수 있다. 이때 Markov Chain Monte Carlo(MCMC)나 Variational Inference 같은 샘플링·근사 기법이 등장한다.

MCMC 기법은 결합분포 $p(\mathbf{x}, \mathbf{z})$에서 직접 샘플을 생성하여, 그 샘플의 경험적 분포를 통해 사후분포를 추정한다. 대표적으로 Gibbs Sampling이나 Metropolis–Hastings 알고리즘 등이 사용된다. 센서퓨전 맥락에서는, 시스템 상태 $\mathbf{x}$가 고차원이고 측정치 $\mathbf{z}$가 복잡한 경우에도 비교적 유연하게 적용 가능하다. 다만 MCMC는 계산량이 커질 수 있고, 수렴성을 담보하기 위해서는 충분한 사전 분석과 튜닝이 요구된다.

Variational Inference(VI)는 난해한 결합분포(사후분포)를 직접 다루는 대신, 비교적 단순한 분포 패밀리(예: Factorized Gaussian) 안에서 원래 분포를 근사할 수 있는 최적의 파라미터를 찾는 방식이다. KL 다이버전스(Kullback–Leibler divergence)와 같은 지표를 최소화함으로써, 근사분포가 실제 사후분포에 최대한 가깝도록 조정한다. VI는 샘플링 기반 기법보다 빠른 수렴이 가능하나, 근사분포 선택에 따라 한계가 존재하기도 한다. 센서퓨전처럼 실시간으로 추정해야 하는 경우, VI 기반의 온라인 업데이트 기법들이 연구되고 있다.

#### 예시: 혼합가우시안 모델을 이용한 분포 결합

센터퓨전에서 흔히 가정하는 노이즈 모델 중 하나가 가우시안이다. 간단히 센서 노이즈를 선형성·가우시안성으로 두면, 결합분포는 다변량 가우시안이 되어 비교적 손쉽게 다룰 수 있다. 하지만 실제 상황에서는 센서 노이즈의 분산이 시간에 따라 달라진다거나, 특정 구간에서 이상치(outlier)가 발생하기도 하므로, 가우시안 한 개로는 충분히 설명되지 않을 수 있다. 이럴 때 혼합가우시안(Gaussian Mixture Model, GMM)을 도입하여, 확률분포를 여러 개의 가우시안으로 가중합해 표현하면 유연성을 높일 수 있다.

혼합가우시안 분포는 다음과 같이 표현된다.

$$
\begin{align} p(\mathbf{x}) = \sum\_{k=1}^{K} \alpha\_k , \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}\_k, \mathbf{\Sigma}\_k), \end{align}
$$

여기서 $\alpha\_k$는 가중치이며, $\sum\_k \alpha\_k = 1$, $\mathcal{N}$은 다변량 정규분포를 나타낸다. $K$ 개의 성분(component) 각각이 고유한 평균 $\boldsymbol{\mu}\_k$와 공분산행렬 $\mathbf{\Sigma}\_k$를 가진다. 센서퓨전에서는 각 센서별로 얻은 측정값이 본질적으로 서로 다른 모드(modality)를 형성한다면, 이를 혼합가우시안 형태로 모델링할 수 있다. 예를 들어 레이더 센서에서 관측되는 거리-속도 정보, 카메라 센서에서 관측되는 픽셀 기반 정보 등이 서로 다른 통계적 특성을 지닐 경우 이를 각각의 성분으로 간주하고 결합하여 근사분포를 구성할 수 있다.

혼합가우시안 모델의 주요 이점 중 하나는 Expectation-Maximization(EM) 알고리즘 등을 이용하여 파라미터(평균, 공분산, 가중치)를 추정하는 것이 비교적 체계화되어 있다는 점이다. 다만 $K$가 커지면 계산량이 증가하고, 센서퓨전이 실시간으로 수행되어야 하는 경우에는 빠른 업데이트 전략이 필요하다.

#### 다중센서 환경에서의 분산추론과 분해 기법

센서가 공간적으로 분산되어 있는 경우(예: IoT 센서 네트워크, 로봇 분산 시스템), 모든 데이터를 한곳에 모아 통합적으로 결합분포를 추정하기가 어려울 수 있다. 통신 비용, 실시간성, 시스템 내 노드 간의 자율성 등을 고려하여, 부분 분포 혹은 지역(local) 추론을 수행한 뒤 이를 합치는 방식이 요구된다.

분산추론(distributed inference)에서는 각 센서 노드가 자신에게 주어진 관측데이터로 국소 사후분포를 업데이트하고, 인접 노드들끼리 요약통계량(summary statistics) 혹은 확률 메시지를 교환하면서 전체 시스템의 전역적 추론을 수행한다. 메시지 전달은 Factor Graph나 MRF, Bayesian Network 형태로 구현될 수 있으며, 노드들이 독립적으로 작업을 분담하므로 확장성과 유연성이 높다. 예를 들어 센서 A가 추정한 $p\_A(\mathbf{x})$와 센서 B가 추정한 $p\_B(\mathbf{x})$를 서로 결합하려면, 두 센서가 어떤 형태로 분포를 표현하고 있는지(혼합가우시안, 입자집합 등)에 따라 결합/분해 프로토콜을 달리 설계해야 한다.

실제 네트워크 로봇 공학이나 멀티에이전트 시스템에서 센서퓨전을 구현할 때, 통신 회선이 제한적이거나 단절이 발생할 수 있다는 점도 고려한다. 결합분포를 완벽히 계산하기 어렵다면, 근사화된 로컬 분포들을 적절히 합치는 방식으로 실용적 해결책을 얻을 수 있다. 이런 맥락에서 Covariance Intersection이나 Generalized Covariance Intersection과 같은 기법이 제안되기도 한다. 이 기법들은 서로 독립이라는 가정 없이도 두 가우시안 분포(또는 공분산 형태) 정보를 보수적으로 결합해 줄 수 있도록 고안되었다.

#### 비선형 센서 모델과 선형화 기법

센서퓨전에서 센서 모델이 항상 선형적이지는 않다. 예컨대 로봇의 위치를 레이저 거리 센서로 측정하는 경우, 센서 모델은 측정값과 로봇 상태 사이에 비선형 관계를 갖는다. 이런 비선형성을 다루기 위해서는 확률분포의 결합과 분해 과정에서도 선형화 기법이나 고차 모멘트 근사, 혹은 수치적 샘플링이 사용된다.

Extended Kalman Filter(EKF)는 선형화의 대표적 예다. EKF에서 관측모델 $\mathbf{z} = h(\mathbf{x}) + \boldsymbol{\nu}$가 비선형이면, $h(\mathbf{x})$를 테일러 전개로 1차 근사하여 선형화를 수행한다. 그 결과 갱신단계에서 Jacobian 행렬이 등장하고, 공분산의 업데이트 또한 이 Jacobian에 의해 변형된다. Unscented Kalman Filter(UKF)는 시그마 포인트(sigma points)라는 유한 집합의 표본을 상태공간에서 뽑아, 이를 관측모델에 통과시키고, 그 통계량으로 분포의 결합·분해를 근사한다.

여기서 핵심은, 결합분포 $p(\mathbf{x}, \mathbf{z})$가 구조적으로 복잡하거나 비선형성이 크더라도, 분해 및 결합 과정을 적절히 근사화하면 실시간 추론이 가능하다는 점이다. 물론 이 과정에서 근사오차가 누적될 수 있으므로, 센서퓨전 알고리즘의 안정성과 정확도를 보장하기 위해 추가적 분석이 뒤따라야 한다.

#### 다중대상 추적(Multi-Target Tracking)에서의 확률분포 결합과 분해

센서퓨전의 대표적 응용 중 하나로 다중대상 추적(Multi-Target Tracking)을 꼽을 수 있다. 레이더나 카메라, 라이다 등 여러 센서에서 동시에 다수의 이동 목표물(target)을 관측할 때, 각 목표물의 상태(예: 위치, 속도 등)를 추정하고, 목표물이 몇 개인지, 센서는 어떤 측정값이 어느 목표물에 대응되는지를 결정하는 문제가 다중대상 추적이다.

이 문제를 풀기 위해서는 확률분포의 결합과 분해를 여러 층위에서 수행해야 한다. 우선 "몇 개의 목표물이 존재하는가?"라는 문제(탄생, 사멸, 검출, 누락 등)를 다루고, 이어서 "관측된 측정값이 어느 목표물에 할당되는가?"라는 자료연관(data association) 문제를 해결해야 한다. 그리고 나서 "각 목표물의 상태는 어떻게 갱신되는가?"라는 추적(Tracking) 문제를 해결한다.

**자료연관과 결합분포**

센서가 여러 개의 목표물을 동시에 관측할 때, 각 센서 측정치가 어느 목표물에 대응되는지를 밝히는 자료연관 과정이 필요하다. 자료연관 문제를 확률론적으로 접근하려면, "측정치 집합 $\mathbf{Z}$와 목표물 상태 집합 $\mathbf{X}$ 사이의 결합분포"를 어떻게 구성할지 고민해야 한다. 표기가 복잡해질 수 있으므로, 우선 목표물이 $M$개 존재한다고 가정하면, 상태벡터는 ${\mathbf{x}\_1,\ldots,\mathbf{x}\_M}$가 되고, 센서 측정치는 ${\mathbf{z}\_1,\ldots,\mathbf{z}\_K}$가 될 수 있다.

자료연관을 명시적으로 모델링하기 위해서는 "연관변수"(association variable)를 둔다. 예를 들어 측정치 $\mathbf{z}\_k$가 목표물 $j$에 의해 발생했다고 표시하는 변수 $\alpha\_k = j$를 정의할 수 있다(만일 가짜 측정이거나 검출 실패가 있을 때는 $\alpha\_k = 0$ 같은 별도 상태로 표현). 자료연관 변수 $\boldsymbol{\alpha} = (\alpha\_1,\ldots,\alpha\_K)$까지 포함한 전체 결합분포는 대략

$$
\begin{align} p(\mathbf{x}\_1,\ldots,\mathbf{x}\_M,\mathbf{z}\_1,\ldots,\mathbf{z}\_K,\boldsymbol{\alpha}) \end{align}
$$

형태를 띠게 된다. 이 분포를 부분적으로 분해하면, 예컨대

$$
\begin{align} p(\mathbf{z}\_1,\ldots,\mathbf{z}\_K \mid \mathbf{x}\_1,\ldots,\mathbf{x}\_M,\boldsymbol{\alpha}) \end{align}
$$

가 "각 측정치가 주어진 상태와 연관정보에 의해 어떻게 생성되는가"를 나타내는 관측모델 역할을 한다. 만약 측정치들이 독립노이즈를 갖는다고 가정하면, 이 관측모델은 센서별·목표물별 우도함수의 곱으로 분해된다. 다만 가짜 측정(false alarm)이 있거나, 특정 확률로 검출 누락(missed detection)이 발생할 수 있으므로, 추가적인 항들이 필요해진다.

**Random Finite Set(RFS) 접근**

다중대상 추적을 더욱 일반적으로 다루기 위한 이론적 틀이 Random Finite Set(RFS) 이론이다. RFS 이론에서는 "목표물의 개수도 확률적"이고, "각 목표물의 상태도 확률적"인 집합값 무작위변수를 다룬다. 즉, $X$라는 집합 자체가 무작위로 결정되며, 그 안에 포함된 상태 벡터의 수도 변할 수 있다. 이를테면

$$
\begin{align} X = {\mathbf{x}\_1,\mathbf{x}\_2,\ldots,\mathbf{x}\_M} \end{align}
$$

가 되며, $M$ 자체도 확률적으로 결정된다. 센서 측정치 집합 $Z$ 역시 마찬가지로 RFS로 표현할 수 있다. RFS 이론에서는 $X$와 $Z$ 사이의 결합분포를 "집합값"에 대한 형태로 정의하고, 이를 Mahler의 통합 이론(통합 필터, CPHD 필터, PHD 필터 등)로 풀어나간다.

가령 PHD(Probability Hypothesis Density) 필터에서는 전체 집합분포를 직접 다루지 않고, 목표물 수와 상태 분포에 대한 1차 모멘트 밀도 함수를 추정하여, 다중대상추적 문제를 근사적으로 해결한다. 이런 접근 역시 "결합분포를 간접적으로나마 다루고 분해"하는 과정이라 해석할 수 있다. 즉, RFS 이론 안에서도 확률분포의 결합과 분해가 핵심 수학적 도구가 된다.

**Track-to-Track Fusion**

여러 센서가 공간적으로 떨어져 있으면, 각 센서에서 독립적으로 추적 알고리즘(Tracker)을 운용하고, 그 결과인 트랙(track) 정보를 상호 교환하여 전역 추적 정보를 얻는 방식을 쓴다. 이를 Track-to-Track Fusion(T2TF)이라 한다. 트랙은 각 센서가 추정한 "목표물 상태"의 시계열로서, 공분산과 함께 유지될 수 있다.

Track-to-Track Fusion을 확률론적으로 풀어쓰면, 센서 $i$가 추정한 트랙 $\tau\_i$는 $\mathbf{X}$에 대한 사후분포(혹은 요약통계)로 간주할 수 있다. 센서 $1$과 센서 $2$가 각각 추정한 사후분포

$$
\begin{align} p\_1(\mathbf{x}), \quad p\_2(\mathbf{x}) \end{align}
$$

가 있을 때, 이 둘을 어떤 식으로 결합하여 $p(\mathbf{x})$를 업데이트할 것인지가 문제의 핵심이다. 센서 간 독립이 확실하다면 $p(\mathbf{x}) \propto p\_1(\mathbf{x}) , p\_2(\mathbf{x})$라는 단순 곱이 성립하지만, 실전에서는 센서 정보가 독립이 아닐 수 있고, 노이즈 상관관계나 중복 측정 등이 존재한다. 이때는 Covariance Intersection(CI) 같은 보수적 결합방법을 쓴다. CI는 "분포의 공분산을 과소추정하지 않도록" 설계되어, 센서 간 상관성이 정확히 알려지지 않더라도 안정적으로 두 분포를 융합해 준다.

이처럼 다중대상추적 환경에서도, 결합분포와 주변분포, 조건분포를 어떻게 다루는가에 따라 알고리즘이 달라지고, 실제 적용 시 성능도 좌우된다.

#### 이상치(Outlier) 처리와 견고한(Robust) 센서퓨전

센서 측정치 가운데 환경적 요인이나 기기 오작동, 노이즈 폭주 등으로 인해 극단값(outlier)이 발생하는 경우가 있다. 이를 적절히 걸러내지 않으면 추정 성능이 크게 떨어진다. 확률적 관점에서 이상치는 "우도(likelihood) 값이 매우 작거나, 특정 분포에서 가정하기 어려운 위치에 존재하는 관측"으로 볼 수 있다. 즉, 센서 측정치가 모델에서 크게 벗어나는 경우다.

이상치를 다루는 전통적 방법 중 하나는 RANSAC, M-estimator, Huber Loss 등을 사용하는 것이며, 확률론적 접근에서는 "혼합모델"이나 "견고한 우도 함수"를 정의하여 이상치를 저확률이지만 일정 확률로 발생하는 또 다른 모드(modality)로 처리하기도 한다. 예를 들어 혼합가우시안 모델에서 일반 노이즈 모드와, 이상치(outlier) 모드를 분리해 놓으면, 관측치가 outlier 모드에 속할 확률을 유연하게 모델링할 수 있다. 다시 말해

$$
\begin{align} p(\mathbf{z} \mid \mathbf{x})  = \alpha , \mathcal{N}(\mathbf{z} \mid h(\mathbf{x}), \mathbf{R})  + (1-\alpha) , u(\mathbf{z}), \end{align}
$$

와 같이, 대부분은 정상 가우시안 분포를 따르지만 소수 확률로 전혀 다른 $u(\mathbf{z})$ 형태의 분포(예: 균일분포)를 가질 수 있다고 설정한다. 여기서 $\alpha$는 "정상치"일 확률을 의미한다. 이런 식으로 이상치를 처리하면, 결합분포의 형태가 복잡해져도 센서퓨전에서 이상치가 추정 결과에 미치는 영향을 어느 정도 완화할 수 있다.

#### 다중 모달(multimodal) 분포와 비가우시안성

센서퓨전에서 생기는 분포가 다중 모달(multimodal)일 수 있다는 점은 앞서 언급한 혼합가우시안 예시 외에도 다양한 상황에서 나타난다. 예컨대 음영 지역이 있는 레이더 환경에서, 목표물의 위치는 몇몇 서로 다른 가설(모드)로 분리될 수 있다. 비선형 관측모델이 강하게 작용할 때도, 측정치에 대한 사후분포가 여러 모드를 갖는 경우가 생긴다.

다중 모달 분포는 단순한 단일 모달 가우시안 가정으로는 정확히 추정하기 어렵다. 이 경우 MCMC나 Particle Filter가 유리할 수 있는데, 이들은 샘플 집합(particle set)을 사용하여 모드가 여러 개인 분포도 표현 가능하다. Particle Filter에서는 "입자 재샘플링" 과정을 통해 모드가 강한 영역에 입자들이 몰리게 하고, 상대적으로 우도가 작은 모드는 입자 수가 줄어들어 사라지게 된다.

문제는 실제로 필요한 모드가 여러 개인 경우, 어떤 모드가 참 상태에 대응되는지 불확실할 때다. Particle Filter처럼 하나의 입자 집합으로 표현하면, 우도가 가장 큰 모드에 입자들이 집중되어 나머지 모드를 잃어버릴 가능성도 있다. 이를 방지하기 위해 여러 개의 병렬 필터(혹은 추적기)를 운영하거나, 모드별로 입자 집합을 관리하는 기법이 제안되기도 한다. 이 모든 방법론의 배경에는 "결합분포에서 모드를 파악하고, 그 분포를 효과적으로 분해·근사"하려는 시도가 깔려 있다.

#### 연속시간 모델과 확률적 필터링

지금까지는 이산시간(discrete time) 관점에서 센서퓨전을 다루었으나, 실제 물리계는 연속시간 모델을 따를 수도 있다. 연속시간에서의 상태방정식

$$
\begin{align} \dot{\mathbf{x}}(t) = \mathbf{f}(\mathbf{x}(t), t) + \mathbf{w}(t) \end{align}
$$

와 센서 측정

$$
\begin{align} \mathbf{z}(t) = \mathbf{h}(\mathbf{x}(t), t) + \boldsymbol{\nu}(t) \end{align}
$$

같은 형태를 생각하면, 센서는 일정 간격 $\Delta t$마다 샘플링된 이산 측정값을 제공하거나, 혹은 연속적으로 측정 스트림을 보낼 수도 있다. 이 경우에도 확률분포의 결합과 분해가 필터링 원리의 근간을 이루며, 실질적으로는 확률미분방정식(Stochastic Differential Equation)을 풀거나, 확률 흐름(Probability Flow) 관점에서 상태분포를 진화시키는 방향으로 해석할 수 있다.

#### 결합·분해 관점 정리

센서퓨전의 근본적 메커니즘은 "결합된 확률분포를 어떻게 효율적으로 표현하고, 필요할 때 어떻게 부분적으로 분해·활용하느냐"라는 문제다. 결합분포가 고차원적이고 비선형적이며, 센서 간 상호의존성까지 고려해야 하는 현실적 문제에서, 이 과정을 직접 계산하는 것은 결코 간단치 않다. 따라서 Kalman 계열 필터(선형 가우시안 근사), Particle Filter(샘플링), Variational Inference(근사적 분포 최적화), Factor Graph에 기반한 메시지 전달 등 다양한 수단이 개발되어 온 것이다.

센서퓨전 시스템을 설계할 때에는

* 센서 모델이 어떤 형태로(가우시안, 혼합가우시안, 비가우시안 등) 표현되는지
* 상태 전이모델은 어떤 비선형성이나 시간적 상관을 가지는지
* 센서 간 독립성 혹은 조건부독립성 가정이 타당한지, 상관관계는 어떻게 반영하는지
* 이상치 처리는 어떤 확률적 구조로 처리할지
* 계산량이나 실시간성 제약에 어떻게 대응할지

등을 종합적으로 고려해야 한다. 이 모두가 결국 확률분포(결합분포, 주변분포, 조건분포)에 대한 적절한 이해와 활용에서 출발한다. 센서퓨전을 수행함에 있어, 분포를 명시적으로 쓰든 암묵적으로 쓰든, 매 순간 "결합"과 "분해"라는 연산을 올바르게 적용하여 시스템 상태 추정의 정확도와 효율성을 최대화하는 것이 궁극적인 목표다.

#### 파라메트릭 vs. 논파라메트릭 분포 접근

센서퓨전에서 확률분포를 다루는 방식은 크게 파라메트릭(parametric) 접근과 논파라메트릭(nonparametric) 접근으로 나누어 볼 수 있다. 파라메트릭 접근은 분포의 형태를 특정 지표(예: 평균, 분산, 상관계수 등)로 제한하는 것이다. 가우시안 분포나 가우시안 혼합분포(GMM)는 대표적인 파라메트릭 모델에 속한다. 이러한 모델을 사용하면 결합분포와 분해 과정을 수식으로 명확하게 다루고, 계산 효율을 크게 높일 수 있다. 다만 실제 분포가 모델 가정에서 크게 벗어나는 경우, 근사 오차가 발생하거나 추정 성능이 저하될 수 있다.

논파라메트릭 접근은 분포 자체에 대한 특별한 형태 가정을 두지 않고, 관측된 데이터(혹은 샘플)로부터 분포를 직접 추정하는 방식이다. 커널 밀도 추정(kernel density estimation), K-NN 기반 추정, 혹은 디지털 공간에서의 히스토그램(binning) 같은 기법들이 있다. 센서퓨전 환경에서 데이터가 충분히 많다면, 이런 방법으로 매우 유연한 형태의 분포를 추정할 수 있다. 그러나 차원이 높아질수록(센서가 많아지거나 관측치가 고차원 벡터일수록) 데이터가 기하급수적으로 많이 필요한 단점이 있다. 따라서 실제로는 파라메트릭과 논파라메트릭 기법을 혼합해 적절히 근사하거나, 국소(local) 영역에서는 간단한 파라메트릭 모델을 쓰고, 글로벌하게는 데이터 기반 논파라메트릭 방법을 혼용하기도 한다.

#### 동적 환경에서의 순응적(adaptive) 분포 추적

현실 세계의 센서퓨전 문제는 환경이 정적이지 않고 시시각각 변한다. 예를 들어 조도, 날씨, 장애물, 전파 간섭 등이 달라지면 센서 노이즈 특성도 변할 수 있다. 이런 상황에서 고정된 확률분포 모델을 유지하는 것은 부정확해질 위험이 있다. 따라서 순응적(adaptive) 기법이 필요해진다. 순응적 기법은 새로 들어오는 측정 데이터를 이용해 노이즈 공분산을 재추정하거나, 분포의 파라미터를 갱신함으로써 동적으로 모델을 업데이트한다.

파라메트릭 방식에서는 예컨대 확장 칼만필터(EKF)의 공분산 갱신 항을 가변적으로 추정하거나, 가우시안 혼합모델의 파라미터를 온라인 EM 알고리즘으로 추정할 수 있다. 논파라메트릭 방식을 쓰는 경우에는, 새로 유입되는 샘플을 활용해 커널 폭(kernel bandwidth)을 실시간 조절하거나, 히스토그램 구간을 동적으로 재설정하여 분포 변화를 포착한다. 이 과정 역시 결합분포를 순간순간 재설계하고 분해 구조를 업데이트한다는 의미에서, 확률분포 결합·분해 논리의 확장이라 볼 수 있다.

#### 딥러닝 기반 분포 모형

최근에는 딥러닝이 결합된 확률 추정 기법도 센서퓨전에 접목되고 있다. 예컨대 Normalizing Flow, Variational Autoencoder(VAE), Generative Adversarial Network(GAN) 등을 활용하면 복잡한 고차원 데이터 분포를 신경망 구조로부터 학습할 수 있다. 이를 통해 여러 센서에서 생성된 다중 모달 데이터를 통합한 결합분포를 근사하는 시도들이 등장했다.

딥러닝 기반 방법에서는 다음과 같은 접근이 가능하다. 상태 $\mathbf{x}$와 센서 관측치 $\mathbf{z}$ 사이의 결합분포를 $p\_{\theta}(\mathbf{x}, \mathbf{z})$ 형태로 파라미터화하여, 딥 뉴럴넷의 파라미터(가중치) $\theta$에 의해 이 분포가 결정되게 만든다. 이어서 훈련 데이터(실제 센서 측정치와 그에 대응되는 상태)를 이용해 $\theta$를 학습한다. 학습이 완료된 뒤에는 $p\_{\theta}(\mathbf{z} \mid \mathbf{x})$나 $p\_{\theta}(\mathbf{x} \mid \mathbf{z})$ 같은 조건분포 형태를 추정하는 데 유연하게 활용할 수 있다.

센서퓨전 알고리즘 설계 시, 딥러닝 기반 모델을 바로 필터링 과정에 포함시키는 것은 아직 계산 복잡도나 실시간성 면에서 제약이 따를 수 있다. 하지만 하드웨어 성능이 발전하고 뉴럴넷 경량화 기법이 제안되면서, 차츰 실제 시스템에서 적용 가능한 사례가 늘어나고 있다. 이를 통해 전통적 확률모형(가우시안, 혼합가우시안 등)으로 표현하기 어려운 복잡한 분포도 실시간에 가깝게 근사·추론할 가능성이 열리고 있다.

#### 측정 공간에서의 비선형 매핑과 국소화(localization)

이동 로봇이나 자율주행 차량의 센서퓨전 상황을 예로 들면, 시스템 상태는 로봇의 위치·자세(orientation) 같은 물리적 좌표계에서 정의되고, 센서 공간은 이미지 픽셀좌표, 레이더 전파도달시간, 라이다 레인지-베어링 등의 측정값으로 표현된다. 측정 공간에서 상태 공간으로 가는 매핑이 복잡하고 비선형이라면, 결합분포를 명시적으로 쓰기도 까다롭다.

이런 문제를 풀기 위해 SLAM(Simultaneous Localization And Mapping)과 같은 방법론이 발전해 왔다. SLAM에서는 로봇의 위치(및 맵)를 추정하기 위해, 라이다나 카메라 측정치를 상태공간으로 역매핑(inverse sensor model)하는 과정을 수행한다. 이를 베이즈 필터 형태로 전개하면, 결합분포 $p(\mathbf{x}*k, \mathbf{m} \mid \mathbf{z}*{1:k})$을 구성하고 분해·갱신하는 순서로 접근한다. $\mathbf{m}$은 맵 정보(예: 지형 특성, 장애물 배치)이고, $\mathbf{x}\_k$는 로봇 상태다. SLAM 문제는 차원이 크고 상태·관측 모델이 비선형적인 경우가 많아, 결합분포의 다루기 어려움이 극명하게 드러난다.

Particle Filter 기반의 FastSLAM 계열 알고리즘은 전체 SLAM 분포를 분해하여, 로봇 경로에 대한 파티클과 맵에 대한 조건분포를 효율적으로 처리한다. 마찬가지로 Factor Graph 관점의 GTSAM 등도 센서 측정 방정식을 그래프 팩터로 표현하고, 최소자승 형태로 근사하여 최적화 문제로 푸는 식으로 확률적 추론을 수행한다. 이 모든 기법들은 본질적으로는 거대한 결합분포를 체계적으로 분해하고, 그중 필요한 부분만을 효과적으로 최적화 또는 추론하는 원리를 따른다.

#### 결합·분해 관점에서의 센서퓨전 알고리즘 선택

센서퓨전을 위한 알고리즘을 선택할 때, 결국 "어떤 형태의 결합분포를 가정·학습·근사할 것인가?"가 가장 중요한 설계 지점이 된다. 비선형·비가우시안성이 미미하고 상태공간 차원이 낮다면, 단순한 선형 가우시안 모델과 칼만필터 계열만으로도 충분하다. 반면 센서가 많고, 데이터가 복잡하며, 비선형성이 크다면 Particle Filter, Factor Graph Sum-Product, 변분추론, MCMC, 혹은 딥러닝 기반 방법 등 더 정교한 기법을 고려해야 한다.

현장 구현 시에는 다음 요소들이 결합분포 선택과 분해 전략을 좌우한다. 실제 센서 노이즈 모델링의 현실성, 실시간 처리 요구 사항, 가용 컴퓨팅 파워, 통신 환경, 그리고 추정 정확도에 대한 요구 조건 등이다. 예컨대 자율주행 차량에서 주행 중 방대한 센서 데이터(카메라, 라이다, IMU, GPS 등)를 받아야 한다면, 오프라인 학습된 신경망 모형을 이용해 빠르게 근사추론을 수행하거나, 국소 영역에서는 EKF나 UKF로 선형화된 추론을 하고, 전역적으로는 Factor Graph 최적화 단계를 병행하는 하이브리드 방식을 쓰는 식이다.

센서퓨전 분야가 갈수록 확장·발전함에 따라, 확률분포 결합과 분해를 위한 기법들도 다채롭게 연구되고 있다. 완벽한 폐루프(closed-form) 해를 구하기 어려울수록, 여러 근사기법과 수치적 해법이 도입되고, 그 과정에서 분포 자체를 어떻게 표현하고 갱신할지를 끊임없이 고민하게 된다. 이러한 연구의 토대는 모두 결합분포, 주변분포, 조건분포, 그리고 이들을 분해·결합하는 베이즈 이론적 사고에 기반한다.