# 조건부 확률과 독립성

#### 조건부 확률의 기초

확률론에서 조건부 확률은 어떤 사건 또는 확률변수가 특정 정보나 사건에 의해 제한되었을 때, 새로운 맥락에서 확률을 어떻게 해석할 것인지를 알려 준다. 센서 퓨전에서도 측정치가 주어지거나 주변 환경 정보가 추가되면, 이에 따라 확률적 추론을 갱신해야 한다. 이런 과정을 체계적으로 다루려면 조건부 확률의 개념이 필수적이다.

사건 $A$와 $B$에 대해, $B$가 발생하였다는 정보가 주어졌을 때 $A$가 발생할 확률을 $P(A|B)$로 표기한다. 이를 조건부 확률이라 하며, 그 정의는 다음과 같다.

$$
.\begin{align} P(A \mid B) &= \frac{P(A,B)}{P(B)} \\
&= \frac{P(B \mid A), P(A)}{P(B)}. \end{align}
$$

여기서 $P(A,B)$는 사건 $A$와 $B$가 동시에 일어날 확률(결합확률)이고, $P(B)$는 사건 $B$가 일어날 확률(단일사건 확률)이다. $P(B)=0$인 상황, 즉 $B$가 발생할 확률이 전혀 없는 경우에는 조건부 확률을 정의할 수 없다.

확률변수 $X$와 $Y$로 확장하면, 어떤 실현값 $x$와 $y$에 대해 결합확률밀도함수 $f\_{X,Y}(x,y)$와 주변확률밀도함수 $f\_X(x)$, $f\_Y(y)$를 가정할 때, 조건부확률밀도함수 $f\_{X\mid Y}(x \mid y)$는

$$
\begin{align} f\_{X \mid Y}(x \mid y) = \frac{f\_{X,Y}(x, y)}{f\_{Y}(y)} \end{align}
$$

로 정의한다. 센서 퓨전에서 자주 다루는 베이즈 정리 역시 이 조건부 확률 개념에서 출발한다. 베이즈 정리는 $A$와 $B$가 사건일 때

$$
\begin{align} P(A \mid B) = \frac{P(B \mid A), P(A)}{P(B)} \end{align}
$$

와 같은 형태로 쓰이며, 확률변수 관점에서는 사후분포(posterior), 우도(likelihood), 사전분포(prior) 등의 개념으로 확장되어 $f(\mathbf{x} \mid \mathbf{z}) \propto f(\mathbf{z} \mid \mathbf{x}) f(\mathbf{x})$와 같은 형태로 응용된다. 센서 퓨전에서 센서가 측정한 데이터 $\mathbf{z}$가 들어오면, 상태 $\mathbf{x}$에 대한 사후분포를 갱신하는 구조가 바로 이러한 조건부 확률의 체계 위에 서 있다.

#### 확률의 곱셈정리와 체인 룰

결합확률은 여러 조건부 확률의 곱으로 나타낼 수 있다. 예를 들어 사건 $A, B, C$가 존재할 때,

$$
\begin{align} P(A,B,C) = P(A) , P(B \mid A) , P(C \mid A,B) \end{align}
$$

와 같은 형태로 전개할 수 있다. 일반적으로 확률변수 $X\_1, X\_2, \dots, X\_n$에 대해서도 체인 룰(chain rule)이 성립한다. 이 점은 센서 퓨전에서 여러 센서로부터 들어오는 측정값을 순차적으로 융합하거나, 서로 다른 시점에서 들어오는 데이터를 통합할 때 중요한 역할을 한다.

조건부 확률을 통해 센서 데이터를 결합할 때는 다음 과정을 상상해 볼 수 있다. 어떤 전체 상태 $\mathbf{x}$를 관측하기 위해 여러 개의 센서 신호 $\mathbf{z}\_1, \mathbf{z}\_2, \dots$가 주어졌다고 할 때, 이를 모두 고려한 사후확률분포는 체인 룰을 사용하여 적절하게 분해할 수 있다. 예를 들어 $\mathbf{z}\_1$이 주어진 상황에서 $\mathbf{z}\_2$가 추가로 들어오면, 추가된 관측에 따라 사후확률을 갱신하는 것이 가능해진다.

#### 독립성과 조건부 독립성

독립성은 확률론에서 중요한 개념이다. 사건 $A$와 $B$가 서로 독립(independent)이라 함은

$$
\begin{align} P(A,B) = P(A),P(B) \end{align}
$$

가 성립함을 의미한다. 센서 퓨전의 관점에서 보면, 두 사건이 독립이라는 것은 한 사건이 일어났다는 정보가 다른 사건의 발생 가능성에 전혀 영향을 미치지 않는다는 뜻이다. 확률변수 $X$와 $Y$에 대해서도 마찬가지로

$$
\begin{align} f\_{X,Y}(x,y) = f\_X(x) , f\_Y(y) \end{align}
$$

가 성립하면 독립이라고 한다. 만일 $X$와 $Y$가 독립이라면, $Y$를 관측해도 $X$에 대한 추론에 변화가 없다. 하지만 실제 센서 퓨전에서는 모든 센서가 완전히 독립이라고 가정하기 어렵다. 센서 환경에 따라 상관관계가 존재할 수 있으며, 이를 고려해야만 정확한 상태 추정이 가능하다.

더 일반적인 개념으로 조건부 독립이 있다. 이는 $C$가 주어졌을 때 $A$와 $B$가 독립임을 말하며, 수식으로는

$$
\begin{align} P(A,B \mid C) = P(A \mid C), P(B \mid C) \end{align}
$$

로 표현한다. 센서 퓨전에서 다른 관측 정보 $C$가 존재하는 상황을 가정하면, 서로 상관되어 있던 $A$와 $B$가 $C$가 주어짐으로써 독립적으로 변할 수 있다. 이를테면 어떤 센서 측정값 $\mathbf{z}\_1$과 또 다른 센서 측정값 $\mathbf{z}\_2$는 각각 기상 상태 $\mathbf{w}$에 의해 상호 인과관계를 가질 수 있지만, 만약 기상 상태 $\mathbf{w}$를 완전히 안다면(또는 충분히 추정했다면) $\mathbf{z}\_1$과 $\mathbf{z}\_2$가 조건부 독립일 수 있다. 이처럼 조건부 독립 가정은 복잡한 확률모델을 단순화하거나 계산부하를 줄이는 데 매우 유용하다.

#### 베이지안 네트워크 시각화

조건부 독립이나 종속 관계는 그래프로 시각화할 수도 있다. 센서 퓨전에서 많이 쓰이는 베이지안 네트워크(Bayesian Network)는 노드가 확률변수를 나타내고, 방향화된 에지가 조건부 종속성을 나타낸다. 예시로 $\mathbf{X}$, $\mathbf{Y}$, $\mathbf{Z}$가 있을 때 다음과 같은 단순 구조를 생각해 보자.

{% @mermaid/diagram content="graph LR
X((X)) --> Z((Z))
Y((Y)) --> Z((Z))" %}

위 그림처럼 $\mathbf{Z}$는 $\mathbf{X}$와 $\mathbf{Y}$에 모두 조건부 종속적일 수 있다. 만약 $\mathbf{Z}$가 주어지면 $\mathbf{X}$와 $\mathbf{Y}$가 독립일 수도 있고(또는 독립이 아닐 수도 있다), 이 모든 조건부 관계는 수식으로 정교하게 기술된다. 따라서 확률 그래프 모형을 구성하면, 어떤 변수가 다른 변수와 독립인지(또는 조건부 독립인지)를 구조적으로 파악할 수 있게 되며, 센서들의 상호 종속성을 한눈에 파악할 수 있다는 장점이 있다.

센서 퓨전 문제에서 각 센서는 환경이라는 ‘은닉변수(hidden variable)’나 ‘외부 영향 변수’를 통해 서로 간접적으로 연결될 수 있다. 이를 그래프로 모델링하면, 독립성·종속성·조건부 독립성을 손쉽게 해석하거나 계산할 수 있다.

#### 조건부 확률의 확장적 해석

센서 퓨전에서는 서로 다른 물리적 특성을 가진 센서들이 다양한 조건을 통해 상호 영향을 주고받는다. 예컨대 레이더 센서와 카메라 센서가 동시에 목표물의 위치를 관측한다면, 두 센서는 환경변수(날씨, 조도, 전파 간섭 등)를 통해 종속적 관계를 형성할 수 있다. 그러나 어떤 환경변수를 완전히 측정했거나 충분히 추정했다면, 해당 조건 하에서 두 센서 관측치 사이에 간접적 종속성이 사라지는 현상이 발생할 수 있다. 이는 조건부 독립성의 대표적인 예시다.

조건부 확률을 다루는 좀 더 확장된 해석은 $P(\mathbf{x}|\mathbf{z})$와 같은 사후분포(posterior)에 대한 이해로 이어진다. 센서 퓨전에서 상태 $\mathbf{x}$를 추정하기 위해 센서 관측 $\mathbf{z}$가 주어졌을 때, 결국 우리가 구하려는 것은 $P(\mathbf{x}|\mathbf{z})$다. 앞선 베이즈 정리를 이용하면

$$
\begin{align} P(\mathbf{x} \mid \mathbf{z}) = \frac{P(\mathbf{z} \mid \mathbf{x}) , P(\mathbf{x})}{P(\mathbf{z})}  \propto P(\mathbf{z} \mid \mathbf{x}) , P(\mathbf{x}) \end{align}
$$

로 표현된다. 여기서 $P(\mathbf{x})$는 사전분포(prior), $P(\mathbf{z} \mid \mathbf{x})$는 우도(likelihood), $P(\mathbf{x}|\mathbf{z})$는 사후분포(posterior)이다. 분모 $P(\mathbf{z})$는 정규화 항(normalizing constant) 역할을 하며, 모든 가능한 $\mathbf{x}$에 대해 $P(\mathbf{z} \mid \mathbf{x}) , P(\mathbf{x})$를 적분한 값에 해당한다.

조건부 확률을 통해 센서 데이터를 결합할 때, 각 센서가 어떤 조건에서 어떻게 독립·종속 관계를 맺는지 파악하는 것은 매우 중요하다. 이를 적절히 고려해야만 정확한 사후분포 추정과 신뢰도 높은 상태 추정이 가능해진다.

#### 확률분포의 인과구조와 조건부 확률

많은 센서 퓨전 모델에서는 상태전이(state transition)나 시스템 동역학을 가정한다. 이를 단순화한 형태가 ‘마코프 사슬(Markov chain)’ 구조이다. 확률변수 $\mathbf{X}\_t$가 시간 $t$에서의 상태를 나타낼 때, 마코프 가정(Markov assumption)은

$$
\begin{align} P(\mathbf{X}*t \mid \mathbf{X}*{t-1}, \mathbf{X}\_{t-2}, \dots, \mathbf{X}\_0) = P(\mathbf{X}*t \mid \mathbf{X}*{t-1}) \end{align}
$$

이 성립함을 의미한다. 즉 현재 상태 $\mathbf{X}*t$는 바로 이전 상태 $\mathbf{X}*{t-1}$만 주어지면, 그 이전의 $\mathbf{X}\_{t-2}, \dots, \mathbf{X}\_0$는 추가적 정보가 되지 않는다는 것이다. 센서 퓨전에서 시스템이 이러한 마코프 특성을 갖는다면, 상태 추정이 보다 단순해진다.

측정값에 대해서도 비슷한 아이디어가 적용된다. 여러 시점 혹은 여러 종류 센서의 관측값이 있을 때, 어느 시점의 관측값이 다른 시점의 상태나 관측값과 어떠한 조건부 종속성을 갖는지를 파악하면, 필요한 확률분포를 체계적으로 인수분해(factorization)할 수 있다. 이를 확률 그래프 모형(Bayesian Network, Markov Random Field 등)으로 표현하면, 각 노드(확률변수)와 엣지(조건부 의존성)로 인과구조를 시각화하게 된다.

#### 예: 숨은 마코프 모델(Hidden Markov Model)

숨은 마코프 모델(Hidden Markov Model, HMM)은 상태가 마코프 사슬을 이루고, 관측값이 각 상태에 의해 조건부 종속적이라고 가정하는 대표적인 확률모형이다. 시간 $t$에서의 상태를 $\mathbf{X}\_t$, 관측값을 $\mathbf{Z}\_t$라 하면, HMM에서의 기본 가정은

$$
\begin{align} P(\mathbf{X}*t \mid \mathbf{X}*{t-1}, \mathbf{X}*{t-2}, \dots, \mathbf{Z}*{t-1}, \mathbf{Z}\_{t-2}, \dots) = P(\mathbf{X}*t \mid \mathbf{X}*{t-1}) \end{align}
$$

$$
\begin{align} P(\mathbf{Z}*t \mid \mathbf{X}*t, \mathbf{X}*{t-1}, \dots, \mathbf{Z}*{t-1}, \dots) = P(\mathbf{Z}\_t \mid \mathbf{X}\_t) \end{align}
$$

이다. 즉 상태 전이는 순수한 마코프 과정이고, 관측값은 현재 상태에만 직접적으로 의존한다. 베이지안 네트워크 관점에서 다음과 같은 구조를 갖는다.

{% @mermaid/diagram content="graph LR
X0((X\_0)) --> X1((X\_1)) --> X2((X\_2)) --> X3((X\_3))
Z1((Z\_1)) --> X1((X\_1))
Z2((Z\_2)) --> X2((X\_2))
Z3((Z\_3)) --> X3((X\_3))    " %}

그림에서 볼 수 있듯, $\mathbf{X}*t$와 $\mathbf{X}*{t+1}$이 순차적으로 연결되고, 각각의 상태에서 관측값이 방사형으로 연결된다. 이 구조는 센서 퓨전에서 시간적으로 변하는 시스템을 모델링할 때 널리 사용된다. 예컨대 로봇의 위치추정 문제에서 $\mathbf{X}\_t$는 로봇의 위치(또는 자세, 속도 등 상태변수)를 나타내고, $\mathbf{Z}\_t$는 LiDAR, 카메라, IMU 등 다양한 센서들의 측정값을 나타낼 수 있다.

조건부 독립성의 관점에서 보면, 현재 상태 $\mathbf{X}*t$를 알면, 과거 시점의 상태들 $\mathbf{X}*{0}, \dots, \mathbf{X}*{t-2}$와 미래 시점의 관측 $\mathbf{Z}*{t+1}, \mathbf{Z}\_{t+2}, \dots$는 독립이다. 또한 현재 상태 $\mathbf{X}\_t$만으로 현재 관측 $\mathbf{Z}\_t$는 완전히 설명이 가능하다고 가정하기 때문에, $\mathbf{Z}\_t$는 $\mathbf{X}\_t$만을 통해서만 과거(또는 미래)와 연결된다.

#### 상태추정과 조건부 확률

HMM을 포함한 다양한 확률 모형에서 가장 궁극적인 목표는 잠재 상태 $\mathbf{X}\_t$를 가능한 한 정확하게 추정하는 것이다. 센서 퓨전은 이를 위해 여러 시점, 여러 센서로부터의 관측값을 통합한다. 구체적으로는 사후확률 $P(\mathbf{X}*t \mid \mathbf{Z}*{1:t})$을 추정하거나, 온라인(online) 업데이트 시에는 $P(\mathbf{X}*t \mid \mathbf{Z}*{1:t})$을 순차적으로 갱신한다.

베이지안 필터(Bayesian filter)들은 이 과정을 일반화한 알고리즘적 틀이다. 특히 칼만 필터(Kalman filter)는 선형 가우시안 가정 하에서 최적(최소제곱오차 관점의 최적해) 추정을 제공하고, 파티클 필터(Particle filter)는 비선형·비가우시안 상황에서도 견고하게 적용할 수 있는 대표적 방법이다. 이들 알고리즘은 조건부 확률 분포를 반복적으로 갱신하는 구조를 가지며, 센서 측정치가 들어올 때마다 예측단계(prediction)와 갱신단계(update)를 거쳐 상태분포를 추정한다.

#### 조건부 독립성을 통한 계산량 절감

센서가 늘어날수록 모든 센서 간 상관관계를 직접 고려한다면 계산 부담이 기하급수적으로 증가한다. 조건부 독립성 가정은 이런 복잡도를 크게 완화해 준다. 예컨대 센서 관측값 $\mathbf{z}\_1, \mathbf{z}\_2, \dots, \mathbf{z}\_n$이 은닉변수 $\mathbf{w}$에 의해만 서로 연결된다고 할 때,

$$
\begin{align} P(\mathbf{z}\_1, \dots, \mathbf{z}*n \mid \mathbf{w}) = \prod*{i=1}^n P(\mathbf{z}\_i \mid \mathbf{w}). \end{align}
$$

이런 조건부 독립 구조가 성립하면, 각 관측값에 대한 확률을 따로 계산한 뒤 곱하는 방식으로 전체 결합확률을 구할 수 있으므로 계산이 크게 단순화된다. 실제 상황에서는 완전한 독립성보다는 (부분적·근사적) 조건부 독립성이 자주 가정되며, 이는 센서 퓨전 알고리즘의 효율성을 높이는 핵심 아이디어 중 하나다.

#### 고차원 센서 데이터에서의 조건부 확률

최근 센서 퓨전 분야에서는 카메라, LiDAR, 레이더, 음향 센서, 휴먼 바이오센서 등 다양한 종류의 센서가 한 번에 대량의 데이터를 생성한다. 이미지나 포인트클라우드(point cloud) 같은 고차원 데이터는 직접 확률분포를 정의하기가 매우 복잡하고, 센서 간 상관관계도 고차원 공간에서 복잡하게 나타난다. 이를 처리하기 위해서는 차원축소 기법이나 특징추출(feature extraction) 기법을 적용한 뒤, 추출된 특징들에 대해 조건부 확률을 모델링하는 전략이 종종 사용된다.

예를 들어 딥러닝 기반의 이미지 특징추출(Convolutional Neural Network, CNN)을 통해 저차원 잠재표현 $\mathbf{h}$를 얻고, 그 상태에서 다른 센서 측정치들과 조건부 확률 관계를 설계하면 복잡도가 줄어들 수 있다. 이처럼 실제 센서 퓨전 시스템에서는 전처리 단계를 통해 특징을 추출하고, 추출된 특징들 간의 조건부 확률 구조를 파악해 종합적 결합확률을 구한다.

#### 조건부 독립성의 고급 개념

서로 다른 확률변수 사이에 존재하는 독립성을 이해할 때, 단순 독립성뿐 아니라 조건부 독립성, 쌍별 독립성(pairwise independence), 상호 독립성(mutual independence), 그리고 네트워크 구조에서의 d-separation과 같은 다양한 개념들이 더 정교하게 쓰인다. 센서 퓨전과 같은 복잡한 문제에서는 여러 변수(또는 센서)의 정보를 모두 모아야 하므로, 어떤 식으로 확률모형을 단순화할 수 있는지 파악하는 것이 중요하다.

서로 다른 확률변수 $X, Y, Z$가 있을 때, $X$와 $Y$가 $Z$ 조건에서 독립이라는 뜻은 $P(X,Y\mid Z) = P(X\mid Z),P(Y\mid Z)$로 표현된다. 반면 쌍별 독립은 세 변수 $X, Y, Z$에서 모든 쌍 $(X,Y)$, $(Y,Z)$, $(Z,X)$가 독립이라는 뜻이다. 그러나 이 세 쌍이 모두 독립이라 해서 세 변수가 동시에 상호 독립인 것은 아니다. 상호 독립(mutual independence)은 모든 부분집합에서의 독립성을 보장해야 하는 훨씬 강력한 조건이기 때문에, 실제 센서 퓨전 상황에서 세 개 이상의 센서가 상호 독립이라는 가정을 그대로 적용하기는 쉽지 않다.

조건부 독립성은 그래프적 모델에서 아주 중요한 역할을 한다. 예컨대 베이지안 네트워크(Bayesian Network)에서 d-분리(d-separation)라는 개념이 사용되는데, 이는 어떤 두 변수 사이에 정보를 전달하는 경로가 특정 조건에서 차단(block)되는지를 판별하는 방법이다. d-분리를 통해 두 변수가 주어진 조건에서 독립인지 여부를 쉽게 판별할 수 있다. 이런 기법은 센서가 많고 환경변수가 다수 존재하는 복잡한 센서 퓨전 모델을 분석할 때, 인과 구조를 시각적으로 해석하고 계산량을 줄이는 데 유용하다.

#### 마코프 네트워크와 조건부 독립성

베이지안 네트워크가 방향화된 그래프라면, 마코프 랜덤 필드(Markov Random Field, MRF)는 방향이 없는 그래프 구조로 확률변수들의 상호 종속성을 나타낸다. 센서 퓨전에서 특히 공간적 상관관계를 다룰 때, MRF 모델이 활용될 수 있다. 예를 들어 로봇 맵핑 문제에서 지도(grid) 상의 인접 지점들은 서로 강한 상관관계를 갖지만, 먼 지점들은 비교적 약한 상관관계를 가질 것으로 가정할 수 있다. 이를 무방향 그래프로 표현하고, 국소 영역(Local neighborhood)에서만 결합항을 두어 전체 확률분포를 나타내면, 큰 지도를 효율적으로 모델링할 수 있다.

MRF에서의 조건부 독립성은 그래프 상에서 두 노드(확률변수)가 분리되는 구간이 존재하느냐로 판별한다. 두 노드를 분리하는 세트(또는 절단세트)가 주어졌을 때, 그 세트가 두 노드 간 연결경로를 차단한다면 그 노드들은 해당 세트가 주어진 상황에서 조건부 독립이다. 이는 베이지안 네트워크에서의 d-분리 개념과 유사하나, 방향이 없다는 점에서 차이가 있다.

#### 팩터 그래프와 메시지 패싱

베이지안 네트워크나 MRF 같은 그래프 구조를 메시지 패싱 알고리즘(message passing algorithm)으로 해석하기 쉽게 만든 표현이 팩터 그래프(Factor Graph)다. 팩터 그래프는 변수 노드와 팩터 노드의 이분 그래프(bipartite graph)로 이루어지며, 전체 확률분포를 여러 국소적인 함수(팩터)들의 곱으로 나타낸다.

센서 퓨전에서도 여러 관측이 결합하여 만들어지는 결합확률 $P(\mathbf{x}, \mathbf{z}\_1, \dots, \mathbf{z}\_n)$을 팩터 그래프 형태로 설계할 수 있다. 예를 들어 숨은 변수 $\mathbf{x}$가 있고, 각 센서의 측정치 $\mathbf{z}\_i$가 조건부 독립이라면, 이는

$$
\begin{align} P(\mathbf{x}, \mathbf{z}\_1, \dots, \mathbf{z}*n) = P(\mathbf{x}) \prod*{i=1}^{n} P(\mathbf{z}\_i \mid \mathbf{x}) \end{align}
$$

와 같이 팩터링(factorization)된다. 이를 그래프로 표현하면 $\mathbf{x}$ 변수 노드와 각 측정치 $\mathbf{z}\_i$ 변수 노드, 그리고 이들을 연결하는 우도(likelihood) 팩터 노드로 구성된 이분 그래프를 얻게 된다. 메시지 패싱 알고리즘은 그래프 위에서 메시지를 주고받으며 국소적 계산을 반복함으로써 전체 분포의 주변화(marginalization)나 최대사후추정(MAP 추정) 등을 효율적으로 수행한다.

#### 상관성(correlation)과 독립성의 차이

센서 퓨전에서 자주 헷갈리는 개념으로, 상관성(correlation)이 없다는 것이 곧 독립임을 의미하진 않는다는 점이 있다. 두 확률변수 $X$와 $Y$가 상관계수(correlation coefficient) 0을 가지더라도, 비선형 종속관계가 존재할 수 있다. 독립이란 “어떠한 함수적 관계도 없다”라는 강력한 조건이며, 단순히 상관계수로 판단하기에는 부족하다. 센서 퓨전 응용에서 센서들 사이에 상관관계가 낮다고 해서, 무조건 독립 가정을 적용해도 된다고 볼 수는 없다.

그러나 실무적으로 계산 편의를 위해 상관관계가 작은 센서쌍에 대해 독립 가정을 적용하는 사례가 많다. 특히 측정잡음이 서로 다른 물리적 특성에 의해 유발되는 경우, 두 센서 잡음은 상관관계가 매우 낮아지는 경향이 있으므로 실용적인 관점에서는 이를 근사적 독립으로 간주하기도 한다. 동시에, 동일한 환경잡음이나 시스템 내부 잡음을 공유하는 센서들은 일정 수준 이상 상관관계를 갖기 때문에, 이를 적절히 고려해야 센서 융합의 성능을 높일 수 있다.

#### 고차원 확률 공간에서의 조건부 독립 활용

현대 센서 퓨전은 고차원 확률공간에서 이루어지는 경우가 많다. 예컨대 자율주행차에서 카메라, LiDAR, 레이더, IMU 등 다양한 센서가 수집하는 데이터는 매우 복잡하다. 이 때, 모든 변수(픽셀, 포인트클라우드의 포인트, 가속도, 각속도, GPS 측정값 등) 간 종속관계를 일일이 고려하면 계산이 불가능할 정도로 방대해진다.

따라서 문제를 해결하기 위해선 조건부 독립성 가정, 희소성(sparsity) 가정, 저차원 잠재변수 활용 등 여러 기법이 결합된다. 특히 딥러닝에서 추출된 특성벡터를 이용하면, 센서 데이터가 고차원이라도 특성벡터 차원은 상대적으로 낮을 수 있으므로, 그 상태에서 조건부 확률이나 독립성 가정을 세우기가 쉬워진다. 예컨대 카메라 이미지를 CNN으로 처리해 특정 물체의 위치나 특징값을 얻고, 이를 다른 센서의 특징값과 통합할 때, 서로의 특성이 조건부 독립임을 가정하여 결합모델을 단순화하는 식이다.

#### 센서 퓨전 알고리즘에서의 조건부 확률 단계

여러 센서가 출력한 측정값을 융합하는 대표적인 알고리즘들은 베이지안 필터 계열(칼만 필터, 확장 칼만 필터, 무향 칼만 필터, 파티클 필터 등), 순차 몬테카를로(smc) 방법, 그래프 최적화(그래프SLAM) 기법 등이 있다. 이 알고리즘들에서 공통적으로 사용하는 아이디어는 “현재까지 측정된 정보(또는 이전 시점 상태)에 대한 조건부 분포를 갱신한다”는 것이다. 예를 들어 칼만 필터에서

$$
\begin{align} \mathbf{x}*{t}^\text{pred} &= \mathbf{F},\mathbf{x}*{t-1}^\text{est},  \\
\mathbf{P}*{t}^\text{pred} &= \mathbf{F},\mathbf{P}*{t-1}^\text{est},\mathbf{F}^\mathsf{T} + \mathbf{Q}, \end{align}
$$

$$
\begin{align} \mathbf{K}*t &= \mathbf{P}*{t}^\text{pred},\mathbf{H}^\mathsf{T},(\mathbf{H},\mathbf{P}*{t}^\text{pred},\mathbf{H}^\mathsf{T} + \mathbf{R})^{-1}, \\
\mathbf{x}*{t}^\text{est} &= \mathbf{x}\_{t}^\text{pred} + \mathbf{K}*t\bigl(\mathbf{z}*t - \mathbf{H},\mathbf{x}*{t}^\text{pred}\bigr), \\
\mathbf{P}*{t}^\text{est} &= \bigl(\mathbf{I} - \mathbf{K}*t,\mathbf{H}\bigr),\mathbf{P}*{t}^\text{pred}, \end{align}
$$

와 같이 예측(prediction) 단계와 갱신(update) 단계를 거치며 상태추정을 한다. 여기서 측정값 $\mathbf{z}\_t$와 상태 $\mathbf{x}\_t$ 사이의 모델(행렬 $\mathbf{H}$), 잡음 공분산(행렬 $\mathbf{R}$) 등을 정의할 때, 센서 측정치가 서로 조건부 독립이라는 전제 하에 모델을 단순화한다. 여러 센서를 동시에 사용한다면, 측정잔차를 합쳐서 업데이트하거나, 센서별 업데이트를 순차적으로 수행해도 동일한 결과를 낸다. 이는 곱셈정리를 통한 결합확률 인수분해와 대응되며, 센서 간 잡음이 서로 독립이라는 가정하에서만 간단히 수행 가능하다.

#### 센서 노이즈 독립 가정의 한계와 확장

현실적으로 센서 노이즈는 완전히 독립이 아닐 수 있다. 예를 들어 진동이 심한 환경에 위치한 로봇에서는 진동이 모든 센서에 동시에 영향을 미쳐, 센서 노이즈들 사이에 상관이 생긴다. 이 경우 칼만 필터의 $\mathbf{R}$ 행렬을 블록 구조로 설정하거나, 측정 노이즈 공분산을 적절히 추정해야 한다. 상관된 센서 노이즈를 무시하면 추정 결과가 편향(bias)되거나 정확도가 떨어질 수 있다.

고급 센서 퓨전에서는 공동 잡음모델(joint noise model)을 사용하거나, 잡음의 공분산을 시변(time-varying)으로 설정해 상황에 따라 업데이트한다. 오차제곱합(minimum mean square error) 추정 기준 외에도, 다른 비용함수를 정의하여 강건성(robustness)을 향상시키는 경우도 있다. 이런 모든 접근은 확률적 관점에서 센서 간 조건부 확률과 독립성의 구조를 어떻게 모델링하느냐에 따라 달라진다.

#### 확률적 추론에서의 근사적 추론 기법

센서 퓨전 문제에서 모델의 차원이 높아지고, 센서 사이의 상호 종속성이 복잡해지면, 정확한 사후분포 $P(\mathbf{x} \mid \mathbf{z})$를 해석적(analytic)으로 구하거나 직접 샘플링하기 어렵다. 이럴 때는 확률적 추론 알고리즘에서 근사기법(approximate inference)이 적극적으로 활용된다. 대표적으로 몬테카를로(Monte Carlo) 기법, 변분추론(variational inference), 메시지 패싱(message passing) 등이 있다.

**몬테카를로 기법**

몬테카를로 기법은 샘플 기반으로 확률분포를 근사한다. 예를 들어 파티클 필터(Particle Filter)는 숨은 마코프 모델(HMM) 구조에서 사후분포를 $N$개의 파티클로 표현하고, 각 파티클에 대응하는 가중치(weight)를 갱신하여 분포를 추정한다. 이 과정에서 사용하는 핵심 아이디어는 다음과 같이 요약된다:

$$
\begin{align} P(\mathbf{x}*t \mid \mathbf{z}*{1:t}) \approx \sum\_{i=1}^N w\_t^{(i)} , \delta\bigl(\mathbf{x}\_t - \mathbf{x}\_t^{(i)}\bigr), \end{align}
$$

여기서 $\mathbf{x}\_t^{(i)}$는 $i$번째 파티클의 상태, $w\_t^{(i)}$는 그 파티클의 가중치, $\delta(\cdot)$는 디랙 델타 함수를 의미한다. $N$이 커지면(샘플 수가 충분히 많아지면) 수치적으로 사후분포에 근접할 수 있다.

조건부 확률과 독립성 개념은 파티클 필터에서도 중요한 역할을 한다. 예를 들어 센서 측정값 $\mathbf{z}\_t$들이 서로 조건부 독립이라고 가정한다면, 상태 $\mathbf{x}\_t$에 대한 우도 $P(\mathbf{z}\_t \mid \mathbf{x}\_t)$를 센서별 우도의 곱으로 인수분해할 수 있으므로 계산이 단순화된다. 또한 그 반대의 상황, 즉 센서 간 잡음이 상관되어 있으면 우도 항을 다르게 정의해야 한다.

**변분추론(Variational Inference)**

변분추론은 복잡한 분포 $P(\mathbf{x})$를 직접 다루기 어려울 때, 더 단순한 분포 군(family) $Q(\mathbf{x})$ 중에서 $P(\mathbf{x})$에 가장 가까운 분포를 최적화 기반으로 찾는 기법이다. 예를 들어 $Q(\mathbf{x})$를 인수분해 가능한 형태(즉, 부분적으로 독립 가정이 들어간 분포)로 설정하면, 원래의 분포 $P(\mathbf{x})$를 특정 지표(주로 쿨백-라이블러 발산(KL divergence))가 최소화되도록 근사할 수 있다.

이때 여러 변수 간 조건부 독립성 가정이 들어가면 $Q(\mathbf{x})$가 크게 단순화되므로 계산량이 줄고, 근사분포를 찾는 알고리즘이 더욱 효율적이 된다. 센서 퓨전 문제에서 고차원 상태와 복잡한 센서관측 모델을 동시에 다뤄야 할 때, 변분추론 접근이 유효한 선택지가 될 수 있다. 예를 들어 로봇의 SLAM 문제에서 지도(grid)와 로봇 위치를 동시에 추정하려면 매우 높은 차원의 상태 공간이 형성되는데, 일부 부분 독립성 가정으로 변분추론을 적용해 계산 부담을 줄일 수 있다.

**메시지 패싱(Message Passing)**

조건부 확률과 독립성 구조가 그래프적 모델(베이지안 네트워크나 마코프 랜덤 필드, 팩터 그래프)로 표현되면, 메시지 패싱 알고리즘으로 주변화(marginalization)나 최대사후추정(MAP 추정)을 근사적으로 수행할 수 있다. 대표적으로 믿음전파(belief propagation)나 로파-샤메퍼(Loopy belief propagation), 파티클 기반 믿음전파 등이 있다.

메시지 패싱은 그래프의 엣지를 따라 ‘메시지’라 불리는 국소적 정보를 주고받으며, 각 노드(또는 팩터)에서 할당된 함수를 업데이트해 전체적인 사후분포를 근사하는 방식이다. 나무(tree) 구조인 그래프에 대해서는 믿음전파가 정확한 해를 구하지만, 루프(loop)가 있는 일반 그래프에서는 근사해가 되기도 한다. 센서 퓨전에서 여러 센서와 은닉변수를 그래프로 구성하면, 이러한 메시지 패싱 기법을 적용해 확률 분포를 효율적으로 추론할 수 있다.

#### 정보이론적 관점에서의 독립성과 상호정보량

정보이론에서는 확률변수 $\mathbf{X}$와 $\mathbf{Y}$ 사이의 상호정보량(mutual information)을 다음과 같이 정의한다.

$$
\begin{align} I(\mathbf{X}; \mathbf{Y}) = \int P(\mathbf{x}, \mathbf{y}) \log \frac{P(\mathbf{x}, \mathbf{y})}{P(\mathbf{x}) , P(\mathbf{y})}  , d\mathbf{x} , d\mathbf{y}. \end{align}
$$

만약 $\mathbf{X}$와 $\mathbf{Y}$가 독립이라면, $P(\mathbf{x}, \mathbf{y}) = P(\mathbf{x}),P(\mathbf{y})$이므로 로그항이 0이 되고, 결국 $I(\mathbf{X}; \mathbf{Y}) = 0$이 된다. 즉 상호정보량이 0이라는 것은 두 확률변수가 완전히 독립임을 의미한다. 센서 퓨전 관점에서 상호정보량은 “서로 다른 센서들이 공유하는 정보의 양”을 측정하는 잣대로 쓰일 수 있다. 상호정보량이 큰 센서쌍일수록 중복된 정보를 가지고 있거나(같은 대상을 측정), 서로 강하게 관련된 물리적 특성을 반영할 가능성이 크다.

센서 배치 설계(sensor placement)나 센서 선택(sensor selection) 문제에서도, 상호정보량을 극대화하거나 혹은 불필요한 중복을 줄이는 방향으로 센서를 구성하는 방법이 연구되어 왔다. 예컨대 특정 센서가 이미 충분한 정보를 제공한다면, 상관관계가 매우 높은 센서를 추가했을 때 얻는 이득은 제한적일 수 있다. 반면 서로 독립적인 정보를 주는 센서를 복수로 두면, 불확실성을 더 효과적으로 줄일 수 있다.

#### 실제 센서 퓨전에서의 모델링 예시

아래 예시 스케치는 센서 두 개($\mathbf{z}\_1$, $\mathbf{z}\_2$)로부터 얻은 측정치가 상태 $\mathbf{x}$에 대해 조건부 독립이라는 가정하에, 간단한 베이즈 업데이트를 수행하는 모습을 Octave 코드로 보일 수 있다.

```octave
% 사전분포 P(x)를 가우시안으로 가정
x = linspace(-10, 10, 500); 
prior_mean = 0;
prior_var = 4;
prior = exp(-0.5*((x - prior_mean).^2 / prior_var));
prior = prior / sum(prior);  % 정규화

% 센서 1의 우도 P(z1|x) (가우시안 가정)
z1_obs = 2.0;
sensor1_noise_var = 1.0;
lik1 = exp(-0.5*((z1_obs - x).^2 / sensor1_noise_var));
lik1 = lik1 / sum(lik1);

% 센서 2의 우도 P(z2|x) (가우시안 가정)
z2_obs = -1.0;
sensor2_noise_var = 1.0;
lik2 = exp(-0.5*((z2_obs - x).^2 / sensor2_noise_var));
lik2 = lik2 / sum(lik2);

% 조건부 독립 가정하에서 사후분포는 P(x|z1,z2) ~ P(x) * P(z1|x) * P(z2|x)
posterior = prior .* lik1 .* lik2;
posterior = posterior / sum(posterior);

plot(x, prior, 'b', x, lik1, 'r--', x, lik2, 'g--', x, posterior, 'k', 'LineWidth', 2);
legend('Prior', 'Likelihood 1', 'Likelihood 2', 'Posterior');
xlabel('State x'); ylabel('Probability');
title('Simple Bayesian Update with Conditional Independence');
```

위 코드에서는 다음과 같은 단계가 수행된다.

* 상태변수 $\mathbf{x}$에 대한 사전분포 $P(\mathbf{x})$를 1차원 가우시안으로 가정.
* 센서 1과 센서 2 각각에 대한 측정값 $z\_1, z\_2$가 있고, 노이즈를 가우시안으로 가정하여 우도 $P(z\_i \mid x)$를 계산.
* 두 센서 측정이 상태 $\mathbf{x}$에 대해 조건부 독립이라고 가정하므로, 우도들을 곱해 최종 사후분포를 형성.
* 결과적으로 사후분포가 더욱 예리해져서 불확실성이 줄어드는 것을 확인할 수 있음.

이 예시는 가장 기본적인 형태지만, 센서가 늘어나고 관측모델이 복잡해져도 “조건부 확률의 곱”으로 사후분포를 구성한다는 핵심은 동일하다. 차이가 있다면 우도항(또는 잠재변수 포함 시 결합확률항)을 모델링할 때, 조건부 독립성 여부에 따라 곱셈 구조가 달라지거나, 상관된 노이즈 공분산을 써야 한다는 점이다.

#### 정리

조건부 확률과 독립성은 센서 퓨전의 이론적 기반을 이루는 중요한 개념이다. 실제 센서 퓨전 알고리즘에서 사후분포를 갱신하고, 센서 간 종속성을 고려해 모델링하며, 계산량을 줄이는 핵심 아이디어로 널리 쓰인다. 확률 그래프 모델, 베이지안 필터, 정보이론적 접근 등 다양한 관점에서 이 개념을 적용할 수 있으며, 필요에 따라 근사적 추론 기법이나 고차원 특징추출 방법과 결합하여 유연하고 효율적인 센서 융합을 구현한다.
