# 베이즈 확률론 (Bayesian Probability Theory)

#### 확률의 해석: 빈도주의 vs. 베이즈

확률론에서 확률은 크게 빈도주의적(frequentist) 해석과 베이즈(Bayesian) 해석으로 나눌 수 있다.

* **빈도주의적 확률**은 실험을 무한히 반복했을 때 특정 사건이 발생할 비율로 정의되며, 객관적이다.
* 반면, **베이즈 확률**은 특정 사건에 대한 주관적 신념의 정도를 나타내며, 이는 새로운 정보에 따라 갱신될 수 있다.

베이즈 접근에서는 확률을 개인적 믿음의 표현으로 보고, 이는 관찰된 데이터와 사전 신념(prior belief)에 의해 수정될 수 있다.

#### 베이즈 정리 (Bayes' Theorem)

베이즈 확률론의 근간이 되는 것은 \*\*베이즈 정리(Bayes' Theorem)\*\*이다. 이 정리는 사전 확률(prior probability)을 통해 사후 확률(posterior probability)을 계산하는 방법을 제시한다. 베이즈 정리는 다음과 같은 수식으로 표현된다.

$$
P(A|B) = \frac{P(B|A) P(A)}{P(B)}
$$

여기서:

* $ P(A|B) $는 \*\*사후 확률(posterior probability)\*\*로, 사건 B가 일어난 후 사건 A가 일어날 확률이다.
* $ P(B|A) $는 \*\*우도(likelihood)\*\*로, 사건 A가 일어났을 때 사건 B가 일어날 확률이다.
* $ P(A) $는 \*\*사전 확률(prior probability)\*\*로, 사건 A가 일어날 사전적인 확률이다.
* $ P(B) $는 \*\*정규화 상수(normalizing constant)\*\*로, 사건 B가 일어날 전체 확률이다.

베이즈 정리는 정보를 업데이트하는 규칙을 제시하며, 새로운 데이터가 주어졌을 때 기존의 신념(확률)을 어떻게 수정해야 하는지를 계산한다.

#### 주관적 확률 (Subjective Probability)

베이즈 확률론에서 확률은 주관적인 믿음(belief)을 수치화한 것으로 해석된다. 이는 빈도주의 확률론(frequentist probability)이 객관적 빈도를 기반으로 확률을 정의하는 것과 대조적이다. 베이즈 확률론에서 확률은 주어진 정보 하에서 특정 사건이 발생할 가능성에 대한 믿음을 표현한다.

이 주관적 확률은 정보가 갱신됨에 따라 동적으로 변화할 수 있으며, 새로운 데이터나 증거가 추가되면 베이즈 정리를 통해 신념이 업데이트된다. 이러한 접근 방식은 불확실한 상황에서 의사결정을 내리는데 유리하다.

#### 사전 확률 (Prior Probability)

사전 확률은 베이즈 확률론에서 핵심적인 요소 중 하나로, 사건이 일어나기 전에 갖고 있는 믿음을 표현한다. 사전 확률은 두 가지로 구분될 수 있다.

* **비정보적 사전 확률(non-informative prior)**: 사전 정보가 거의 없거나 전혀 없는 경우, 모든 가능한 결과에 대해 균등한 확률을 할당하는 방법이다. 이때 사용하는 사전 확률은 일반적으로 균등분포(uniform distribution)나 최대 엔트로피(maximum entropy) 원리를 따르게 된다.
* **정보적 사전 확률(informative prior)**: 과거의 데이터나 사전 지식이 있는 경우, 이를 반영하여 특정 사건에 대해 더 높은 확률을 부여한다.

사전 확률의 선택은 최종 결과에 큰 영향을 미칠 수 있으므로, 이를 신중하게 고려해야 한다. 특히, 주관적 해석이 포함된 정보적 사전 확률의 경우, 사전 지식의 품질과 타당성이 중요하다.

#### 사후 확률 (Posterior Probability)

사후 확률은 새로운 데이터를 반영한 후의 사건에 대한 믿음을 나타낸다. 이는 사전 확률을 우도와 결합하여 계산되며, 베이즈 정리를 통해 구해진다. 사후 확률은 기존의 정보(사전 확률)와 새로운 증거(우도)를 결합한 결과로, 의사결정이나 추론에 사용된다.

사후 확률은 사전 확률과 우도의 곱을 전체 데이터의 우도로 나눈 값으로, 수식적으로는 다음과 같다.

$$
P(A|B) = \frac{P(B|A) P(A)}{P(B)}
$$

여기서 $ P(B) $는 정규화 상수로서, 데이터가 주어졌을 때 발생할 수 있는 모든 가능한 사건에 대한 확률을 고려한 값이다.

#### 예측 분포 (Predictive Distribution)

예측 분포는 주어진 데이터와 사전 신념에 기반하여 새로운 데이터를 예측하는 분포를 말한다. 베이즈 방법론에서는 사후 확률을 바탕으로 새로운 데이터의 발생 가능성을 예측할 수 있으며, 이는 예측 분포를 통해 표현된다. 이 과정은 불확실성을 포함한 예측을 가능하게 하며, 모델의 성능을 평가하는 데 중요하다.

#### 우도 (Likelihood)

우도는 주어진 매개변수 하에서 데이터를 관찰할 확률을 의미한다. 수식적으로, $ P(B|A) $로 나타내며, 특정 가설(또는 매개변수 A)이 참일 때 관찰된 데이터 B가 발생할 확률을 계산하는 것이다.

우도는 베이즈 정리에서 중요한 역할을 한다. 사전 확률과 우도의 곱을 통해 사후 확률을 계산하며, 우도는 새로운 데이터가 주어졌을 때, 그 데이터가 어떤 가설을 얼마나 잘 설명하는지를 평가하는 역할을 한다.

베이즈 추론에서는 우도를 최대화하는 매개변수 값을 찾는 방법인 \*\*최대 우도 추정(MLE, Maximum Likelihood Estimation)\*\*이 널리 사용된다. 그러나 베이즈 접근법에서는 우도를 단독으로 사용하지 않고, 사전 확률과 결합하여 최종적으로 사후 확률을 계산한다는 점에서 MLE와 차이가 있다.

#### 정규화 상수 (Normalizing Constant)

베이즈 정리에서 $ P(B) $는 정규화 상수로 불린다. 이는 주어진 데이터가 발생할 전체 확률을 의미하며, 모든 가능한 사건에 대해 확률이 1이 되도록 확률 분포를 정규화하는 역할을 한다. 수식적으로는 다음과 같이 표현된다.

$$
P(B) = \sum\_{i} P(B|A\_i) P(A\_i)
$$

여기서 $ A\_i $는 가능한 모든 사건의 집합이다. 정규화 상수는 사후 확률이 항상 0에서 1 사이의 값으로 존재하도록 보장한다.

#### 베이즈 추론 (Bayesian Inference)

베이즈 확률론의 핵심은 베이즈 추론(Bayesian Inference)이다. 이는 관측된 데이터를 바탕으로 매개변수나 가설의 분포를 업데이트하는 과정을 말한다. 베이즈 추론은 사전 확률, 우도, 그리고 새로운 데이터를 바탕으로 사후 확률을 계산하는 방식으로 진행된다.

베이즈 추론의 특징은 불확실성에 대한 보다 직관적이고 유연한 처리 방식을 제공한다는 점이다. 빈도주의와 달리, 베이즈 추론은 확률을 "미지의 매개변수에 대한 신념"으로 간주하고, 관측 데이터가 주어졌을 때 매개변수의 확률 분포를 계산한다.

베이즈 추론의 주요 절차는 다음과 같다.

1. **사전 확률 설정**: 관찰 전 매개변수에 대한 신념을 반영하는 확률 분포를 설정한다.
2. **우도 계산**: 주어진 매개변수 값에서 관찰된 데이터가 발생할 확률을 계산한다.
3. **사후 확률 계산**: 베이즈 정리를 이용해 사전 확률과 우도를 결합하여 사후 확률을 계산한다.

#### 베이즈 추정 (Bayesian Estimation)

베이즈 추정(Bayesian Estimation)은 주어진 데이터를 기반으로 미지의 매개변수에 대한 사후 확률 분포를 추정하는 방법이다. 이때 추정된 매개변수는 단일 값이 아니라 확률 분포로 표현되며, 이 확률 분포는 데이터의 불확실성을 반영한다.

베이즈 추정의 일반적인 방법으로는 \*\*최대 사후 확률 추정(MAP, Maximum A Posteriori Estimation)\*\*과 \*\*베이즈 평균(Bayesian Mean)\*\*이 있다. MAP 추정은 사후 확률이 최대가 되는 매개변수 값을 선택하는 것이며, 베이즈 평균은 사후 확률 분포의 평균 값을 계산하는 방법이다.

MAP 추정은 수식적으로 다음과 같이 표현된다.

$$
\hat{\theta}*{MAP} = \arg\max*{\theta} P(\theta|X)
$$

여기서 $ P(\theta|X) $는 주어진 데이터 $ X $에서 매개변수 $ \theta $에 대한 사후 확률이다.

베이즈 평균은 사후 확률에 대한 기대값을 구하는 것으로, 다음과 같은 수식으로 표현된다.

$$
E\[\theta|X] = \int \theta P(\theta|X) d\theta
$$

베이즈 추정은 매개변수의 불확실성을 직접적으로 반영할 수 있다는 점에서 빈도주의적 추정과는 큰 차이가 있다.

#### 베이즈 모델링 (Bayesian Modeling)

베이즈 모델링은 데이터와 사전 신념을 통합하여 확률 모델을 구축하는 과정이다. 이 과정에서 가설을 설정하고, 우도 함수를 정의하며, 사전 확률을 설정하는 것이 중요하다. 베이즈 모델링은 주어진 데이터에 대한 설명을 제공하며, 새로운 데이터를 통해 모델을 지속적으로 갱신할 수 있다. 이를 통해 보다 정확한 예측과 분석이 가능한다.

#### MCMC (Markov Chain Monte Carlo)와 베이즈 계산

베이즈 확률론에서 MCMC 방법은 복잡한 사후 분포를 추정하기 위한 중요한 도구이다. MCMC는 높은 차원의 매개변수 공간에서 확률 분포를 샘플링하는 효율적인 방법으로, 이는 베이즈 추론에서 필수적이다. MCMC를 통해 복잡한 문제에서도 베이즈 추론을 실행할 수 있으며, 사후 분포의 특성을 분석할 수 있다.

#### 비모수 베이즈 (Non-parametric Bayesian Methods)

비모수 베이즈 방법은 매개변수의 수를 미리 고정하지 않고, 데이터에 따라 모델의 복잡성을 조정할 수 있는 유연한 방법론이다. 이는 데이터의 구조가 복잡하거나 명확한 매개변수 모델을 가정하기 어려운 상황에서 유용하다. 비모수 베이즈 방법론에서는 디리클레 과정(Dirichlet Process)과 같은 확률 과정이 중요한 역할을 한다.

#### 수렴과 확률적 수렴 (Convergence and Probabilistic Convergence)

베이즈 확률론에서 중요한 개념 중 하나는 추론 과정의 수렴이다. 이는 사후 분포가 안정된 형태로 수렴하는 것을 의미하며, 충분한 데이터가 주어질 때 베이즈 추론의 결과가 일관되게 나타난다는 것을 보장한다. 확률적 수렴은 반복적인 베이즈 갱신 과정에서 사후 확률이 수렴해가는 과정을 설명하며, 이는 베이즈 모델의 신뢰성을 평가하는 데 중요하다.