# 베이즈 정리와 전통적 빈도주의 통계학의 비교

#### 확률의 해석: 주관적 확률 vs 빈도적 확률

베이즈 통계학(Bayesian Statistics)과 빈도주의 통계학(Frequentist Statistics)의 가장 근본적인 차이점은 확률의 해석에 있다.

* **주관적 확률(Bayesian Probability)**: 베이즈 접근에서는 확률이란 특정 사건이 일어날 가능성에 대한 개인의 주관적 믿음의 정도를 의미한다. 이는 관찰자에게 주어진 모든 정보에 근거하여 사건이 일어날 가능성을 표현하는 것이다. 예를 들어, 어떤 환자가 특정 질병에 걸렸을 확률을 계산할 때, 의사는 환자의 나이, 증상, 의료 기록 등을 고려하여 그 확률을 평가한다. 이 과정에서 의사는 자신의 지식을 반영하여 확률을 갱신할 수 있다.
* **빈도적 확률(Frequentist Probability)**: 반면, 빈도주의 통계학에서는 확률이란 특정 사건이 무한히 반복되는 실험에서 발생하는 빈도로 정의된다. 빈도주의적 접근에서는 사건의 확률이 오직 장기적인 빈도에 의해 결정되며, 주관적인 해석을 허용하지 않는다. 예를 들어, 동전을 던졌을 때 앞면이 나올 확률은 오직 동전을 무한히 던졌을 때 앞면이 나올 비율로 정의된다.

#### 사전 확률(Prior)과 데이터 기반의 추론

베이즈 접근에서는 사전 확률(prior probability)을 통해 기존 지식을 명시적으로 모델에 반영할 수 있다. 이는 데이터를 관찰하기 전, 사건이 일어날 가능성에 대한 초기 추정을 의미한다.

* **사전 확률의 사용**: 베이즈 정리는 사전 확률을 기반으로 새로운 데이터를 반영하여 사후 확률(posterior probability)을 갱신한다. 이 과정은 새로운 데이터가 주어질 때마다 확률이 동적으로 조정될 수 있음을 의미한다. 예를 들어, 특정 질병의 유병률을 사전 확률로 사용하고, 환자의 검사 결과를 바탕으로 해당 환자가 질병에 걸렸을 확률을 계산할 수 있다.
* **빈도주의 접근의 제약**: 반면, 빈도주의 통계학에서는 사전 확률의 개념이 존재하지 않으며, 모든 추론은 관찰된 데이터에만 의존한다. 빈도주의 통계에서의 가설 검정은 특정 귀무가설(null hypothesis)이 참일 때 데이터가 관찰될 확률을 계산하는 것으로 이루어진다. 이 과정에서는 사전 정보나 지식이 고려되지 않으며, 오직 현재 주어진 데이터만을 사용해 추론이 이루어진다.

#### 가설 검정: p-값과 베이즈 추론

베이즈 접근과 빈도주의 접근은 가설 검정(hypothesis testing)에서 근본적인 차이를 보인다.

* **빈도주의적 가설 검정**: 빈도주의 통계학에서는 p-값(p-value)이 주요 도구로 사용된다. p-값은 귀무가설이 참이라는 가정 하에, 현재 관찰된 데이터와 같거나 더 극단적인 데이터를 얻을 확률을 의미한다. 빈도주의적 검정에서는 p-값이 사전에 정해진 유의 수준(significance level)보다 작을 경우, 귀무가설을 기각한다. 그러나 이 접근에서는 실제로 연구자가 관심을 가지는 가설이 참일 확률을 직접적으로 제공하지 않는다.
* **베이즈적 가설 검정**: 반면, 베이즈 추론에서는 사전 확률과 우도(likelihood)를 결합하여 사후 확률을 계산한다. 이는 귀무가설이나 대립가설이 주어진 데이터에서 얼마나 타당한지에 대한 직접적인 확률을 제공한다. 또한, 베이즈 인자는 두 가설 간의 상대적 가능성을 비교하는 데 사용된다. 베이즈적 접근에서는 p-값과 같은 이진적인 결정 기준보다는, 연속적인 확률 분포를 통해 더 세밀한 정보를 제공한다.

#### 불확실성의 처리

빈도주의 통계학과 베이즈 통계학은 불확실성을 처리하는 방식에서도 차이를 보인다.

* **빈도주의적 관점**: 빈도주의 통계학에서는 불확실성이 표본 추출 과정에서 발생하며, 이는 신뢰 구간(confidence interval)과 같은 개념으로 표현된다. 그러나 이 신뢰 구간은 무한히 많은 반복 실험에서, 구간이 참 모수를 포함할 비율을 나타낼 뿐, 주어진 실험에서 구간이 참 모수를 포함할 확률을 나타내지는 않는다.
* **베이즈적 관점**: 베이즈 통계학에서는 불확실성을 확률 분포로 표현하며, 이는 사후 분포(posterior distribution)로 나타난다. 이 분포는 주어진 데이터와 사전 정보에 근거하여 모수(parameter)가 가질 수 있는 모든 값의 확률을 제공한다. 따라서 베이즈 추론에서는 특정 구간이 참 모수를 포함할 확률을 직접적으로 계산할 수 있다.

#### 계산 복잡성과 실용적 고려사항

베이즈 통계학은 계산적으로 매우 복잡할 수 있다. 특히, 다차원적 문제에서는 사후 확률을 계산하기 위해 복잡한 적분이 필요하며, 이는 대체로 수치적 방법(numerical methods)이나 몬테카를로 마르코프 연쇄(Markov Chain Monte Carlo, MCMC)와 같은 시뮬레이션 기법을 요구한다.

* **빈도주의적 계산**: 빈도주의 통계학은 상대적으로 계산이 단순한 경우가 많다. 이는 폐쇄형 해(closed-form solution)를 가진 공식과 절차를 통해 문제를 해결할 수 있기 때문이다. 예를 들어, 최대우도추정(Maximum Likelihood Estimation, MLE)은 비교적 계산이 단순하며, 표준화된 방법론이 잘 정립되어 있다.
* **베이즈적 계산**: 반면, 베이즈 통계학에서는 사후 분포를 계산하기 위한 적분이 필수적이며, 이는 고차원 문제에서는 매우 복잡해질 수 있다. 이 때문에 베이즈 추론에서는 수치적 기법이나 MCMC와 같은 시뮬레이션 기법이 자주 사용된다. 이러한 방법들은 계산 비용이 크지만, 더 풍부한 정보와 유연한 모델링을 가능하게 한다.

***

관련 자료:

* Jaynes, E. T. (2003). *Probability Theory: The Logic of Science*. Cambridge University Press.
* Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). *Bayesian Data Analysis*. CRC press.
* Berger, J. O. (1985). *Statistical Decision Theory and Bayesian Analysis*. Springer Science & Business Media.