# 확률 분포 (Probability Distribution)

확률 분포(Probability Distribution)는 확률론에서 무작위 변수(random variable)가 가질 수 있는 모든 가능한 값들과 그 값들이 발생할 확률을 연관짓는 함수 혹은 규칙을 의미한다. 확률 분포는 이산형과 연속형으로 나뉘며, 각각의 분포는 다양한 통계적 현상을 모델링하는 데 사용된다.

#### 이산 확률 분포 (Discrete Probability Distribution)

이산 확률 분포는 이산형 무작위 변수가 가질 수 있는 특정한 값들에 대한 확률을 정의한다. 이산 확률 분포의 예로는 베르누이 분포, 이항 분포, 기하 분포, 포아송 분포 등이 있다. 이러한 분포들은 주로 무작위 실험에서의 성공 횟수, 발생 횟수 등을 모델링할 때 사용된다.

**베르누이 분포 (Bernoulli Distribution)**

베르누이 분포는 가장 간단한 이산 확률 분포로, 어떤 사건이 두 가지 결과(성공 또는 실패)만을 가질 때 사용된다. 성공의 확률을 $ p $, 실패의 확률을 $ 1-p $로 정의하며, 베르누이 시행은 단일 시행으로 나타낼 수 있다. 베르누이 분포의 확률 질량 함수(PMF)는 다음과 같다:

$$
P(X = x) = p^x(1-p)^{1-x} \quad \text{for} \quad x \in {0, 1}
$$

**이항 분포 (Binomial Distribution)**

이항 분포는 독립적이고 동일한 베르누이 시행을 $ n $번 반복했을 때 성공의 횟수를 나타내는 분포이다. 성공 확률이 $ p $인 베르누이 시행을 $ n $번 반복했을 때, $ k $번 성공할 확률은 다음과 같은 확률 질량 함수로 정의된다:

$$
P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}
$$

**기하 분포 (Geometric Distribution)**

기하 분포는 첫 번째 성공이 나타나기까지의 실패 횟수를 모델링한다. 성공 확률이 $ p $일 때, 첫 번째 성공이 나타나기까지 $ k $번 실패할 확률은 다음과 같다:

$$
P(X = k) = (1-p)^k p
$$

**포아송 분포 (Poisson Distribution)**

포아송 분포는 단위 시간 혹은 공간에서 특정 이벤트가 발생할 수 있는 평균 횟수를 나타내는 분포이다. 평균 발생 횟수가 $ \lambda $일 때, $ k $번 발생할 확률은 다음과 같다:

$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$$

#### 연속 확률 분포 (Continuous Probability Distribution)

연속 확률 분포는 연속형 무작위 변수가 특정 구간 내에서 값을 가질 확률을 정의한다. 이 경우, 확률 밀도 함수(PDF)가 사용된다. 대표적인 연속 확률 분포로는 정규 분포, 지수 분포, 카이제곱 분포, t-분포 등이 있다.

**정규 분포 (Normal Distribution)**

정규 분포는 가장 널리 알려진 연속 확률 분포 중 하나로, 평균이 $ \mu $이고 분산이 $ \sigma^2 $인 변수의 분포를 나타낸다. 정규 분포의 확률 밀도 함수는 다음과 같이 정의된다:

$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
$$

정규 분포는 중심극한정리(central limit theorem)에 의해, 다양한 확률 변수들의 합이 정규 분포에 수렴하는 특성을 갖는다.

**지수 분포 (Exponential Distribution)**

지수 분포는 특정 이벤트가 발생하는 시간 간격을 모델링하는 데 사용된다. 지수 분포의 평균은 $ \frac{1}{\lambda} $이며, 확률 밀도 함수는 다음과 같이 정의된다:

$$
f(x) = \lambda e^{-\lambda x} \quad \text{for} \quad x \geq 0
$$

지수 분포는 주로 포아송 과정에서 이벤트 간의 시간 간격을 나타내는 데 사용된다.

**카이제곱 분포 (Chi-Square Distribution)**

카이제곱 분포는 독립적인 표준 정규 분포를 따르는 $ k $개의 무작위 변수의 제곱합에 해당하는 분포이다. 주로 가설 검정에서 사용되며, 그 확률 밀도 함수는 다음과 같다:

$$
f(x; k) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2-1} e^{-x/2} \quad \text{for} \quad x \geq 0
$$

**t-분포 (Student's t-Distribution)**

t-분포는 모집단의 분산이 알려져 있지 않은 경우, 표본의 평균을 이용해 정규 분포를 대체하는 분포이다. 자유도가 $ v $인 t-분포의 확률 밀도 함수는 다음과 같다:

$$
f(x; v) = \frac{\Gamma\left(\frac{v+1}{2}\right)}{\sqrt{v\pi} \Gamma\left(\frac{v}{2}\right)} \left(1+\frac{x^2}{v}\right)^{-\frac{v+1}{2}}
$$

이 분포는 표본의 크기가 작은 경우 유용하며, 표본 크기가 커질수록 정규 분포에 근접한다.

### 확률 분포의 성질

확률 분포는 다음과 같은 중요한 성질을 갖는다:

#### 기대값 (Expectation)

확률 분포의 기대값은 무작위 변수의 평균적인 값을 나타내며, 이산 확률 분포와 연속 확률 분포 모두에서 정의된다. 이산 확률 분포의 경우 기대값은 다음과 같이 정의된다:

$$
E(X) = \sum\_{i} x\_i P(X = x\_i)
$$

연속 확률 분포의 경우 기대값은 다음과 같이 정의된다:

$$
E(X) = \int\_{-\infty}^{\infty} x f(x) dx
$$

#### 분산 (Variance)

분산은 확률 변수 값들이 기대값으로부터 얼마나 퍼져 있는지를 나타내는 지표이다. 이산 확률 분포의 분산은 다음과 같이 정의된다:

$$
Var(X) = E\[(X - E(X))^2] = \sum\_{i} (x\_i - E(X))^2 P(X = x\_i)
$$

연속 확률 분포의 경우 분산은 다음과 같다:

$$
Var(X) = \int\_{-\infty}^{\infty} (x - E(X))^2 f(x) dx
$$

#### 모멘트 (Moments)

모멘트는 확률 분포의 형태를 분석하기 위한 수단으로, $ k $번째 모멘트는 다음과 같이 정의된다:

$$
\mu\_k = E\[(X - E(X))^k]
$$

특히, 1차 모멘트는 기대값에 해당하며, 2차 모멘트는 분산을 나타낸다. 모멘트는 확률 분포의 비대칭성(Skewness)과 뾰족함(Kurtosis) 등을 분석하는 데 사용된다.

***

관련 자료:

* Ross, Sheldon M. *Introduction to Probability Models*. Academic Press, 2019.
* Casella, George, and Roger L. Berger. *Statistical Inference*. Cengage Learning, 2020.
* Grimmett, Geoffrey, and David Stirzaker. *Probability and Random Processes*. Oxford University Press, 2020.