확률 분포 (Probability Distribution)

확률 분포(Probability Distribution)는 확률론에서 무작위 변수(random variable)가 가질 수 있는 모든 가능한 값들과 그 값들이 발생할 확률을 연관짓는 함수 혹은 규칙을 의미한다. 확률 분포는 이산형과 연속형으로 나뉘며, 각각의 분포는 다양한 통계적 현상을 모델링하는 데 사용된다.

이산 확률 분포 (Discrete Probability Distribution)

이산 확률 분포는 이산형 무작위 변수가 가질 수 있는 특정한 값들에 대한 확률을 정의한다. 이산 확률 분포의 예로는 베르누이 분포, 이항 분포, 기하 분포, 포아송 분포 등이 있다. 이러한 분포들은 주로 무작위 실험에서의 성공 횟수, 발생 횟수 등을 모델링할 때 사용된다.

베르누이 분포 (Bernoulli Distribution)

베르누이 분포는 가장 간단한 이산 확률 분포로, 어떤 사건이 두 가지 결과(성공 또는 실패)만을 가질 때 사용된다. 성공의 확률을 $ p $, 실패의 확률을 $ 1-p $로 정의하며, 베르누이 시행은 단일 시행으로 나타낼 수 있다. 베르누이 분포의 확률 질량 함수(PMF)는 다음과 같다:

P(X=x)=px(1p)1xforx{0,1}P(X = x) = p^x(1-p)^{1-x} \quad \text{for} \quad x \in \{0, 1\}

이항 분포 (Binomial Distribution)

이항 분포는 독립적이고 동일한 베르누이 시행을 $ n $번 반복했을 때 성공의 횟수를 나타내는 분포이다. 성공 확률이 $ p $인 베르누이 시행을 $ n $번 반복했을 때, $ k $번 성공할 확률은 다음과 같은 확률 질량 함수로 정의된다:

P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

기하 분포 (Geometric Distribution)

기하 분포는 첫 번째 성공이 나타나기까지의 실패 횟수를 모델링한다. 성공 확률이 $ p $일 때, 첫 번째 성공이 나타나기까지 $ k $번 실패할 확률은 다음과 같다:

P(X=k)=(1p)kpP(X = k) = (1-p)^k p

포아송 분포 (Poisson Distribution)

포아송 분포는 단위 시간 혹은 공간에서 특정 이벤트가 발생할 수 있는 평균 횟수를 나타내는 분포이다. 평균 발생 횟수가 $ \lambda $일 때, $ k $번 발생할 확률은 다음과 같다:

P(X=k)=λkeλk!P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}

연속 확률 분포 (Continuous Probability Distribution)

연속 확률 분포는 연속형 무작위 변수가 특정 구간 내에서 값을 가질 확률을 정의한다. 이 경우, 확률 밀도 함수(PDF)가 사용된다. 대표적인 연속 확률 분포로는 정규 분포, 지수 분포, 카이제곱 분포, t-분포 등이 있다.

정규 분포 (Normal Distribution)

정규 분포는 가장 널리 알려진 연속 확률 분포 중 하나로, 평균이 $ \mu $이고 분산이 $ \sigma^2 $인 변수의 분포를 나타낸다. 정규 분포의 확률 밀도 함수는 다음과 같이 정의된다:

f(x)=12πσ2exp((xμ)22σ2)f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

정규 분포는 중심극한정리(central limit theorem)에 의해, 다양한 확률 변수들의 합이 정규 분포에 수렴하는 특성을 갖는다.

지수 분포 (Exponential Distribution)

지수 분포는 특정 이벤트가 발생하는 시간 간격을 모델링하는 데 사용된다. 지수 분포의 평균은 $ \frac{1}{\lambda} $이며, 확률 밀도 함수는 다음과 같이 정의된다:

f(x)=λeλxforx0f(x) = \lambda e^{-\lambda x} \quad \text{for} \quad x \geq 0

지수 분포는 주로 포아송 과정에서 이벤트 간의 시간 간격을 나타내는 데 사용된다.

카이제곱 분포 (Chi-Square Distribution)

카이제곱 분포는 독립적인 표준 정규 분포를 따르는 $ k $개의 무작위 변수의 제곱합에 해당하는 분포이다. 주로 가설 검정에서 사용되며, 그 확률 밀도 함수는 다음과 같다:

f(x;k)=12k/2Γ(k/2)xk/21ex/2forx0f(x; k) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2-1} e^{-x/2} \quad \text{for} \quad x \geq 0

t-분포 (Student's t-Distribution)

t-분포는 모집단의 분산이 알려져 있지 않은 경우, 표본의 평균을 이용해 정규 분포를 대체하는 분포이다. 자유도가 $ v $인 t-분포의 확률 밀도 함수는 다음과 같다:

f(x;v)=Γ(v+12)vπΓ(v2)(1+x2v)v+12f(x; v) = \frac{\Gamma\left(\frac{v+1}{2}\right)}{\sqrt{v\pi} \Gamma\left(\frac{v}{2}\right)} \left(1+\frac{x^2}{v}\right)^{-\frac{v+1}{2}}

이 분포는 표본의 크기가 작은 경우 유용하며, 표본 크기가 커질수록 정규 분포에 근접한다.

확률 분포의 성질

확률 분포는 다음과 같은 중요한 성질을 갖는다:

기대값 (Expectation)

확률 분포의 기대값은 무작위 변수의 평균적인 값을 나타내며, 이산 확률 분포와 연속 확률 분포 모두에서 정의된다. 이산 확률 분포의 경우 기대값은 다음과 같이 정의된다:

E(X)=ixiP(X=xi)E(X) = \sum_{i} x_i P(X = x_i)

연속 확률 분포의 경우 기대값은 다음과 같이 정의된다:

E(X)=xf(x)dxE(X) = \int_{-\infty}^{\infty} x f(x) dx

분산 (Variance)

분산은 확률 변수 값들이 기대값으로부터 얼마나 퍼져 있는지를 나타내는 지표이다. 이산 확률 분포의 분산은 다음과 같이 정의된다:

Var(X)=E[(XE(X))2]=i(xiE(X))2P(X=xi)Var(X) = E[(X - E(X))^2] = \sum_{i} (x_i - E(X))^2 P(X = x_i)

연속 확률 분포의 경우 분산은 다음과 같다:

Var(X)=(xE(X))2f(x)dxVar(X) = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) dx

모멘트 (Moments)

모멘트는 확률 분포의 형태를 분석하기 위한 수단으로, $ k $번째 모멘트는 다음과 같이 정의된다:

μk=E[(XE(X))k]\mu_k = E[(X - E(X))^k]

특히, 1차 모멘트는 기대값에 해당하며, 2차 모멘트는 분산을 나타낸다. 모멘트는 확률 분포의 비대칭성(Skewness)과 뾰족함(Kurtosis) 등을 분석하는 데 사용된다.


관련 자료:

  • Ross, Sheldon M. Introduction to Probability Models. Academic Press, 2019.

  • Casella, George, and Roger L. Berger. Statistical Inference. Cengage Learning, 2020.

  • Grimmett, Geoffrey, and David Stirzaker. Probability and Random Processes. Oxford University Press, 2020.

Last updated