확률 분포 (Probability Distribution)
확률 분포(Probability Distribution)는 확률론에서 무작위 변수(random variable)가 가질 수 있는 모든 가능한 값들과 그 값들이 발생할 확률을 연관짓는 함수 혹은 규칙을 의미한다. 확률 분포는 이산형과 연속형으로 나뉘며, 각각의 분포는 다양한 통계적 현상을 모델링하는 데 사용된다.
이산 확률 분포 (Discrete Probability Distribution)
이산 확률 분포는 이산형 무작위 변수가 가질 수 있는 특정한 값들에 대한 확률을 정의한다. 이산 확률 분포의 예로는 베르누이 분포, 이항 분포, 기하 분포, 포아송 분포 등이 있다. 이러한 분포들은 주로 무작위 실험에서의 성공 횟수, 발생 횟수 등을 모델링할 때 사용된다.
베르누이 분포 (Bernoulli Distribution)
베르누이 분포는 가장 간단한 이산 확률 분포로, 어떤 사건이 두 가지 결과(성공 또는 실패)만을 가질 때 사용된다. 성공의 확률을 $ p $, 실패의 확률을 $ 1-p $로 정의하며, 베르누이 시행은 단일 시행으로 나타낼 수 있다. 베르누이 분포의 확률 질량 함수(PMF)는 다음과 같다:
이항 분포 (Binomial Distribution)
이항 분포는 독립적이고 동일한 베르누이 시행을 $ n $번 반복했을 때 성공의 횟수를 나타내는 분포이다. 성공 확률이 $ p $인 베르누이 시행을 $ n $번 반복했을 때, $ k $번 성공할 확률은 다음과 같은 확률 질량 함수로 정의된다:
기하 분포 (Geometric Distribution)
기하 분포는 첫 번째 성공이 나타나기까지의 실패 횟수를 모델링한다. 성공 확률이 $ p $일 때, 첫 번째 성공이 나타나기까지 $ k $번 실패할 확률은 다음과 같다:
포아송 분포 (Poisson Distribution)
포아송 분포는 단위 시간 혹은 공간에서 특정 이벤트가 발생할 수 있는 평균 횟수를 나타내는 분포이다. 평균 발생 횟수가 $ \lambda $일 때, $ k $번 발생할 확률은 다음과 같다:
연속 확률 분포 (Continuous Probability Distribution)
연속 확률 분포는 연속형 무작위 변수가 특정 구간 내에서 값을 가질 확률을 정의한다. 이 경우, 확률 밀도 함수(PDF)가 사용된다. 대표적인 연속 확률 분포로는 정규 분포, 지수 분포, 카이제곱 분포, t-분포 등이 있다.
정규 분포 (Normal Distribution)
정규 분포는 가장 널리 알려진 연속 확률 분포 중 하나로, 평균이 $ \mu $이고 분산이 $ \sigma^2 $인 변수의 분포를 나타낸다. 정규 분포의 확률 밀도 함수는 다음과 같이 정의된다:
정규 분포는 중심극한정리(central limit theorem)에 의해, 다양한 확률 변수들의 합이 정규 분포에 수렴하는 특성을 갖는다.
지수 분포 (Exponential Distribution)
지수 분포는 특정 이벤트가 발생하는 시간 간격을 모델링하는 데 사용된다. 지수 분포의 평균은 $ \frac{1}{\lambda} $이며, 확률 밀도 함수는 다음과 같이 정의된다:
지수 분포는 주로 포아송 과정에서 이벤트 간의 시간 간격을 나타내는 데 사용된다.
카이제곱 분포 (Chi-Square Distribution)
카이제곱 분포는 독립적인 표준 정규 분포를 따르는 $ k $개의 무작위 변수의 제곱합에 해당하는 분포이다. 주로 가설 검정에서 사용되며, 그 확률 밀도 함수는 다음과 같다:
t-분포 (Student's t-Distribution)
t-분포는 모집단의 분산이 알려져 있지 않은 경우, 표본의 평균을 이용해 정규 분포를 대체하는 분포이다. 자유도가 $ v $인 t-분포의 확률 밀도 함수는 다음과 같다:
이 분포는 표본의 크기가 작은 경우 유용하며, 표본 크기가 커질수록 정규 분포에 근접한다.
확률 분포의 성질
확률 분포는 다음과 같은 중요한 성질을 갖는다:
기대값 (Expectation)
확률 분포의 기대값은 무작위 변수의 평균적인 값을 나타내며, 이산 확률 분포와 연속 확률 분포 모두에서 정의된다. 이산 확률 분포의 경우 기대값은 다음과 같이 정의된다:
연속 확률 분포의 경우 기대값은 다음과 같이 정의된다:
분산 (Variance)
분산은 확률 변수 값들이 기대값으로부터 얼마나 퍼져 있는지를 나타내는 지표이다. 이산 확률 분포의 분산은 다음과 같이 정의된다:
연속 확률 분포의 경우 분산은 다음과 같다:
모멘트 (Moments)
모멘트는 확률 분포의 형태를 분석하기 위한 수단으로, $ k $번째 모멘트는 다음과 같이 정의된다:
특히, 1차 모멘트는 기대값에 해당하며, 2차 모멘트는 분산을 나타낸다. 모멘트는 확률 분포의 비대칭성(Skewness)과 뾰족함(Kurtosis) 등을 분석하는 데 사용된다.
관련 자료:
Ross, Sheldon M. Introduction to Probability Models. Academic Press, 2019.
Casella, George, and Roger L. Berger. Statistical Inference. Cengage Learning, 2020.
Grimmett, Geoffrey, and David Stirzaker. Probability and Random Processes. Oxford University Press, 2020.
Last updated