확률분포(probability distribution)
확률분포에 대해서 이야기하기 전에, 확률변수에 대해서 먼저 이야기해보겠습니다.
확률변수(random variable, r.v)는 표본공간(S)의 각 단위 사건에 실수값을 부여하는 함수를 의미합니다.
확률변수는 크게 이산확률변수와 연속확률변수로 구분합니다.
첫 번째로, 이산확률변수는 확률변수 X가 취할 수 있는 값이
- 유한(finite) 한 경우
- 자연수와 일대일 대응이 되는 무한개인 경우
두 가지 경우를 의미합니다.
확률변수 x와 확률분포 f(x)는 다음과 같이 정의합니다.
$$ x = x_{1}, x_{2}, ..., x_{n} $$
$$ f(x_{i}) = P(X = x_{i}) (i = 1, 2, ..., n) $$
두 번째로, 연속확률변수(continuous random variable)는 일정 구간의 모든 실수 값을 가질 수 있는 경우를 의미합니다.
확률밀도함수(probility density function, pdf)를 사용해서 연속확률변수를 시각화해서 보여줄 수 있습니다.
확률밀도함수는 다음과 같은 성질을 가지고 있습니다.
- $ f(x) \geq 0 $
- $ \int_{-\infty}^{\infty}f(x)dx = 1 $ : 전체 구간의 면적(적분값)이 1이 되어야 합니다.
확률밀도함수의 대표적인 형태(모양)는 다음과 같습니다.
기대값(expectation)
확률변수 X에 대해서 X의 기대값 E(X)는 다음과 같이 정의합니다.
$$ E(X) = \begin{cases}{\sum{x_{i}f(x_{i})}} & (이산형)\\{\int xf(x)dx } & (연속형)\end{cases} $$
X의 기대값을 μ(뮤)라고도 부르고 모집단의 평균인 모평균(population mean)이라고 부릅니다.
기대값은 선형성이라는 특징을 가지고 있습니다. (linearity property of population)
그러므로, 다음의 식을 만족합니다.
$$ E(a + bx) = a + b E(x) $$
K차 적률(K-th moment)
확률변수 X의 K차 적률은 다음과 같이 정의합니다.
$$ E(X) = \begin{cases}{\sum{x_{i}^kf(x_{i})}} & (이산형)\\{\int x^kf(x)dx } & (연속형)\end{cases} $$
K차 중심적률(K-th central monent)
확률변수 X의 K차 중심적률은 다음과 같이 정의합니다.
$$ E[{(X-μ)}^k] = \begin{cases}{\sum{{(x_{i}- μ)}^kf(x_{i})}} & (이산형)\\{\int {(x-μ)}^kf(x)dx } & (연속형)\end{cases} $$
2차 중심적률
K차 중심적률 중 k = 2인 2차 중심적률을 구해보겠습니다.
$$ E[{(X-μ)}^2] = E[{(X^2 - 2μX + μ^2)}] = E(X^2) - 2μE(X) + μ^2 $$
여기서, $ E(X) = μ $ 이므로,
$$ E[{(X-μ)}^2] = E(X^2) - 2μE(X) + μ^2 = E(X^2) - 2μ^2 + μ^2 = E(X^2) - μ^2 $$
라고 정의할 수 있습니다.
2차 중심 적률은 모분산(population variance, $ \sigma^2 $)이라고도 부릅니다.
그러므로, 모분산은 다음과 같이 정의할 수 있습니다.
$$ \sigma^2 = E(X^2) - μ^2 = (2차적률) - {(1차적률)}^2 $$
표본을 사용하는 이유
모평균(population mean, μ)과 모분산(population variance, $ \sigma^2 $)은 모수로서, 알 수 없는 값(unknown constant)입니다.
해당 값을 알 수 없기 때문에, 표본(sample)을 사용해서 표본평균(sample mean)과 표본분산(sample variance)을 구합니다.
표본평균과 표본분산은 모평균과 모집단에 대한 추정치입니다.
표본평균과 표본분산은 다음과 같이 정의합니다.
$$ 표본평균(\overline{x}) = \frac{1}{n}\sum x_{i} $$
$$ 표본분산(s^2) = \frac{1}{n-1}\sum {(x-x_{i})}^2 $$
베르누이 시행과 이항분포
베르누이 시행(bernoilli trials)
베르누이 시행은 다음과 같은 조건을 만족해야 합니다.
- 실행 결과는 무조건 두 가지로 나타나야 합니다. (성공(S)/ 실패(F))
- 각 시행에서 성공확률은 동일해야 합니다.
- 각 시행은 서로 독립이어야 합니다. 이전 시행의 결과가 다음 시행에 영향을 주지 않습니다.
이항분포
베르누이 시행을 만족하는 분포를 이항분포라고 부릅니다.
확률변수 X가 베르누이 시행에서 성공의 횟수를 의미라고, p가 각 베르누이 시행에서 성공의 확률을 의미할 때,
확률변수 X가 이항분포를 따르면, 확률밀도함수는 다음과 같습니다.
$$ f(x) = \left(\begin{array}{c} n\\ x\end{array}\right)p^x{(1-p)}^{n-x} $$
위의 식은 $ X~B(n, p) $로 표현하기도 합니다.
위의 식에서 $ \left(\begin{array}{c} n\\ x\end{array}\right) $ 는 "n choose x"라고 부르고, 다음과 같이 연산합니다.
$$ \frac{n!}{x!(n-x)!} $$
n개 중 x개를 뽑는 확률과 동일합니다.
이항분포에서 평균과 분산은 다음과 같습니다.
$$ E(X) = μ = np $$
$$ {\sigma}^2 = np(1-p) $$
본 게시물은 K-MOOC <R을 이용한 통계학개론> 수업을 듣고 개인적으로 정리한 내용입니다.
잘못되었거나, 수정이 필요한 내용, 궁금한 내용이 있다면 언제든지 알려주세요!
자세한 강좌는 여기를 통해서 직접 수강하실 수 있습니다.
감사합니다 :)
'필기 노트 > R을 이용한 통계학개론' 카테고리의 다른 글
[통계학 기초] 확률(Probability) (0) | 2020.07.16 |
---|---|
[통계학 기초] 자료(data)의 종류, 중심과 퍼짐, 상관관계 (0) | 2020.07.15 |
[통계학 기초] 모집단과 표본 (0) | 2020.07.14 |
댓글