본문 바로가기
필기 노트/R을 이용한 통계학개론

[통계학 기초] 확률분포(probability distribution)

by misconstructed 2020. 7. 17.
728x90

확률분포(probability distribution)

확률분포에 대해서 이야기하기 전에, 확률변수에 대해서 먼저 이야기해보겠습니다.

확률변수(random variable, r.v)는 표본공간(S)의 각 단위 사건에 실수값을 부여하는 함수를 의미합니다.

확률변수는 크게 이산확률변수와 연속확률변수로 구분합니다.

첫 번째로, 이산확률변수는 확률변수 X가 취할 수 있는 값이

  1. 유한(finite) 한 경우
  2. 자연수와 일대일 대응이 되는 무한개인 경우

두 가지 경우를 의미합니다.

확률변수 x와 확률분포 f(x)는 다음과 같이 정의합니다.

$$ x = x_{1}, x_{2}, ..., x_{n} $$

$$ f(x_{i}) = P(X = x_{i}) (i = 1, 2, ..., n) $$

두 번째로, 연속확률변수(continuous random variable)는 일정 구간의 모든 실수 값을 가질 수 있는 경우를 의미합니다.

확률밀도함수(probility density function, pdf)를 사용해서 연속확률변수를 시각화해서 보여줄 수 있습니다.

확률밀도함수는 다음과 같은 성질을 가지고 있습니다.

  1. $ f(x) \geq 0 $
  2. $ \int_{-\infty}^{\infty}f(x)dx = 1 $ : 전체 구간의 면적(적분값)이 1이 되어야 합니다.

확률밀도함수의 대표적인 형태(모양)는 다음과 같습니다.


기대값(expectation)

확률변수 X에 대해서 X의 기대값 E(X)는 다음과 같이 정의합니다.

$$ E(X) = \begin{cases}{\sum{x_{i}f(x_{i})}} & (이산형)\\{\int xf(x)dx } & (연속형)\end{cases} $$

X의 기대값을 μ(뮤)라고도 부르고 모집단의 평균인 모평균(population mean)이라고 부릅니다.

기대값은 선형성이라는 특징을 가지고 있습니다. (linearity property of population)

그러므로, 다음의 식을 만족합니다.

$$ E(a + bx) = a + b E(x) $$

K차 적률(K-th moment)

확률변수 X의 K차 적률은 다음과 같이 정의합니다.

$$ E(X) = \begin{cases}{\sum{x_{i}^kf(x_{i})}} & (이산형)\\{\int x^kf(x)dx } & (연속형)\end{cases} $$

K차 중심적률(K-th central monent)

확률변수 X의 K차 중심적률은 다음과 같이 정의합니다.

$$ E[{(X-μ)}^k] = \begin{cases}{\sum{{(x_{i}- μ)}^kf(x_{i})}} & (이산형)\\{\int {(x-μ)}^kf(x)dx } & (연속형)\end{cases} $$

2차 중심적률

K차 중심적률 중 k = 2인 2차 중심적률을 구해보겠습니다.

$$ E[{(X-μ)}^2] = E[{(X^2 - 2μX + μ^2)}] = E(X^2) - 2μE(X) + μ^2  $$

여기서, $ E(X) = μ $ 이므로, 

$$ E[{(X-μ)}^2] = E(X^2) - 2μE(X) + μ^2 = E(X^2) - 2μ^2 + μ^2 = E(X^2) - μ^2 $$

라고 정의할 수 있습니다.

2차 중심 적률은 모분산(population variance, $ \sigma^2 $)이라고도 부릅니다.

그러므로, 모분산은 다음과 같이 정의할 수 있습니다.

$$ \sigma^2 = E(X^2) - μ^2 = (2차적률) - {(1차적률)}^2 $$

표본을 사용하는 이유

모평균(population mean, μ)과 모분산(population variance, $ \sigma^2 $)은 모수로서, 알 수 없는 값(unknown constant)입니다.

해당 값을 알 수 없기 때문에, 표본(sample)을 사용해서 표본평균(sample mean)표본분산(sample variance)을 구합니다.

표본평균과 표본분산은 모평균과 모집단에 대한 추정치입니다.

표본평균과 표본분산은 다음과 같이 정의합니다.

$$ 표본평균(\overline{x}) = \frac{1}{n}\sum x_{i} $$

$$ 표본분산(s^2) = \frac{1}{n-1}\sum {(x-x_{i})}^2 $$

 


베르누이 시행과 이항분포

베르누이 시행(bernoilli trials)

베르누이 시행은 다음과 같은 조건을 만족해야 합니다.

  1. 실행 결과는 무조건 두 가지로 나타나야 합니다. (성공(S)/ 실패(F))
  2. 각 시행에서 성공확률은 동일해야 합니다.
  3. 각 시행은 서로 독립이어야 합니다. 이전 시행의 결과가 다음 시행에 영향을 주지 않습니다.

이항분포

베르누이 시행을 만족하는 분포를 이항분포라고 부릅니다.

확률변수 X가 베르누이 시행에서 성공의 횟수를 의미라고, p가 각 베르누이 시행에서 성공의 확률을 의미할 때,

확률변수 X가 이항분포를 따르면, 확률밀도함수는 다음과 같습니다.

$$ f(x) =   \left(\begin{array}{c} n\\ x\end{array}\right)p^x{(1-p)}^{n-x} $$

위의 식은 $ X~B(n, p) $로 표현하기도 합니다.

 

위의 식에서 $ \left(\begin{array}{c} n\\ x\end{array}\right) $ 는 "n choose x"라고 부르고, 다음과 같이 연산합니다.
$$ \frac{n!}{x!(n-x)!} $$
n개 중 x개를 뽑는 확률과 동일합니다.

 

이항분포에서 평균과 분산은 다음과 같습니다.

$$ E(X) = μ = np $$

$$ {\sigma}^2 = np(1-p) $$


본 게시물은 K-MOOC <R을 이용한 통계학개론> 수업을 듣고 개인적으로 정리한 내용입니다.

잘못되었거나, 수정이 필요한 내용, 궁금한 내용이 있다면 언제든지 알려주세요!

자세한 강좌는 여기를 통해서 직접 수강하실 수 있습니다.

감사합니다 :)

728x90

댓글