확률(probability)
미래에 발생할 수 있는 사건은 크게 두 가지로 나눠집니다.
- 완전하게 예측이 가능한 사건
- 불확실성(uncertainty)을 가진 사건
우리는 두 번째 사건인, 불확실성을 가진 사건에 대해서 객관적 자료를 근거로 확률을 제기하기 위해 통계학을 사용합니다.
확률에 대해서 구체적으로 이야기해보기 전에, 몇 가지 용어들을 정의해보겠습니다.
- 실험(experiment) : 질행하기 전에는 결과를 알 수 없는 행위
- ex) 주사위 던지기
- 표본공간(sample space) : 실험을 했을 때 나타날 수 있는 모든 결과의 집합(S)
- ex) 주사위를 던졌을 때 나올 수 있는 결과 S = (1, 2, 3, 4, 5, 6)
- 단위(단순) 사건(simple event) : 표본공간의 원소 중 하나
- $ e_{1}, e_{2}, ..., e_{n} $ 으로 표현합니다.
- 사건(event) : 표본공간의 부분집합(A, B, ..)
- ex) 주사위를 던졌을 때, 짝수가 나타나는 사건
확률은 표본공간에서 정의된 함수입니다.
0과 1 사이의 값을 갖는데, 두 가지 큰 특징을 가지고 있습니다.
- 임의의 사건 A에 대해 0 ≤ P(A) ≤ 1을 무조건 만족합니다.
- 표본공간(S)에 대한 확률은 무조건 P(S) = 1 을 만족합니다.
집합의 종류
가장 대표적인 집합의 종류는 다음과 같습니다.
확률의 법칙(laws of probability)
- 여사건의 법칙(laws of complement) : $ P(\overline{A}) = P(S) - P(A) = 1 - P(A) $
- 합의 법칙(law of addition) : $ P(A \cup B) = P(A) + P(B) - P(A \cap B) $
※ 본페로니 부등식 (Bonferroni's inequality)
합의 법칙에서 사용된 식을 조금 변형하면 본페로니 부등식을 확인할 수 있습니다.
$ P(A \cup A) \leq P(A) + P(B) $ 를 만족하기 때문에,
위의 식을 일반화 하면 다음과 같습니다.
$$ P(A_{1} \cup A_{2} \cup ... \cup A_{n}) \leq P(A_{1}) + P(A_{2}) + ... + P(A_{n}) $$
조건부 확률과 독립(conditional probability and independence)
조건부 확률은 다음과 같이 정의합니다.
$ P(B) > 0 $ 일 때, A의 조건부 확률은
$$ P(A|B) = \frac{P(A \cap B}{P(B)} $$
만약, $ P(A|B) = P(A) $ 를 만족하면, A, B는 서로 독립(independent)이라고 합니다.
그러므로, 두 사건 A, B가 독립인 경우, $ P(B|A) = P(B) $ 와 $ P(A \cap B) = P(A) P(B) $ 를 모두 만족합니다.
임의 표본(random sample)
표본 $ x_{1}, x_{2}, ..., x_{n} $ 이 서로 독립이고, 같은 분포(identically distributed)를 갖는 경우를 임의 표본이라고 합니다.
임의 표본은 IID(Independent and Identically Distributed)라고도 부릅니다.
본 게시물은 K-MOOC <R을 이용한 통계학개론> 수업을 듣고 개인적으로 정리한 내용입니다.
잘못되었거나, 수정이 필요한 내용, 궁금한 내용이 있다면 언제든지 알려주세요!
자세한 강좌는 여기를 통해서 직접 수강하실 수 있습니다.
감사합니다 :)
'필기 노트 > R을 이용한 통계학개론' 카테고리의 다른 글
[통계학 기초] 확률분포(probability distribution) (0) | 2020.07.17 |
---|---|
[통계학 기초] 자료(data)의 종류, 중심과 퍼짐, 상관관계 (0) | 2020.07.15 |
[통계학 기초] 모집단과 표본 (0) | 2020.07.14 |
댓글