본문 바로가기

필기 노트/R을 이용한 통계학개론4

[통계학 기초] 확률분포(probability distribution) 확률분포(probability distribution) 확률분포에 대해서 이야기하기 전에, 확률변수에 대해서 먼저 이야기해보겠습니다. 확률변수(random variable, r.v)는 표본공간(S)의 각 단위 사건에 실수값을 부여하는 함수를 의미합니다. 확률변수는 크게 이산확률변수와 연속확률변수로 구분합니다. 첫 번째로, 이산확률변수는 확률변수 X가 취할 수 있는 값이 유한(finite) 한 경우 자연수와 일대일 대응이 되는 무한개인 경우 두 가지 경우를 의미합니다. 확률변수 x와 확률분포 f(x)는 다음과 같이 정의합니다. $$ x = x_{1}, x_{2}, ..., x_{n} $$ $$ f(x_{i}) = P(X = x_{i}) (i = 1, 2, ..., n) $$ 두 번째로, 연속확률변수(con.. 2020. 7. 17.
[통계학 기초] 확률(Probability) 확률(probability) 미래에 발생할 수 있는 사건은 크게 두 가지로 나눠집니다. 완전하게 예측이 가능한 사건 불확실성(uncertainty)을 가진 사건 우리는 두 번째 사건인, 불확실성을 가진 사건에 대해서 객관적 자료를 근거로 확률을 제기하기 위해 통계학을 사용합니다. 확률에 대해서 구체적으로 이야기해보기 전에, 몇 가지 용어들을 정의해보겠습니다. 실험(experiment) : 질행하기 전에는 결과를 알 수 없는 행위 ex) 주사위 던지기 표본공간(sample space) : 실험을 했을 때 나타날 수 있는 모든 결과의 집합(S) ex) 주사위를 던졌을 때 나올 수 있는 결과 S = (1, 2, 3, 4, 5, 6) 단위(단순) 사건(simple event) : 표본공간의 원소 중 하나 $ e.. 2020. 7. 16.
[통계학 기초] 자료(data)의 종류, 중심과 퍼짐, 상관관계 자료의 종류 양적 자료(numerical data) 양적 자료를 자료 자체가 숫자와 1:1로 대응하는 자료를 의미합니다. 1. 연속형 자료(continuous data) 연속형 자료는 일정 구간의 실수 값을 모두 취할 수 있는 경우를 의미합니다. 2. 이산현 자료(discrete data) 이산형 자료는 정수값을 취하는 자료를 의미합니다. 질적 자료(qualitative data) 질적 자료는 자료가 숫자의 개념이 아닌, 단순히 구분하기 위해서 사용하는 자료를 의미합니다. 1. 명목형 자료(nomial data) 명목형 자료는 단순히 데이터의 구분을 위해 데이터와 숫자를 대응한 것을 의미합니다. 성별을 예로 들어보면, 남자를 1 여자를 0으로 대응시키면, 0과 1은 명목형 자료라고 할 수 있습니다. 2... 2020. 7. 15.
[통계학 기초] 모집단과 표본 우리가 흔히 말하는 빅데이터(big data)는 3V라는 특징을 가지고 있습니다. Velocity : 빠른 속도로 데이터가 증가합니다. Volume : 대용량의 데이터로 구성됩니다. Variety : 여러 형태의 데이터로 구성됩니다. 이러한 데이터는 인공지능(Artificial Intelligence, AI)에서도 중요한 역할을 하고 있습니다. 인공지능에서 입력은 반드시 데이터(자료)의 형태를 갖습니다. 인공지능을 이용한 핵심 기술은 크게 2가지로 볼 수 있는데, 음성인식(voice recognition)과 형상인식(pattern recognition) 입니다. 자율주행 자동차를 두 가지 기술을 모두 사용하는 미래 기술의 대표적인 예시로 들 수 있습니다. 자율주행 자동차에서 사용되는 인공지능에 제공되는 .. 2020. 7. 14.