본문 바로가기
필기 노트/R을 이용한 통계학개론

[통계학 기초] 자료(data)의 종류, 중심과 퍼짐, 상관관계

by misconstructed 2020. 7. 15.
728x90

자료의 종류

양적 자료(numerical data)

양적 자료를 자료 자체가 숫자와 1:1로 대응하는 자료를 의미합니다.

1. 연속형 자료(continuous data) 

연속형 자료는 일정 구간의 실수 값을 모두 취할 수 있는 경우를 의미합니다.

2. 이산현 자료(discrete data)

이산형 자료는 정수값을 취하는 자료를 의미합니다.

질적 자료(qualitative data)

질적 자료는 자료가 숫자의 개념이 아닌, 단순히 구분하기 위해서 사용하는 자료를 의미합니다.

1. 명목형 자료(nomial data)

명목형 자료는 단순히 데이터의 구분을 위해 데이터와 숫자를 대응한 것을 의미합니다.

성별을 예로 들어보면, 남자를 1 여자를 0으로 대응시키면, 0과 1은 명목형 자료라고 할 수 있습니다.

2. 순서형 자료(ordinal data) 

순서형 자료를 범주가 숫자의 개념을 갖고 있는 경우를 의미합니다.

각 자료는 데이터를 구분하면서 동시에 순서를 의미합니다.

예를 들어, 상품의 등급을 상, 중, 하로 정할 수 있을 때, 상, 중, 하의 값을 각각 1, 2, 3에 대응할 수 있습니다.

하지만, 해당 데이터를 1, 3, 2로 대응하는 경우 상, 중, 하의 순서를 무시하기 때문에 허용하지 않습니다.

표와 그래프

위에서 알아본 다양한 자료를 표현하기 알맞은 표와 그래프에 대해서 알아보겠습니다.

도수 분포표(frequency table) 

도수 분포표는 질적 자료를 표현하기에 알맞습니다.

a <- rep("A", 100)
b <- rep("B", 33)
c <- rep("C", 13)
x <- c(a, b, c)
y <- as.matrix(table(x))	# 행렬 형태로 만들기
freq <- y[, 1] 				# column 을 뽑아내기
rel_freq <- freq / sum(freq)
z <- cbind(freq, rel_freq)	# 열 벡터끼리 묶음 (column bind)

결과 화면

파이 차트(pie chart)

파이 차트에서는 상대도수(비율)을 나타낼 수 있습니다.

상대도수는 전제에 대한 현재 값의 비율을 의미합니다.

x <- c(1520, 770, 510)
name <- c("A", "B", "C")
y <- round(x/sum(x) * 100)				# 상대도수 * 100 = 퍼센트를 나타냄
label <- paste(name, "(", "%", ")")
pie(x, labels=label, main="pie chart")	# pie chart 생성

파이 차트

히스토그램(histogram)

히스토그램은 양적 자료를 나타내기에 적합합니다.

히스토그램으로 전체 데이터 분포의 형태를 확인할 수 있습니다.

hist(faithful$waiting)

히스토그램

히스토그램의 각 데이터의 간격을 계급구간(interval)이라고 합니다.

계급구간은 총 20개 정도로 동일한 간격으로 생성하는 것이 적합합니다.

줄기-잎 그림(stem-and-leaf plot)

줄기-잎 그림은 모든 자료 각각의 값을 알 수 있다는 장점이 있습니다.

또한, 히스토그램의 역할을 동일하게 수행할 수 있습니다.

그러므로, 전체 데이터의 분포의 형태를 조회할 수 있습니다.

줄기-잎 그림


중심(center)과 퍼짐(dispersion) 측도

중심의 축도

1. 표본 평균(sample mean)

n개의 자료 $ x_{1}, x_{2}, ..., x_{n} $ 에 대해서 표본 평균은 다음과 같습니다.

$$ \overline{x} = \frac{1}{n}\sum_{i = 1}^nx_{i} $$

표본 평균은 이상치(outlier)에 민감(sensitive) 합니다.

 

※ 이상치 (outlier)
다른 관측치와 크게 다른 데이터값을 의미합니다.

 

표본 평균은 n개 값의 무게중심이라고도 부릅니다.

2. 표본 중간값(sample median)

표본 중간값은 n개의 자료를 크기 순서대로 나열했을 때 가운데 값을 의미합니다.

  1. n이 홀수인 경우, 가운데 값이 유일하게 존재합니다.
  2. n이 짝수인 경우, 가운데 값이 2개 존재하기 때문에, 2개 값의 평균값을 사용합니다.

표본 중간값은 이상치에 거의 영향을 받지 않습니다.(robust)

 

※ 표본 평균과 표본 중간값의 차이
데이터가 다음과 같이 있다고 가정하겠습니다.
$$ 1, 3, 4, 6, 6, 7, 8, 8, 9, 10, 15 $$
위 데이터에 대해서 평균은 7, 중간값도 7입니다.
위의 데이터에서 15가 이상치인 150으로 변한다고 가정해보겠습니다.
$$ 1, 3, 4, 6, 6, 7, 8, 8, 9, 10, 150 $$
변경된 데이터에 대해서 중간값은 그대로 7이지만, 평균값은 19.27273으로 크게 변합니다.
표본 중간값은 이상치가 있는 경우 더 좋은 축도로 사용될 수 있습니다.

3. 표본 분위수(sample quantile)

표본 분위수는 데이터를 크기에 따라 정렬했을 때, 전체 데이터를 100등분 해서 각 등분에 해당하는 값을 의미합니다.

  1. p = 0.25 : 제1분위수(Q1)
  2. p = 0.25 : 제2분위수(Q2) = 표본 중간값
  3. p = 0.75 : 제3분위수(Q3)

전체 데이터의 크기가 n이고, 백분율 p에 대한 표본 분위수를 구하려면,

  1. np 가 소수인 경우, 무조건 올림 해서 계산합니다.
  2. np 가 정수인 경우, np 번째와 (np + 1) 번째의 평균값을 사용합니다.

분포의 형태

분포의 형태는 크게 3가지로 나눠서 볼 수 있습니다.

  1. 오른편으로 긴 꼬리 = 왼쪽으로 치우친 분포 = skewed-to-the-right = positive skew = skewness > 0
    • 작은값이 더 많습니다.
    • 평균값 > 중간값
  2. 대칭
  3. 왼편으로 긴 꼬리 = 오른쪽으로 치우친 분포 = skewed-to-the-left = negative skew = skewness < 0
    • 큰 값이 더 많습니다.
    • 평균값 < 중간값

퍼짐의 축도

1. 표본의 분산(sample variance)

표본의 분산은 다음과 같이 정의합니다.

$$ s^{2} = \frac{1}{n-1}\sum_{i=0}^n(x_{i}-\overline{x})^2 $$

표본의 분산은 자유도와 관련이 있습니다. (자유도는 추후에 다시 설명하겠습니다.)

2. 표본 범위(sample range)

R = (최대값) - (최소값)으로 정의합니다.

IQR(sample InterQuartile Range)는 Q3 - Q1로 정의합니다.

IQR은 표본 사분위수 범위라고도 합니다.

3. 상자 그림(box plot)

상자 그림은 크게 box plot과 box whisker plot 두 가지가 존재합니다.

box whisker plot은 이상치(outlier)가 있는 경우, 점으로 표현합니다.

box whisker plot의 예시는 다음과 같습니다.

box whisker plot

관련 R 명령어

  1. mean() : 평균
  2. var() : 분산
  3. sort() : 정렬(오름차순)
  4. length() : 길이(크기)
  5. quantile() : 입력으로 들어온 값의 백분위수를 계산
  6. fivenum() : 최소값, Q1, Q2, Q3, 최대값을 반환
  7. summary() : 최소값, Q1, 중간값, 평균, Q3, 최대값을 반환
  8. boxplot() : 상자 그림을 제공
x <- stackloss$stack.loss
mean(x)
# 17.52381
var(x)
# 103.4619
sd(x)
# 10.17162
quantile(x, c(0.1, 0.25, 0.5, 0.95))
# 10% 25% 50% 95% 
#   8  11  15  37 
fivenum(x)
# 7 11 15 19 42
summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   7.00   11.00   15.00   17.52   19.00   42.00
boxplot(x)

이변량 자료와 상관계수

일변량 자료(univariate data)는 하나의 변수에 대한 자료를 의미합니다.

두 개의 변수에 대한 자료는 이변량 자료(bivariate data)라고 합니다.

이번량 자료를 포함하는 여러 개의 변수로 구성된 자료는 다변량 자료(univariate data)라고 합니다.

이번에는 이번량 자료에서 두 변수의 상관관계에 대해서 알아보겠습니다.

 

첫 번째 경우는 이변량 자료에서 두 변수가 모두 질적 자료(qualitative data)인 경우입니다.

한 변수가 r개의 범주를 보유하고 있고, 다른 변수가 c개의 범주를 보유하고 있으면,

두 변수를 동시에 고려하는 r×c 분할표(contingency table)를 사용합니다.

두 번째 경우는 , 두 변수 모두 양적 자료(numerical data)인 경우입니다.

모든 자료에 대해서 $ (x_{1}, y_{1}), (x_{2}, y_{2}), ..., (x_{n}, y_{n}) $ 와 같이 표현할 수 있습니다.

해당 자료는 산점도(scatter plot)로 표현할 수 있습니다.

산점도는 2차원 평면에 자료에 해당하는 점을 찍어서 표현하는 방식입니다.

허위상관(spurious correlation)과 잠복변수(lurking variable)

허위상관과 잠복변수를 설명하기 위해 간단한 예시를 들어보겠습니다.

이변량 자료 $ (x_{i}, y_{i}) $ 에 대해서

$ x_{i} $ 는 한 도시에 대한 범죄의 수를 의미하고, $ y_{i} $ 는 한 도시에 있는 교회의 수를 의미할 때,

두 변수는 양의 상관관계를 갖습니다.

하지만, 범죄 수와 교회 수 사이에는 잠복변수가 존재하게 됩니다.

잠복변수는 바로 인구수인데요,

인구수가 많으면 범죄 수가 많아지고, 

인구 수가 많으면 교회 수가 많아지는데,

이러한 현상을 인구 수와 관련짓는 것이 아니라

범죄 수와 교회 수 만을 고려해서 생긴 문제입니다.

이 문제에서 교회 수와 범죄 수는 허위 상관을 이루고, 인구수는 잠복 변수가 됩니다. 

표본 상관계수(sample correlation coefficient)

표본 상관계수는 두 번수의 선형적 상관관계를 나타내는 측도입니다.

(비선형적인 관계는 발견하지 못합니다.)

표본 상관계수는 다음과 같이 정의합니다.

$$ r = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} = \frac{x, y의 표본 공분산}{\sqrt{(x의 분산) (y의 분산)}} $$

x, y의 표본 공분산 $ S_{xy} $ , x의 분산 $ S_{xx} $ , y의 분산 $ S_{yy} $ 은 다음과 같이 정의합니다.

$$ S_{xx} = \sum(x_{i} - \overline{x})^2 $$

$$ S_{yy} = \sum(y_{i} - \overline{y})^2 $$

$$ S_{xy} = \sum(x_{i} - \overline{x})(y_{i} - \overline{y}) $$


본 게시물은 K-MOOC <R을 이용한 통계학개론> 수업을 듣고 개인적으로 정리한 내용입니다.

잘못되었거나, 수정이 필요한 내용, 궁금한 내용이 있다면 언제든지 알려주세요!

자세한 강좌는 여기를 통해서 직접 수강하실 수 있습니다.

감사합니다 :)

 

728x90

댓글