본문 바로가기
@ 필수과목/손으로 푸는 통계

[손으로 푸는 통계] 2. 자유도와 불편추정량 (왜 n-1로 나누나요?)

by bigpicture 2018. 3. 23.
반응형

불편추정량

지난시간에 배운 분산 수식은 아래와 같습니다. 

$\begin{align}V(X)&=E\left [ \left ( X-\mu  \right )^2 \right ]\\&=\frac{\sum_{i=1}^{n}\left ( x_{i}-\mu  \right )^{2}}{n} \end{align}$

분산은 변량의 제곱의 합을 집단의 크기로 나눠서 구합니다. 하지만 표본의 경우는 그렇지 않습니다. 표본은 집단의 크기가 아니라 (집단의 크기-1)로 나눠서 구합니다. 이유는 뒤에서 설명하겠습니다. 

모집단에서 표본을 뽑았고 $X_{1}$이라고 부릅시다. 표본의 크기는 n이고 원소는 아래와 같습니다. 

$X_{1}=\left \{ x_{1}^{1},x_{1}^{2},...,x_{1}^{n} \right \}$

이 표본의 분산은 아래와 같이 계산합니다. 

$\begin{align} V\left ( X_{1} \right )&=E\left [ \left ( X_{1}-\mu \right )^2 \right ]
\\&=\frac{\sum_{i=1}^{n}\left ( x_{i}-\mu \right )^2}{n-1}  \end{align}$

표본분산을 구할 때, n이 아니라 n-1로 나누는 이유는 표본분산을 '불편추정량'으로 만들기 위함입니다. 불편추정량으로 만들어주는 이유는 1) 표본분산을 더 좋은 추정량으로 만들기 위함입니다. 더 좋은 추정량이라는게 무엇인지 뒤에서 설명합니다. 2) 수학적 편리함 때문입니다. 표본분산을 n-1로 나눠서 불편추정량으로 만들게 되면 수학적으로 다루기가 쉬워집니다.

그럼 이런 질문이 생길 수 있습니다. 그렇게 마음대로 바꿔도 되느냐는 질문입니다. 1) n이 충분히 크다면 n으로 나누건, n-1로 나누건 큰 차이없습니다. 2) 더 좋은 추정량이 되는건데 뭐가 문제일가요. 

불편추정량이 뭘까요? 불편추정량의 '편'이란 글자는 '편의' 입니다. 영어로는 bias에요. 불편추정량은 '편의(bias)가 없는 추정량' 이라는 뜻입니다. 이제 '편의'가 무슨 의미인지 알아야 합니다. 이해를 돕기 위해 모집단에서 표본을 뽑는 상황을 가정해봅시다. 

모집단의 평균 : μ
모집단의 표준편차 : σ

표본의 평균 : $\bar{X}_{1}$
표본의 분산 : $S_{1}$

우리는 이 표본의 통계량을 가지고 모집단의 통계량(모수)를 추정하게 됩니다. 모집단의 평균은 표본평균의 평균을 이용하여 추정하고, 모집단의 분산은 표본분산의 평균을 이용하여 추정하게 되는데요. 이렇게 모수를 추정하는 값들을 '추정량'이라고 부릅니다. '표본평균', '표본분산'도 추정량입니다. 추정량의 기댓값과 실제 모수와의 차이를 편의(bias)라고 부릅니다.

편의(bias) = 추정량의 기댓값 - 모수

편의의 예)
표본평균의 기댓값 - 모집단의 평균
표본분산의 기댓값 - 모집단의 분산

불편추정량이란 편의가 없는 추정량을 말합니다. 그 기댓값이 모수와 동일한 추정량이라는 뜻이 됩니다. 나중에 배우겠지만, 표본평균의 평균은 모집단의 평균과 같습니다. 

$E\left ( \bar{X} \right )=\mu$

따라서 표본평균은 불편추정량입니다.

표본분산은 n-1로 나눠서 계산해야 그 평균이 모집단의 분산과 같습니다. 표본분산의 평균을 모분산이 되도록 하기 위해 n 대신 n-1로 나눈 것입니다. 이에 대한 수학적인 설명은 4강에서 하겠습니다. 


자유도

자유도는 독립변수의 개수를 의미합니다. 예를들어 x+y+z=3 이라는 방정식이 있을 때, 독립변수가 3개 인 것처럼 보이지만 실제로는 그렇지 않습니다. x와 y가 1과 0으로 결정되었다면 z는 2를 갖게됩니다. z는 종속변수인 것입니다. 따라서 이 방정식의 독립변수는 2개이고 자유도는 2가됩니다. 

불편추정량과 자유도가 어떤 관계를 갖는지 살펴봅시다. 크기가 n인 표본을 뽑았다고 가정하고 표본의 평균과 분산을 구하는 수식을 써보겠습니다.

$E\left ( \bar{X}_{1} \right )=\frac{x_{1}+x_{1}+...+x_{n}}{n}=a$

$V\left ( \bar{X}_{1} \right )=\frac{\left ( x_{1}-a \right )^2+\left ( x_{2}-a \right )^2+...+\left ( x_{n}-a \right )^2}{n-1}$

표본의 평균이 a로 정해진 상황에서 분산을 구하게 됩니다. 표본평균이 a로 정해지는 순간 $x_{1},...,x{n}$ 중에 n-1개가 정해지면 나머지 하나는 종속정으로 정해지게 됩니다. 표본분산을 구할 때의 자유도는 n-1 이 됩니다. 따라서 아래와 같은 논리적 인과관계를 갖게 됩니다.

 

표본분산을 불편추정량으로 만들기 위해서 n-1로 나누게 되었다. n-1로 나눠주고 보니 표본분산을 구하는 수식의 자유도와 같았다. 

 

#강의 영상

반응형

댓글