본문 바로가기
@ 통계 교양/통계 Tips

표본분산은 꼭 불편추정량이어야 하나요??

by bigpicture 2020. 5. 14.
반응형

표본분산은 꼭 불편추정량이어야 하나요??

 

표본분산을 구할 때, n이 아니라 n-1로 나누는 이유는 다들 아실 것입니다. 표본분산을 '불편추정량'으로 만들기 위함입니다. 

 

어떤 통계량의 평균을 구했을 때, 결과가 모수(모집단의 통계량)과 같아지는 통계량이 불편추정량입니다. 표본평균을 예로 들면, 표본평균의 평균이 모평균이기 때문에 표본평균은 불편추정량입니다. 

 

 

 

반면 표본분산은 불편추정량이 아닙니다. 표본분산을 정의할 때, n으로 나눠서 정의하면 그 평균이 모분산이 되지 않습니다. n-1로 나눠서 정의할 때 모분산이 됩니다. 

 

구독자분들께 이런 질문을 종종 받습니다.

 

n-1로 나누면 불편추정량이 된다는건 알겠는데 왜 불편추정량으로 만들어줘야 하는가요? 

 

이것은 자연의 법칙이나 불변의 진리가 아니라, 사람의 필요에 의해 도입한 개념입니다. 

 

굳이 n-1로 나눈 개념을 정의해서 '억지로' 불편추정량을 만드는 이유가 뭘까요?

 

제가 생각하는 이유는 두가지인데 둘다 같은 맥락입니다. 
1) 계산이 편하다.
표본분산을 이용하여 모분산을 추정하는 상황을 생각해봅시다. 먼저 표본분산의 분포를 알아야 합니다. 이 분포의 평균이 모분산이라는 가정에 의해 분포함수를 구하게 되는데요. 불편추정량이 아니라면 일단 이 가정이 불가능합니다. 뭔가 수학적 처리를 더 해서 분포함수를 가정해야합니다. 불편합니다.
2) 더 정확한 추정이 가능하다. 
위 예시에서 불편추정량이 아님에도 표본분산 분포의 평균을 모분산이라고 가정하고 진행할 수도 있습니다. n이 충분히 클 경우 n이나 n-1이나 차이가 없기 때문입니다. 이렇게 진행할 경우 어쨋든 오차가 발생합니다. n이 작을 경우 오차가 커지구요.
 꼭 불편추정량이어야 하는 것은 당연히 아닙니다. 불편추정량으로 만들면 이점이 있기 때문에 정의해서 사용하는 것입니다. 
논리의 흐름은 이렇습니다.
편의가 있는 추정량을 사용하니 불편하다.편의가 있는 추정량을 사용하니 오차가 생긴다.편의가 없도록 정의를 바꾸자.편의가 없어진 추정량을 불편추정량이라고 하자.
정답은 아니고 제 생각입니다. 불편추정량이 등장한 역사 속으로 가보면 이야기가 달라질 수도 있는데 알게되면 보완하겠습니다^^

반응형

댓글