모수 추정에 대한 질문을 하나 받았습니다. 모수추정을 그냥 설명할 수도 있지만, 질문으로 부터 출발하면 이해가 한결 쉬울 것입니다. 질문을 요약하면 이렇습니다.
"통계량과 모수의 관계를 도출할 때, 표본의 분포를 가정한다. 왜 추정할때는 하나의 표본만 뽑아놓고 분포를 사용하는가?"
"모분산 대신 하나의 표본분산을 사용하는데 그래도 되는가?"
모수추정에 대해 알아보며 위 의문을 해결해봅시다. 모수(parameter)는 모집단의 통계량을 말합니다. 모평균이나 모분산 등이 있습니다.
모집단이 하나 있다고 합시다. 모집단의 평균과 분산은 모릅니다. 모르기 때문에 추정을 하는 것입니다. 표본을 아주 많이 뽑아서 모집단을 추정하면 좋겠지만, 현실적으로 불가능합니다. 이 글에서는 크기가 n인 '하나'의 표본만 뽑을 수 있다고 가정하겠습니다.
단계적으로 이해하는 것이 수월하므로, 모분산을 알고 있다고 가정하겠습니다. 이후에 모르는 상황도 고려할 것입니다.
모분산을 알고 있는 경우
모분산이 1인 모집단에서 크기 100인 표본을 하나 뽑았습니다. 표본평균을 10, 표본 표준편차를 3이라고 하겠습니다. 이 두 값으로 모수를 추정할 방법이 있을까요?
우리는 아래 등식이 성립한다는 것을 알고 있습니다.
표본평균의 평균 = 모평균
표본평균의 분산 = 모분산/표본의 크기 = 1/100 = 0.01
n이 충분히 크다는 가정하에 중심극한정리를 적용하면 표본평균의 분포도 알 수 있습니다.
$\bar{X} \sim N\left ( \mu,\frac{\sigma}{\sqrt{n}} \right )$
정규분포를 따르기 때문에 아래 구간이 발생할 확률이 95%가 됩니다.
$P\left ( \mu-1.96\frac{\sigma}{\sqrt{n}} \leq \bar{X} \leq \mu+1.96\frac{\sigma}{\sqrt{n}} \right )=0.95$
표본평균의 표준편차를 알고 있으므로 대입합시다.
$P\left ( \mu-1.96\times 0.1 \leq \bar{X} \leq \mu+1.96\times 0.1 \right )=0.95$
여기까지 의문을 제기하실 분은 없을겁니다.
의미를 해석해봅시다. 표본평균의 평균이라는 확률변수가 위 구간에 포함될 확률이 95%입니다. 쉽게 말해서 우리가 크기가 n인 표본을 100개 뽑아서 각각의 표본평균을 구했습니다. 표본평균 100개가 있겠죠. 그 중 95개는 저 범위 안에 들어간다는 말입니다. (수학적으로요)
위 식을 변형하겠습니다. 간단한 부등식의 변형이므로 과정은 생략합니다.
$P\left ( \bar{X}-1.96\times 0.1 \leq \mu \leq \bar{X}+1.96\times 0.1 \right )=0.95$
모평균이 중앙에 놓여있습니다. 의미를 해석해봅시다.
모평균이 이 구간 안에 있을 확률이 95%이다.
틀린말은 아니지만 오해의 소지가 있습니다. 변수가 표본평균이므로, 변수 입장에서 해석해봅시다.
우리가 뽑은 표본평균으로 만든 구간이 모평균을 포함할 확률이 95%이다.
표본을 100개 뽑아서 표본평균을 구하고, 구간을 만들었을 때, 100개의 구간중 95개의 구간이 모평균을 포함한다는 말입니다(수학적 확률로는 그렇습니다).
기억해야할 것은, 어디까지나 표본을 뽑기 전에 성립하는 이야기라는 겁니다. 표본을 뽑는 순간 구간이 모평균을 '포함한다' '포함하지 않는다' 두가지로 무조건 결정이 됩니다.
위에서 표본을 하나 뽑았는데요. 그 평균을 대입해봅시다.
$P\left ( 10-1.96\times 0.1 \leq \mu \leq 10+1.96\times 0.1 \right )=0.95$
위 수식이 의미가 있을까요?? 우리가 표본을 뽑고 평균을 구하고, 수식에 대입하는 순간 구간은 정해집니다. 그 구간에 모집단이 있는지 없는지 여부는 확률로 정의되지 않습니다. 있거나 없거나 둘 중 하나입니다. 따라서 위와 같이 나타내는 것은 불가능합니다.
위와 같은 수식은 마치 P(3<5)=0.2 와 같습니다.
'구간'만 나타내봅시다.
$10-1.96\times 0.1 \leq \mu \leq 10+1.96\times 0.1$
계산도 해봅시다.
$9.804 \leq \mu \leq 10.196$
위 구간을 모평균의 95% 신뢰구간이라고 부릅니다.
여기서 오해가 발생합니다. 마치 이렇게 해석될 수 있기 때문입니다.
"모평균이 이 구간 안에 있을 확률이 95%이다"
절대 아닙니다. 오해가 없는 표현을 바꿔보겠습니다.
모집단에서 표본을 뽑아서 평균을 구하고 아래 수식에 넣었을때, 이 구간에 모집단이 포함될 확률이 95%이다.
$\bar{X}-1.96\times 0.1 \leq \mu \leq \bar{X}+1.96\times 0.1$
모집단에서 표본을 무수히 많이 뽑았고, 위 수식에 대입하여 수많은 구간을 만들었다고 하자.
구간1
구간2
구간3
...
구간k
이 구간들 중 95%는 모집단을 포함할 것이다.
이 구간들 중에서 하나를 뽑았더니 아래와 같았다.
$9.804 \leq \mu \leq 10.196$
혼란스러울 겁니다. 우리가 일상적으로 사용하는 사고의 과정이 아니어서 그렇습니다. 반복해서 읽고 그 의미를 곱씹어 보시기 바랍니다.
모분산을 모르는 경우
모분산을 모른다면 아래 수식부터 문제가 됩니다.
$P\left ( \mu-1.96\frac{\sigma}{\sqrt{n}} \leq \bar{X} \leq \mu+1.96\frac{\sigma}{\sqrt{n}} \right )=0.95$
n은 표본의 크기라 알고 있지만, 모분산을 모르기 때문에 신뢰구간을 계산할 수 없습니다.
가장 쉬운 방법은 표본분산을 대신 사용하는 것인데, n이 아주 클때만 가능합니다. n이 아주 크지 않은 경우는 표본분산 자체를 확률변수로 사용하는 t분포를 정규분포 대신 사용합니다.
이 과정은 '손으로 푸는 통계'에서 다루고 있습니다.
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
통계적 유의차가 있다고 의미있는 차이일까 (0) | 2022.07.22 |
---|---|
n이 커지면 정규분포로 근사시킬 수 있는 분포들 (0) | 2022.07.21 |
p 값이 0.05 일 때 Z는 얼마일까 (0) | 2022.07.20 |
정규분포를 따르는 확률변수의 실수배 aX 의 분포 (0) | 2022.07.16 |
머신러닝 책 두권 무료로 다운로드 받는 방법 (스텐포드) (2) | 2022.07.10 |
자른평균이 뭐죠? 왜 사용하나요?? (trimmed mean) (0) | 2022.07.10 |
F test (F검정) 은 도데체 언제 쓰는걸까?? (2) | 2022.07.09 |
적률생성함수 vs 특성함수 (0) | 2022.07.09 |
댓글