본문 바로가기
@ 통계 교양/통계 Tips

모평균의 추정에서 흔히 하는 오해

by bigpicture 2021. 3. 17.
반응형

신뢰구간

평균이 $\mu$이고 표준편차가 $\sigma$인 모집단에서 표본을 추출했습니다. 모평균과 모표준편차는 모르는 상태입니다. 표본평균을 $\bar{X}_{1}$ 라고 합시다. 표본의 크기가충분히 크다면 중심극한정리에 의해 표본평균들은 정규분포를 따릅니다.

$\bar{X} \sim  N\left ( \mu,\frac{\sigma^2}{n} \right )$

이때 모평균을 신뢰도 95%로 추정하면 신뢰구간은 아래와 같습니다.

$\bar{X}_{1} -1.96\cdot \frac{\sigma}{n} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{n}$

 

 

흔한 오해

신뢰도 95%로 추정한 신뢰구간을 두고 흔히 하는 오해가 있습니다. 바로바로 아래와 같습니다.

"모집단이 위 구간에 포함될 확률이 95%이다."

틀렸습니다. 이러한 오해는 아래 확률에 대한 오해에서 시작됩니다. 95% 신뢰도인 구간은 아래 확률로 뽑힌 구간입니다. 

$P\left ( \bar{X} -1.96\cdot \frac{\sigma}{n} \leq \mu \leq \bar{X} +1.96\cdot \frac{\sigma}{n}  \right )=0.95$

위 확률에서 변수가 무엇일까요. 변수는 표본평균입니다. 모집단의 평균은 상수입니다. 100번 표본을 뽑아서 신뢰구간을 구했을 때, 그 중 95개가 모집단을 포함한다는 의미입니다. 여기서 $ \bar{X}_1$ 가 아님에 주의합시다. $\bar{X}_1$ 는 우리가 이미 표본을 뽑아서 결정된 값이고,  $\bar{X}$ 는 표본평균들 전체를 대표하는 변수입니다. "모집단이 이 구간에 포함될 확률이 95%이다" 는 맞습니다. 표본평균이라는 변수가 아직 결정되기 전이기 때문입니다. 

만약 우리가 표본을 뽑아서 신뢰구간을 계산했다면, 우리가 구한 95% 신뢰구간은 이미 결정된 구간입니다. 100개 중에 95개가 모집단을 포함할 확률로 뽑았다는 의미입니다. 이미 뽑은 후 이기 때문에 더 이상 확률이 적용되지 않습니다. 우리가 뽑은 표본으로 구한 신뢰구간은 모집단을 포함하거나, 포함하지 않거나 둘중 하나로 이미 결정된 값입니다. 우리가 그게 뭔지 모를 뿐입니다. 다시 한번 말하지만 우리가 이미 뽑은 구간은 확률을 갖지 않습니다. 

표본을 뽑기 전에 "앞으로 뽑을 이 표본으로 만든 신뢰구간에 모집단이 들어있을 확률이 95%다"라고 하면 맞습니다. 하지만 이미 뽑은 표본에는 성립하지 않습니다.


이미 뽑은 표본으로 구한 신뢰구간을 가지고, "모집단이 이 구간에 들어있을 확률이 95%이다"라고 하는 것은 아래 수식이 참이라고 하는 것과 같습니다.

$P\left ( \bar{X}_1 -1.96\cdot \frac{\sigma}{n} \leq \mu \leq \bar{X}_1 +1.96\cdot \frac{\sigma}{n}  \right )=0.95$

 

셋 다 이미 결정된 상수입니다. 쉽게 말하면 아래와 같은 주장을 하는 것과 같습니다.

$ P \left ( 2 \leq 3 \leq 4 \right )=0.95$

또는

$P \left ( 2 \leq 6 \leq 4 \right )=0.95$


위 확률은 0 아니면 1입니다. 

예를들면 동전을 던지는 상황을 가정합시다. 동전을 던지기 전에 이 동전이 앞면이 나올 확률이 0.5라고 하는 것은 맞습니다. 그런데 이미 동전을 던져서 뒷면이 나왔는데, 이 뒷면이 앞면이 될 확률이 0.5라고 하는 것과 같습니다. 말이 안된다는 겁니다. 

 

 

반응형

댓글