본문 바로가기
@ OO의 이해/신뢰도와 신뢰구간의 이해

[신뢰도와 신뢰구간의 이해] 2. 오해 풀기

by bigpicture 2021. 5. 20.
반응형

 

 

신뢰구간에 대한 오해를 풀기 전에 신뢰구간이 어떻게 구해지는지 먼저 알아봅시다. 신뢰도를 정하고 신뢰구간을 구하는 이유는 모집단의 평균을 추정하기 위함입니다. 신뢰구간을 구하여 모집단의 평균을 추정하는 것을 구간추정이라고 합니다. 모집단에서 표본을 뽑아서 신뢰구간을 구하는 것이므로, 모집단에서 표본을 뽑는 상황을 가정합시다. 

 

여기 모집단이 하나 있습니다. 모집단의 평균이 얼마인지는 모르고, 표준편차는 알고 있다고 가정합시다. 물론 이것은 아주 이상적인 가정입니다. 모집단의 평균은 모르는데 표준편차를 아는 경우는 실제로 없을겁니다. 일단 이상적인 가정에서 출발하고, 이후에 모집단의 표준편차도 모르는 경우 구간추정을 어떻게 하는지 다룰 것입니다. 

 

모집단의 평균은 $\mu$, 표준편차는 $\sigma$ 라고 놓겠습니다. 모집단에서 표본을 추출할건데요. 크기가 n인 표본을 추출하려고 합니다. 이렇게 뽑힐 표본들의 평균은 아래 성질을 갖습니다. 

 

$E(\bar{X})=\mu$       (증명 링크)

 

$V(\bar{X}=\frac{\sigma^2}{n}$       (증명 링크)

 

또한 표본평균들은 아래 분포를 따릅니다. 

 

$\bar{X} \sim N \left (\mu,\frac{\sigma^2}{n} \right)$      (증명 링크)

 

우리가 이 모집단에서 크기가 n인 표본을 하나 뽑아서 10이 나왔다면, 이때 10은 위 분포 상의 하나의 X값 입니다. 

 

위 분포를 그래프로 그리면 아래와 같습니다. 

 

 

평균으로 부터 좌우 대칭이고, 면적이 95% 인 구간을 표시하면 아래와 같습니다. 

 

 

위 구간을 수식으로 표현하면 아래와 같습니다. 

 

$P \left( \mu-1.96\frac{\sigma}{\sqrt{n}} \leq \bar{X} \leq \mu+1.96\frac{\sigma}{\sqrt{n}} \right) =0.95 $

 

구간의 의미를 생각해봅시다.

 

"표본을 뽑을 때, 표본평균이 위 구간에 있을 확률이 95% 이다."

 

위 수식을 변형합시다. 각 변에서 $\bar{X}$를 뺍니다.

 

$P \left(\mu-1.96\frac{\sigma}{\sqrt{n}}-\bar{X} \leq 0 \leq \mu+1.96\frac{\sigma}{\sqrt{n}} -\bar{X}\right) =0.95$

 

각 변에서 $\mu$를 뺍니다.

 

$P \left(-1.96\frac{\sigma}{\sqrt{n}}-\bar{X} \leq -\mu \leq 1.96\frac{\sigma}{\sqrt{n}} -\bar{X} \right) =0.95$

 

각 항에 -1을 곱합니다. 부등호 방향도 함께 바뀝니다. 

 

$P \left(\bar{X}+1.96\frac{\sigma}{\sqrt{n}} \geq \mu \geq \bar{X}-1.96\frac{\sigma}{\sqrt{n}} \right) =0.95$

 

아래와 같이 써줍시다. 순서만 바꿨습니다. 

 

$P \left(\bar{X}-1.96\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96\frac{\sigma}{\sqrt{n}} \right) =0.95 $

 

면적이 99%인 구간도 동일한 방법으로 구할 수 있습니다. 구한 결과는 아래와 같습니다. 

 

$P \left(\bar{X}-2.58\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+2.58\frac{\sigma}{\sqrt{n}} \right) =0.99 $

 

위 수식의 의미는 "모평균이 위 범위 사이에 있을 확률이 95%" 라는 뜻입니다. 이런 의문이 드시는 분들이 계실겁니다. "지난 글에서는 아니라고 해놓고 지금은 또 맞다고 하네?". 의문을 해결하기 위해 지난 글의 신뢰구간을 가져옵시다. 

 

$\bar{X}_{1} -1.96\cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{\sqrt{n}}$

 

이번 글에서 유도한 식과의 차이를 생각해봅시다. 이번 글에서 유도한 식의 $\bar{X}$ 는 변수입니다. 아직 결정되지 않은 값이기 때문에 확률을 가질 수 있습니다. 그런데 신뢰구간 식에서 $\bar{X}_{1}$ 는 표본을 뽑아서 계산한 값입니다. 이미 결정된 값이라는 것입니다. 이 구간이 모집단을 포함할 확률이 95% 일까요? 아닙니다. 동전을 이미 던져서 앞면 혹은 뒷면이 나온 상태에서 확률을 따질 수 없는 것과 같습니다. 

 

95% 확률로 모집단을 포함하는 구간들에서 뽑은 하나의 값입니다. 모평균을 포함하거나, 포함하지 않거나 둘 중 하나로 이미 결정된 값입니다. 모평균을 모르기 때문에 우리는 결과를 알 수 없지만 이미 결정된 결과입니다.

 

여기서 이해가 되신 분들도 있고 아닌 분들도 있을겁니다. 다음 시간에는 한 가지 예시를 통해서, 이미 결정된 신뢰구간이 확률을 갖지 않는다는 사실을 직관적으로 이해해봅시다. 

반응형

댓글