36강 부터 94강까지 표본분산의 분포에 대한 내용을 다뤘습니다. 표본분산의 분포를 유도한 이유는 Z검정 때문이었습니다.
Z검정은 표본평균의 분포를 이용해서 하는 검정입니다. n이 충분히 클 때 표본 평균의 분포가 아래와 같은 분포를 따르게 됩니다.
$\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$
그런데 모집단의 분산인 $\sigma^2$ 은 알 수 없으므로 모집단의 분산 대신 표본분산을 사용했습니다. 그래도 되는 것인지 확인하고 싶었습니다. 표본분산의 분포를 알아야 정량적인 확인이 가능해서 표본분산의 분포를 유도한 것입니다.
표본분산의 분포를 유도할 때 모집단이 정규분포를 따른다는 가정이 필요했습니다. 크기가 n인 표본분산의 분포는 아래와 같이 유도되었습니다. n-1 카이제곱분포를 따랐습니다.
$\frac{n-1}{\sigma^2}s^2 \sim \chi ^2_{n-1}$
모집단이 정규분포를 따른다는 가정을 없애고 싶었고 논문을 하나 찾았습니다. n이 충분히 커지면 표본분산은 모집단의 분포와 상관없이 아래 분포를 따랐습니다.
$DF\frac{s^2}{\sigma^2} \sim \chi ^2_{DF} \ \left ( DF=\frac{2n}{\kappa-1} \right )$
하지만 여전히 모집단의 첨도인 $\kappa$를 알아야 했습니다. 그런데 모집단의 첨도 또한 모집단의 분산처럼 알기 어려운 값입니다. 지금까지의 내용으로 내릴 수 있는 결론은 두가지였습니다.
모집단이 정규분포를 따른다면 표본분산은 $\frac{n-1}{\sigma^2}s^2 \sim \chi ^2_{n-1}$ 를 따른다.
모집단이 정규분포를 따르지 않는다면 표본분산은 $DF\frac{s^2}{\sigma^2} \sim \chi ^2_{DF} \ \left ( DF=\frac{2n}{\kappa-1} \right )$ 를 따르고 이 경우 모집단에 첨도를 구해야한다.
표본분산의 분포에 대해 다루고 보니, 현재 보편적으로 사용되고 있는 t검정에 대한 의문이 들었습니다. n이 충분히 커지면 중심극한정리를 사용할 수 있기 때문에 크기가 30 이상인 표본에서는 모집단의 분포와 상관없이 t검정을 사용합니다. 문제는 t검정에 사용되는 t분포를 유도할 때 표본분산의 분포를 사용한다는데 있습니다. $\frac{n-1}{\sigma^2}s^2 \sim \chi ^2_{n-1}$ 라는 성질을 사용합니다. 이 성질은 n이 커진다고 보장되는 성질이 아닙니다. 지금까지 살펴본 내용을 반영하면 t검정은 반드시 모집단의 정규성이 보장되어야 합니다. 만약 모집단이 정규분포를 따르지 않을 경우에 모집단의 첨도를 반영하여 통계량이 수정되어야 합니다.
이 이야기는 t검정을 다룰 때 다시 하도록 하겠습니다.
앞으로 알아볼 내용은 z검정에서 모분산을 표본분산으로 대체해도 괜찮냐는 것입니다. 두가지 모분산에서 확인해보려고 합니다. 정규분포를 따르는 모분산과 균등분포를 따르는 모분산입니다.
댓글