본문 바로가기
@ 필수과목/손으로 푸는 통계

[손으로 푸는 통계 ver1.0] 99. t 분포의 등장배경 (고셋과 스튜던트)

by bigpicture 2022. 7. 22.
반응형

96~98강에서 Z검정에 모분산 대신 표본분산을 사용할 수 있는지 시뮬레이션을 통해 알아보았습니다. 표본의 크기가 30 이상인 경우 아래의 Z통계량에서 모표준편차 $\sigma$대신 표본표준편차 $s$를 사용해도 된다고 알려져 있는데, 정말 그런지 확인해본 것입니다. 

 

$Z=\frac{\bar{X}-
mu}{\frac{\sigma}{\sqrt{n}}}$

 

모집단의 분포는 정규분포와 균등분포 두 가지로 설정하였습니다. 모분산을 사용하여 계산한 p값과 표본분산을 사용하여 계산한 p값의 차이가 10% 이하가 되게 하는 표본크기를 구했습니다. 정규분포 모집단의 경우는 638, 균등분포 모집단의 경우는 1279 이었습니다. 95% 신뢰구간에서 계산된 것이고 99%로 신뢰도를 높이면 표본크기는 더 커질 것입니다. 

현실에서 크기가 수백 이상인 표본을 뽑을 수 있는 경우는 많지 않습니다. 표본의 크기가 크지 않은 경우에 Z분포를 대신해 사용할 분포가 필요했습니다. 이런 배경에서 t분포가 등장하게 됩니다. 

1908년 윌리엄 고셋이라는 사람이 student 라는 필명으로 게재한 논문에 t분포가 등장합니다. 오늘날 t-test 를 고셋의 필명인 student 가 붙어서 student t-test 라고 부르는 이유입니다. 고셋의 논문은 아래 링크에서 다운로드가 가능합니다. 

 

http://seismo.berkeley.edu/~kirchner/eps_120/Odds_n_ends/Students_original_paper.pdf

 

아래는 논문의 첫 페이지입니다. 

 

 

논문의 제목은 probable error of mean 입니다. By STUDENT 라고 되어 있습니다. 고셋은 기네스 양조회사에서 일하는 화학자였습니다. 고셋이 필명을 사용한 이유는 회사 정책 때문이었습니다. 이름을 사용할 경우 기네스 직원이 게재한 논문인 것이 알려지기 때문입니다. 

 

고셋은 표본이 작은 경우에 모분산 대신 표본분산을 사용하면 오차가 너무 커진다는 문제를 지적하고 t분포를 유도합니다. t분포를 이용한 검정이 오늘날 많이 사용되는 t검정입니다. 

 

그런데 고셋의 논문을 읽고 아래와 같은 두 가지 의문이 생겼습니다. 

 

1) t분포를 유도할 때 모집단이 정규분포를 따른다는 가정을 하는데 이는 중심극한정리와 별개의 가정이다. 따라서 표본의 크기가 아무리 커도 정규분포를 따른다는 가정이 필요하다. 그런데 왜 지금은 표본크기 30 이상이면 정규성검정 없이도 t검정을 사용하고 있는가?

 

2) t분포에서 표본의 크기 n이 30보다 크면 t분포와 z분포는 거의 같아진다. n이 30 근처에서는 표본에서는 t검정을 사용하던, 모표준편차대신 표본표준편차를 사용한 z검정을 사용하던 큰 차이가 없다는 것이다. 그런데 n이 30 근처에서 모표준편차 대신 표본표준편차를 사용한 z검정은 상당한 오차를 발생시킨다. 이 말은 n이 30 근처에서 t검정도 상당한 오차를 가진다는 말인가? 

 

이어지는 순서는 t분포를 유도하는 것인데요. 손으로푸는 통계는 여기서 마무리짓고 t검정과 관련된 내용은 '손으로 푸는 t검정'이라는 다른 강의에서 진행하려고 합니다. 위에서 언급한 의문도 손으로 푸는 t검정에서 다루겠습니다. 

 

손으로푸는 통계를 처음 시작할 때의 계획은 모든 검정을 다 다루는 것이었습니다. Z검정을 시작으로 t검정, 분산분석, 회귀분석 등 전부 다루려고 했었습니다. 그러다 t검정으로 범위를 좁히고, 다시 Z검정으로 범위를좁히게 되었습니다. 100회도 이미 너무 긴 강의라고 생각합니다. t검정을 다루게 되면 강의가 200회 가깝게 늘어나게 될겁니다. 하나의 강의에서 너무 여러 내용을 다루는 것보다 적당한 길이의 강의를 여러개 제작하는 것이 더 나을 것이라는 판단에서 내린 결정입니다. 

 

다음 강의인 100강에서 손으로푸는 통계 전체 내용을 요약하고, 101강에서 이후 계획을 자세히 설명드리며 손으로푸는통계 강의를 마치도록 하겠습니다.

 

 

#강의 영상

 

반응형

댓글