일표본 비율검정을 이해하기 위해 한가지 상황을 설정하겠습니다. 아래와 같습니다.
"A시의 여성 비율이 p라고 알려져 있는데, 표본을 뽑아 정말 그러한지 확인해 봅시다."
표본을 뽑아서 가설검정을 할 것입니다. 귀무가설과 대립가설은 아래와 같습니다.
귀무가설 : A시의 여성비율이 p이다.
대립가설 : A시의 여성비율은 p가 아니다.
A시에서 크기가 n인 표본을 뽑으려고 합니다. 이때 크기가 n인 표본에 속해 있는 여성의 수를 확률변수 X라고 놓겠습니다. 확률변수 X는 아래 이항분포를 따릅니다.
$X \sim B(n,p)$
왜 확률변수 X는 이항분포를 따를까요? A시에서 크기가 n인 표본을 뽑는다는 것은, 한번 시행을 했을 때 여성이 발생할 확률이 p인 사건을 n번 시행하는 것과 같습니다. 이는 이항분포와 같습니다.
$X$의 평균과 분산은 아래와 같습니다. 이항분포의 평균과 분산인데 설명은 생략하겠습니다.
$E[X]=np$
$V[X]=npq$
표본의 크기가 충분히 크다면 이항분포는 근사적으로 정규분포를 따릅니다.
$X \sim N(np,npq)$
표준정규분포로 표준화하면 아래와 같습니다.
$Z=\frac{X-np}{\sqrt{npq}}$
여기까지는 이항분포를 정규분포로 근사시키는 일반적인 과정입니다. 이어지는 내용이 비율검정의 핵심적인 아이디어입니다. 위 식 우변의 분자와 분모를 표본크기 n으로 나눠줍니다.
$Z=\frac{\frac{X}{n}-p}{\sqrt{\frac{pq}{n}}}$
위 식의 우변에서 p는 A시의 여성비율로 알려져 있는 값입니다. p를 모비율이라고 부릅니다. q 는 1-p 이므로 알려진 값입니다. n도 표본 크기이므로 알고 있는 값입니다. $\frac{X}{n}$ 는 표본을 뽑으면 계산되는 값입니다. 크기 n인 표본에서 여성의 수 X의 비율입니다. 표본비율이라고 부릅니다.
$p$ : 모비율
$q$ : $p-1$
$n$ : 표본크기
$\frac{X}{n}$ : 표본비율
표본비율을 $p_{s}$라고 놓겠습니다. Z값을 아래와 같이 나타낼 수 있습니다.
$Z=\frac{p_{s}-p}{\sqrt{\frac{pq}{n}}}$
우리는 표본 비율 $p_{s}$의 분포를 알게되었습니다. 표본비율의 분포는 평균이 모비율이고 분산이 $\sqrt{\frac{pq}{n}}$인 정규분포를 따릅니다.
이제 실제 숫자를 대입해서 비율검정을 해봅시다. A시의 여성비율이 0.5라고 알려져 있습니다. 크기가 30인 표본을 추출했습니다. 여성이 20명 나왔습니다. 위 식에 대입해서 Z값을 구해봅시다.
$Z=\frac{\frac{20}{30}-0.5}{\sqrt{\frac{0.5 \times 0.5}{30}}}=1.83$
이번에는 p값을 구해야 합니다. 단측검정을 사용할 것이라면, 아래 영역의 넓이가 p값입니다.
양측검정을 사용할 것이라면 위 영역의 넓이에 2를 곱해주어야 합니다. 위 영역의 넓이는 0.033입니다. p값은 아래와 같습니다.
단측검정 p값 : 0.033
양측검정 p값 : 0.066
귀무가설과 대립가설을 고려하면 양측검정이 알맞습니다. 귀무가설은 기각되지 않고, A시의 여성비율이 0.5라는 기존의 사실이 유지됩니다.
'@선택과목1 > 손으로 푸는 비율검정' 카테고리의 다른 글
[손으로 푸는 비율검정] 1. 무엇을 배우는가 (0) | 2022.11.26 |
---|
댓글