본문 바로가기
@선택과목1/손으로 푸는 비율검정

[손으로 푸는 비율검정] 2. 일표본 비율검정의 수학적 원리

by bigpicture 2022. 12. 2.
반응형

일표본 비율검정을 이해하기 위해 한가지 상황을 설정하겠습니다. 아래와 같습니다. 

 

"A시의 여성 비율이 p라고 알려져 있는데, 표본을 뽑아 정말 그러한지 확인해 봅시다."

 

표본을 뽑아서 가설검정을 할 것입니다. 귀무가설과 대립가설은 아래와 같습니다. 

 

귀무가설 : A시의 여성비율이 p이다.

대립가설 : A시의 여성비율은 p가 아니다. 

 

A시에서 크기가 n인 표본을 뽑으려고 합니다. 이때 크기가 n인 표본에 속해 있는 여성의 수를 확률변수 X라고 놓겠습니다. 확률변수 X는 아래 이항분포를 따릅니다. 

 

$X \sim B(n,p)$

왜 확률변수 X는 이항분포를 따를까요? A시에서 크기가 n인 표본을 뽑는다는 것은, 한번 시행을 했을 때 여성이 발생할 확률이 p인 사건을 n번 시행하는 것과 같습니다. 이는 이항분포와 같습니다. 

 

$X$의 평균과 분산은 아래와 같습니다. 이항분포의 평균과 분산인데 설명은 생략하겠습니다. 

 

$E[X]=np$
$V[X]=npq$

 

표본의 크기가 충분히 크다면 이항분포는 근사적으로 정규분포를 따릅니다. 

 

$X \sim N(np,npq)$

 

표준정규분포로 표준화하면 아래와 같습니다. 

 

$Z=\frac{X-np}{\sqrt{npq}}$

 

여기까지는 이항분포를 정규분포로 근사시키는 일반적인 과정입니다. 이어지는 내용이 비율검정의 핵심적인 아이디어입니다. 위 식 우변의 분자와 분모를 표본크기 n으로 나눠줍니다. 

 

$Z=\frac{\frac{X}{n}-p}{\sqrt{\frac{pq}{n}}}$

 

위 식의 우변에서 p는 A시의 여성비율로 알려져 있는 값입니다. p를 모비율이라고 부릅니다. q 는 1-p 이므로 알려진 값입니다. n도 표본 크기이므로 알고 있는 값입니다. $\frac{X}{n}$ 는 표본을 뽑으면 계산되는 값입니다. 크기 n인 표본에서 여성의 수 X의 비율입니다. 표본비율이라고 부릅니다. 

 

$p$ : 모비율

$q$ : $p-1$

$n$ : 표본크기

$\frac{X}{n}$ : 표본비율

 

표본비율을 $p_{s}$라고 놓겠습니다. Z값을 아래와 같이 나타낼 수 있습니다. 

 

$Z=\frac{p_{s}-p}{\sqrt{\frac{pq}{n}}}$

 

우리는 표본 비율 $p_{s}$의 분포를 알게되었습니다. 표본비율의 분포는 평균이 모비율이고 분산이 $\sqrt{\frac{pq}{n}}$인 정규분포를 따릅니다. 

 

이제 실제 숫자를 대입해서 비율검정을 해봅시다. A시의 여성비율이 0.5라고 알려져 있습니다. 크기가 30인 표본을 추출했습니다. 여성이 20명 나왔습니다. 위 식에 대입해서 Z값을 구해봅시다. 

 

$Z=\frac{\frac{20}{30}-0.5}{\sqrt{\frac{0.5 \times 0.5}{30}}}=1.83$

 

이번에는 p값을 구해야 합니다. 단측검정을 사용할 것이라면, 아래 영역의 넓이가 p값입니다. 

 

양측검정을 사용할 것이라면 위 영역의 넓이에 2를 곱해주어야 합니다. 위 영역의 넓이는 0.033입니다. p값은 아래와 같습니다.

 

단측검정 p값 : 0.033

양측검정 p값 : 0.066

 

귀무가설과 대립가설을 고려하면 양측검정이 알맞습니다. 귀무가설은 기각되지 않고, A시의 여성비율이 0.5라는 기존의 사실이 유지됩니다. 

반응형

댓글