비율검정과 카이제곱검정을 두고 헷갈려 하시는 분들이 계실거라 생각됩니다. 뭔가 비슷한 것 같기도 한데 막상 구분해서 설명하자니 어려운 그런 혼란을 저도 겪었습니다. 오늘은 그 애매함을 해결해보도록 하겠습니다. 여기서 말하는 비율검정이란 일표본 비율검정과 이표본 비율검정을 말합니다.
일표본 비율검정 : 모비율과 표본 비율을 비교
이표본 비율검정 : 두 표본 비율을 비교
결론부터 말씀드리면 일표본 비율검정은 카이제곱 2수준 적합도검정과 같습니다. 이표본 비율검정은 2x2 분할표에서의 동질성검정과 같습니다.
왜 그런지 하나씩 알아봅시다.
1. 일표본 비율검정과 카이제곱 2수준 적합도검정
1-1) 일표본 비율검정
일표본 비율검정의 예시 하나를 가져옵시다.
한국 남성의 흡연율이 60%라고 알려져 있다. 이를 확인하기 위해 한국남성 100명을 뽑았고 이들 중 흡연자는 70명이었다. 한국 남성의 흡연율이 60%가 아니라고 말할 수 있는가?
모비율과 표본비율은 아래와 같습니다.
모비율 : 60%
표본비율 : 70%
일표본 비율검정의 검정통계량은 아래와 같습니다.
z=ˆp−po√po(1−po)n
ˆp : 표본 흡연자 비율
po: 모집단 흡연자 비율
n : 표본 크기
검정통계량을 계산해봅시다.
z=0.7−0.6√0.6(1−0.6)100=2.04
p값을 계산하면 아래와 같습니다. 양측검정으로 계산하였습니다.
> z=(0.7-0.6)/sqrt(0.6*(1-0.6)/100)
> (1-pnorm(z))*2
[1] 0.04122683
1-2) 카이제곱 2수준 적합도검정
위 예제를 분할표로 표현해봅시다.
흡연 | 비흡연 | 합계 | |
관찰 | 70 | 30 | 100 |
기대 | 60 | 40 | 100 |
카이제곱 검정을 이용하여 p값을 계산합시다. (correct를 FALSE로 해야 정규분포로 근사합니다.)
> prop.test(x=70,n=100,p=0.6,correct=FALSE)
1-sample proportions test without continuity correction
data: 70 out of 100, null probability 0.6
X-squared = 4.1667, df = 1, p-value = 0.04123
alternative hypothesis: true p is not equal to 0.6
95 percent confidence interval:
0.6041515 0.7810511
sample estimates:
p
0.7
일표본 비율검정과 카이제곱 적합도 검정의 p값이 0.041로 동일합니다.
2. 이표본 비율검정과 2x2 동질성검정
2-1) 이표본 비율검정
이표본 비율검정의 예시 하나를 가져옵시다. 남자와 여자의 흡연율 차이가 있는지 알고 싶어서 남자 100명과 여자100명을 대상으로 흡연율을 조사하였습니다. 남자의 흡연자는 50명이었고, 여자 흡연자는 30명이었습니다.
두 표본비율은 아래와 같습니다.
남자 표본비율 : 50%
여자 표본비율 : 30%
이표본 비율검정의 검정통계량은 아래와 같습니다.
z=ˆp1−ˆp2√ˆp(1−ˆp)(1n1+1n2)
ˆp=x1+x2n1+n2
ˆp1 : 남자 흡연자 비율
ˆp1: 여자 흡연자 비율
x1 : 남자 흡연자 수
x2 : 여자 흡연자 수
n1 : 남자 표본 크기
n2 : 여자 표본 크기
검정통계량을 계산해봅시다.
ˆp=50+30100+100=0.4
z=0.5−0.3√0.4(1−0.4)(1100+1100)=2.886
p값을 계산하면 아래와 같습니다. 양측검정으로 계산하였습니다. (correct를 FALSE로 해야 정규분포로 근사합니다.)
> z=(0.5-0.3)/sqrt(0.4*(1-0.4)*(1/100+1/100))
> (1-pnorm(z))*2
[1] 0.003892417
2-2) 2x2 동질성검정
위 예제를 분할표로 표현해봅시다.
흡연 | 비흡연 | 합계 | |
남성 | 50 | 50 | 100 |
여성 | 30 | 70 | 100 |
합계 | 80 | 120 | 200 |
카이제곱 검정을 이용하여 p값을 계산합시다.
> prop.test(x=c(50,30),n=c(100,100),correct=FALSE)
2-sample test for equality of proportions without continuity correction
data: c(50, 30) out of c(100, 100)
X-squared = 8.3333, df = 1, p-value = 0.003892
alternative hypothesis: two.sided
95 percent confidence interval:
0.06706878 0.33293122
sample estimates:
prop 1 prop 2
0.5 0.3
이표본 비율검정과 2x2 동질성검정의 p값이 0.003892로 동일합니다.
3. 결론
일표본 비율검정은 카이제곱검정의 2수준 적합도검정과 같고, 이표본 비율검정은 카이제곱검정의 2x2 동질성검정과 같습니다. 카이제곱 검정은 더 많은 수준에서도 수행이 가능하기 때문에 카이제곱검정이 일표본 비율검정과 이표본 비율검정을 포함한다고 할 수 있습니다. 카이제곱 자체를 비율검정이라고 부르기도 합니다. 정리하면 아래와 같습니다.

'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
비율검정 요약 (0) | 2021.05.14 |
---|---|
산점도 그래프 회전의 수학적 원리 (0) | 2021.04.28 |
공분산이란 무엇인가 (정의와 의미) (2) | 2021.04.27 |
통계분석 공부순서(t검정,F검정,분산분석,상관분석,회귀분석) (0) | 2021.04.26 |
독립성검정과 동질성검정의 차이(feat.카이제곱검정) (4) | 2021.03.20 |
카이제곱 검정이 세 종류나 있었어?(적합도, 독립성, 동질성) (0) | 2021.03.20 |
평균이 무의미한 경우 (평균값이 크다고 꼭 좋은걸까?) (0) | 2021.03.20 |
모평균의 추정에서 흔히 하는 오해 (0) | 2021.03.17 |
댓글
bigpicture님의
글이 좋았다면 응원을 보내주세요!
이 글이 도움이 됐다면, 응원 댓글을 써보세요. 블로거에게 지급되는 응원금은 새로운 창작의 큰 힘이 됩니다.
응원 댓글은 만 14세 이상 카카오계정 이용자라면 누구나 편하게 작성, 결제할 수 있습니다.
글 본문, 댓글 목록 등을 통해 응원한 팬과 응원 댓글, 응원금을 강조해 보여줍니다.
응원금은 앱에서는 인앱결제, 웹에서는 카카오페이 및 신용카드로 결제할 수 있습니다.