모비율 추정을 간단히 설명하겠습니다. 이론을 자세히 설명하는 강의는 아니라서 아래 두 내용은 다른 글로 설명하겠습니다.
- 표본비율의 분포가 정규분포를 따르는 이유
- 신뢰구간 유도과정
모집단에서 모비율을 p라고 놓겠습니다. 예를들면 모집단이 서울시민이고 모비율은 의사의 비율인 것입니다. 우리는 p를 모른다고 가정하겠습니다. 이 p를 알아내기 위해 표본을 뽑을 것입니다.
크기가 n인 표본을 뽑았습니다. 표본의 의사비율을 p_hat1 이라고 놓겠습니다. 중심극한정리에 의해 표본비율들은 아래 분포를 따릅니다. p_hat1 은 아래 분포 상의 한 점입니다.
p_hat~N(p,p(1-p)/n)
정규분포를 가정할 수 있는 조건은 n(p_hat1)≥10 과 n(1-p_hat1)≥10 을 동시에 만족하는 것입니다.
모비율을 추정해봅시다. 신뢰도 95%로 모비율을 추정한 결과는 아래와 같습니다.
n이 충분히 큰 경우 모비율을 표본비율로 대체가 가능합니다. (이유는 알아보는 중인데 찾기가 쉽지 않네요;)
99%로 추정할 경우 1.96 대신 2.58 적용하시면 됩니다.
<예시>
10000명의 모집단이 있고, 광고 A와 B가 있습니다. 두 광고 중 A를 클릭하는 모비율을 p라고 놓겠습니다. 500명을 추출했고, 300명이 광고 A를 클릭, 200명이 광고 B를 클릭했습니다. 표본비율은 0.6입니다. 95% 신뢰구간으로 모비율을 추정하면 아래와 같습니다.
계산 결과는 아래와 같습니다.
모집단이 0.56~0.64 사이에 있을 확률이 95% 라는 의미는 아닙니다. '100개의 표본을 뽑아서 위와 같은 신뢰구간을 만들면 그 중 95개에는 모집단이 포함될 것인데, 위 표본은 그 100개 중 하나이다' 라는 의미입니다.
5%가 아니라 95%의 사건이 발생했다면, 우리가 구한 신뢰 구간 안에 모집단이 있을거란 의미입니다. 물론 5%사건이 발생한 것일 수도 있습니다. 어쩔 수 없이 안고 가야하는 오류입니다.
<구독자분의 질문>
한 구독자분이 아래와 같은 질문을 주셨습니다. 단순화한 것입니다.
위 예시에서, 만약 표본을 하나 더 뽑는다면 그 표본에서 A의 비율이 B보다 크다고 할 수 있는가?
일단 우리가 가진 정보는 표본비율이 0.6이고, 표준편차는 0.021이라는 것입니다. 이를 이용하여 모평균을 95%신뢰도로 구간추정했어니 0.56~0.64라는 결과를 얻었습니다.
위 정보로 다른 표본을 추정해야하는 상황입니다. 저도 처음 보는 문제입니다. 몇가지 가정을 추가하여 시도해보겠습니다.
먼저 표본비율의 분포를 가정합시다. 정규성 가정은 표본이 충분히 크므로 가능합니다. 표본비율의 평균은 모비율일텐데, 양 극단값으로 설정해봅시다. 한가지 가정을 더해야합니다. 표본비율의 분산이 표본분산인 0.021이라고 가정합시다.
1) 모비율이 0.56인 경우
표본평균은 평균이 0.56이고, 표준편차가 0.021인 정규분포를 따릅니다. A의 비율이 더 크다는 것은, 0.5이상인 표본이 뽑히는 경우를 말합니다. 정규분포를 따르므로, 0.5보다 큰 부분의 넓이를 구하면됩니다. r 코드는 아래와 같습니다.
> pnorm(0.5,0.56,0.021,lower.tail=FALSE)
[1] 0.9978626
99.7%의 확률로 A가 더 크게됩니다.
2) 모비율이 0.64인 경우
> pnorm(0.5,0.64,0.021,lower.tail=FALSE)
[1] 1
100%의 확률로 A가 더 크게됩니다.
보수적으로 결론을 내립시다. 우리가 뽑은 표본으로 95%신뢰구간으로 모비율을 추정하고, 해당 구간을 이용하여 보수적 극단값 0.56을 모비율로 놓을 경우, 모집단에서 또다른 표본 추출 시 99.7%의 확률로 A의 선택비율이 크게 됩니다.
더 보수적으로 계산하고 싶으면 신뢰구간을 99%로 늘리면 됩니다.
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
IBM에서 제공하는 무료 데이터사이언스 강의 사이트 (1) | 2020.09.21 |
---|---|
표본의 크기를 계산하는 검정력분석 (G power 소프트웨어) (0) | 2020.08.27 |
반복측정 분산분석에서의 표본수 선정 (0) | 2020.08.26 |
통계분석 전에 상자수염그림을 그려봐야 하는 이유 (0) | 2020.08.25 |
상관분석은 언제쓰는걸까 (0) | 2020.07.23 |
분산분석은 언제쓰는걸까 (0) | 2020.07.17 |
카이제곱검정은 언제 쓰는걸까 (4) | 2020.07.12 |
독립표본 t검정은 언제쓰는걸까 (0) | 2020.07.12 |
댓글