본문 바로가기
@ 필수과목/손으로 푸는 통계

[손으로 푸는 통계 ver1.0] 96. 표본분산을 모분산 대신 사용할 수 있는가 (1) 정규분포를 따르는 모집단에서 모분산과 표본분산 비교

by bigpicture 2022. 7. 21.
반응형

모집단의 평균이 얼마라고 알려져 있는 상황에서 표본을 뽑아서 알려진 모집단의 평균이 맞는지 확인하는 검정을 일표본 Z검정이라고 합니다. 이러한 일표본 Z검정 과정에서 모분산이 사용되는데요. 대부분의 경우 모분산은 알려져 있지 않습니다. 모분산을 모르면 Z검정을 할 수 없기 때문에 표본분산을 모분산 대신 사용합니다. 표본의 크기가 충분히 크면 모분산과 표본분산의 차이가 크지 않을 것이라는 생각 때문입니다. 과연 그래도 되는 것인지를 오늘 확인하려고 합니다. 

 

모집단은 두가지로 설정하였습니다. 정규분포를 따르는 모집단과 균등분포를 따르는 모집단입니다. 이번 글에서는 정규분포를 따르는 모집단의 경우를 알아봅시다.

 

표본크기 n이 100이라고 가정해봅시다. 정규분포를 따르는 모집단이라고 가정했기 때문에 표본분산은 아래와 같이 n-1 자유도인 99자유도 카이제곱 분포를 따릅니다. 

$\frac{99}{\sigma^{2}} \cdot s^{2} \sim \chi^{2}_{99}$

 

그래프를 그려보면 아래와 같습니다. 

 

 

이 분포는 표본분산의 분포구요. 모집단에서 표본을 뽑아 표본분산을 구하는 것은 위 분포에서 표본분산을 하나 뽑는 것과 같습니다. 먼저 표본분산이 뽑힐 확률이 95%인 구간에서 모분산과 표본분산이 차이가 어느정도인지 확인해봅시다. 

 

아래 그림과 같이 구간을 나타낼 수 있습니다. 좌측 빨간선 보다 왼쪽에 있는 부분의 넓이가 0.025, 우측 빨간선의 오른쪽 부분의 넓이도 0.025입니다. 합하면 0.05입니다. 따라서 두 빨간선 사이의 넓이는 0.95가 됩니다. 95% 신뢰구간입니다. 

 

 

모집단에서 표본을 100개 뽑으면 그 중 95개의 분산은 위 범위 내에 있는 것입니다. 

 

확률로 표현하면 아래와 같습니다 .

 

$P\left ( 73.4 \leq \frac{99}{\sigma^{2}} \cdot s^{2} \leq 128.4 \right ) = 0.95$

 

괄호 안 부등식만 꺼내봅시다. 

 

$73.4 \leq \frac{99}{\sigma^{2}} \cdot s^{2} \leq 128.4$

 

각 변에 $\sigma^{2}$을 곱해줍시다.

 

$73.4 \cdot \sigma^{2} \leq 99 \cdot  s^{2} \leq 128.4 \cdot  \sigma^{2}$

 

각 변을 99로 나눠줍니다. 

 

$\frac{73.4}{99}\ \sigma^{2} \leq  s^{2} \leq \frac{128.4 }{99} \ \sigma^{2}$

 

분수를 계산합시다. 표본분산의 범위가 모분산에 대해 계산되었습니다. 

 

$0.74 \ \sigma^{2} \leq  s^{2} \leq 1.30 \ \sigma^{2}$

 

위 부등식을 쉽게 말하면, 모분산이가 100인 경우 표본분산은는 74~130 사이 값이 95%로 확률로 발생한다는 말입니다.  

 

큰 차이일까요, 작은 차이일까요. 제 눈에는 꽤 커보입니다. 위 상황은 표본 크기가 100인 한가지 사례를 살펴본 것이구요. 일반화를 시킬 수 있습니다. 

 

표본의 크기가 n일 때, 95% 확률로 표본분산이 뽑힐 범위는 아래와 같습니다.

 

$\frac{ qchisq(0.025,n-1)}{n-1}\ \sigma^{2} \leq  s^{2} \leq \frac{qchisq(0.975,n-1)}{n-1} \ \sigma^{2}$

 

$qchisq(0.025,n-1)$ 은 n-1자유도 카이제곱분포에서 왼쪽 꼬리가 2.5%가 되는 x값입니다. $qchisq(0.975,n-1)$ 는 오른쪽 꼬리가 2.5%가 되는 x값입니다.

 

위 식을 아래와 같이 간단하게 표현합시다. 계수를 편의상 A와 B로 놓겠습니다. 

 

$A_{n-1} \sigma^2 \leq  s^2 \leq B_{n-1} \ \sigma^2$

 

n을 바꿔가면서 계수가 어떻게 변하는지 알아봅시다. 

 

 

표의 의미를 설명하겠습니다. 예를 들어 n이 10이면 A가 0.30이고 B는 2.11입니다. 따라서 범위는 아래와 같습니다. 

 

$0.30 \sigma^2 \leq  s^2 \leq 2.11 \ \sigma^{2}$

 

표본분산은 모분산의 30%보다 크고 211%보다 작습니다. 범위가 너무 넓습니다.

 

신뢰도를 95%로 놓고, 모분산과의 차이가 10% 이내에서 발생하는 표본의 크기 n을 구해봅시다. R에서 while 문을 이용해서 구했습니다. A가 0.95가 되는 n은 638이고, B가 1.05가 되는 n은 637가 나옵니다. 

 

신뢰도를 95%로 놓고, 모분산과의 차이가 2% 이내에서 발생하는 표본의 크기 n을 구해봅시다. R에서 while 문을 이용해서 구했습니다. A가 0.95가 되는 n은 8541이고, B가 1.05가 되는 n은 8537가 나옵니다. 

 

표본의 크기가 8000개는 되어야 모분산과 표본분산의 차이가 2%이내가 됩니다. 이것 마저도 95% 신뢰도의 경우이고 신뢰도를 99%로 높이면 표본의 크기는 더 늘어납니다.

 

표본 크기에 따른 표본분산과 모분산의 차이를 정량적으로 계산했습니다. 이 차이가 p값에 얼마나 큰 영향을 주는지 알아봐야 합니다. 다음 시간에는 모분산을 표본분산으로 대체하는 것이 p값에 미치는 영향을 알아봅시다. 

 

 

#사용 그림 코드

dof=99
x2=seq(0,200,by=1)
plot( x2, dchisq(x2,df=dof),type='l',ylab='Density',xlab="x^2",
      main=paste0('카이제곱분포 (',dof,'자유도)'))
#points(c(dof-2,dof-2),c(0,1),type='l',col='red')

per2_5=round(qchisq(0.025,df=99),1)
per97_5=round(qchisq(0.975,df=99),1)

axis(1,at=per2_5,
     label=per2_5,col='red',col.axis='red')

axis(1,at=per97_5,
     label=per97_5,col='red',col.axis='red')

points(c(per2_5,0),c(0,1),type='l',col='red',lty=3)
points(c(per97_5,0),c(0,1),type='l',col='red',lty=3)

 

#표 코드

size=c(10,30,50,100,200,500,1000,3000,10000)
confid=0.95


df=data.frame(n=NA,A=NA,B=NA)

for (i in 1:length(size)){
  
  p_left=round( qchisq((1-confid)/2,size[i]-1)/(size[i]-1) ,2)
  p_right=round( qchisq(1-(1-confid)/2,size[i]-1)/(size[i]-1) ,2)
  
  df[i,]=list(size[i],p_left,p_right)
}

View(df)

 

#타겟 오차를 만족하는 표본크기 계산 코드

confid=0.99
difference=0.01


#A 계산
size=2
A=round( sqrt(qchisq(1-confid,size-1)/(size-1)) ,2)

while(A<1-difference){
  
  A=round( sqrt(qchisq(1-confid,size-1)/(size-1)) ,2)
  size=size+1
  
}
print(size)


#B계산
size=100
B=round( sqrt(qchisq(confid,size-1)/(size-1)) ,2)

while(B>1+difference){
  
  B=round(sqrt(qchisq(confid,size-1)/(size-1)) ,2)
  size=size+1
  
  
}

print(size)

 

 

#강의 영상

 

반응형

댓글