[손으로 푸는 통계 ver1.0] 97. 표본분산을 모분산 대신 사용할 수 있는가 (2) 정규분포를 따르는 모집단에서 p값 비교

Z검정에서 모분산 대신 표본분산을 사용할 경우 p값이 얼마나 달라질 수 있는지 알아봅시다. Z검정에서 p값은 우리가 뽑은 표본으로 구한 Z값보다 극단적인 영역의 넓이로 정의됩니다. 이 넓이는 표준정규분포에서 구합니다.

우리가 뽑은 표본의 Z값은 아래와 같이 구합니다.

$Z_{1}=\frac{ \bar{X}_{1}-\mu }{ \frac{\sigma}{\sqrt{n}} }$

$\bar{X}_{1}$ 은 우리가 뽑은 표본의 평균입니다. $\sigma$ 가 모분산인데요. 모분산을 표본분산으로 바꾸면 $Z_{1}$ 가 변하므로 p값도 바뀌게 됩니다. 모분산을 표본분산으로 바꿨을 때 p값이 얼마나 변하는지 확인해보려는 것입니다.

지난시간에 유도한 부등식을 가져옵시다.

$\frac{ qchisq(0.05,n-1)}{n-1}\ \sigma^{2} \leq s^{2} \leq \frac{qchisq(0.95,n-1)}{n-1} \ \sigma^{2}$

아래와 같이 간단히 치환했었습니다.

$A_{n-1} \sigma^2 \leq s^2 \leq B_{n-1} \sigma^2$

각 항에 루트를 씌워줍니다.

$\sqrt{A_{n-1}} \sigma \leq s \leq \sqrt{B_{n-1}} \sigma$

역수를 취해줍니다.

$\frac{1}{\sqrt{A_{n-1}}} \frac{1}{ \sigma} \geq \frac{1}{s} \geq \frac{1}{ \sqrt{B_{n-1}}} \frac{1}{ \sigma}$

각 항에 $\bar{X}_{1}-\mu$ 를 곱해줍니다. $\bar{X}$ 이 $\mu$ 보다 커서 p값이 우측꼬리에서 발생한다고 가정합시다.

$\frac{1}{\sqrt{A_{n-1}}} \frac{\bar{X}_{1}-\mu}{ \sigma} \geq \frac{\bar{X}_{1}-\mu}{s} \geq \frac{1}{ \sqrt{B_{n-1}}} \frac{\bar{X}_{1}-\mu}{ \sigma}$

각 항의 분모를 $\sqrt{n}$ 으로 나눠줍시다.

$\frac{1}{\sqrt{A_{n-1}}} \frac{\bar{X}_{1}-\mu}{ \frac{\sigma}{\sqrt{n}}} \geq \frac{\bar{X}_{1}-\mu}{ \frac{s}{\sqrt{n}} } \geq \frac{1}{ \sqrt{B_{n-1}}} \frac{\bar{X}_{1}-\mu}{ \frac{\sigma}{\sqrt{n}}}$

모분산으로 구한 Z값을 $Z_{\sigma}$ 라고 놓고, 표본분산으로 구한 Z값을 $Z_{s}$ 라고 놓으면 위 식을 아래와 같이 치환할 수 있습니다.

$\frac{1}{\sqrt{A_{n-1}}} Z_{\sigma} \geq Z_{s} \geq \frac{1}{ \sqrt{B_{n-1}}} Z_{\sigma}$

아래와 같이 변형합니다.

$\frac{1}{\sqrt{B_{n-1}}} Z_{\sigma} \leq Z_{s} \leq \frac{1}{ \sqrt{A_{n-1}}} Z_{\sigma}$

모분산으로 구한 p값이 0.05가 나왔을 때를 기준으로 범위를 구하겠습니다. 모분산으로 구한 p값이 0.05가 나오려면 $Z_{\sigma}$ 는 1.64여야 합니다. 위 식에 대입합시다.

$\frac{1}{\sqrt{B_{n-1}}} \times 1.64 \leq Z_{s} \leq \frac{1}{ \sqrt{A_{n-1}}} \times 1.64$

아래와 같이 치환합니다.

$B'_{n-1}\cdot 1.64 \leq Z_{s} \leq A'_{n-1}\cdot 1.64$

표본분산으로 대체했을 때의 p값을 $p_{s}$ 라고 놓으면 $p_{s}$ 의 범위는 아래와 같습니다. pnorm 은 표준정규분포의 누적분포함수입니다.

$1-pnorm(A'_{n-1} \times 1.64) \leq p_{s} \leq 1-pnorm(B'_{n-1} \times 1.64)$

n에 따라 양쪽 값이 어떻게 변하는지 알아봅시다.

표본 크기가 5000은 되야 어느정도 납득할 만한 범위가 됩니다. 표본크기 5000에서 표본분산으로 구한 p값이 0.048~0.053 입니다. 저 구간에 100% 들어오는 것도 아닙니다. 확률은 95%입니다.

모분산으로 구한 p값과 표본분산으로 구한 p값의 차이가 10% 이하가 되는 표본 크기를 구해보았습니다. n은 1971입니다. 5% 이내일 경우 n은 9917 입니다.

표본의 크기가 수천개인 아주 큰 표본에서 대체가 가능합니다. 우리가 기준으로 사용하는 표본크기 30에서 표본분산으로 구한 p값의 범위는 아래와 같습니다.

$0.018 \leq p_{s} \leq 0.088$

범위가 상당히 넓습니다. 이정도 표본크기에서는 모분산 대신 표본분산을 사용하면 안된다고 생각합니다.

#표 그리는 코드

size=c(10,30,50,100,200,500,1000,3000,5000,8000,10000)
confid=0.95


df=data.frame(n=NA,A=NA,B=NA)

for (i in 1:length(size)){
  
  A= sqrt(qchisq(1-confid,size[i]-1)/(size[i]-1))
  B=sqrt(qchisq(confid,size[i]-1)/(size[i]-1))

  A_prime=1/A
  B_prime=1/B
  
  p_left=round(1-pnorm(A_prime*1.64),3)
  p_right=round(1-pnorm(B_prime*1.64),3)
    
  df[i,]=list(size[i],p_left,p_right)
}

colnames(df)=c("n","p_left","p_right")

#타겟 표본수 찾는 코드

confid=0.95
target=0.05


#A' 계산
size=2
p_left=0

while(p_left<target*0.95){
  
  A= sqrt(qchisq(1-confid,size-1)/(size-1))
  A_prime=1/A

  p_left=1-pnorm(A_prime*1.64)
  
  size=size+1
}
print(size)


#B' 계산
size=100
p_right=1

while(p_right>target*1.05){
  

  B=sqrt(qchisq(confid,size-1)/(size-1))
  B_prime=1/B
  
  p_right=1-pnorm(B_prime*1.64)
  
  size=size+1
}

print(size)

#강의 영상

저작자표시 비영리 변경금지

'@ 필수과목 > 손으로 푸는 통계' 카테고리의 다른 글

[손으로 푸는 통계 ver1.0] 101. 종강 및 이후계획 (5)	2022.07.22
[손으로 푸는 통계 ver1.0] 100. 전체내용 요약 (0)	2022.07.22
[손으로 푸는 통계 ver1.0] 99. t 분포의 등장배경 (고셋과 스튜던트) (0)	2022.07.22
[손으로 푸는 통계 ver1.0] 98. 표본분산을 모분산 대신 사용할 수 있는가 (3) 균등분포를 따르는 모집단에서 p값 비교 (0)	2022.07.21
[손으로 푸는 통계 ver1.0] 96. 표본분산을 모분산 대신 사용할 수 있는가 (1) 정규분포를 따르는 모집단에서 모분산과 표본분산 비교 (0)	2022.07.21
[손으로 푸는 통계 ver1.0] 95. 표본분산의 분포 요약 (0)	2022.07.20
[손으로 푸는 통계 ver1.0] 94. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (3) 유도한 식 검증 (0)	2022.07.18
[손으로 푸는 통계 ver1.0] 93. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (2) 정규분포를 카이제곱분포로 근사 (0)	2022.07.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

통계의 본질 (유튜브 : 통계의 본질)

[손으로 푸는 통계 ver1.0] 97. 표본분산을 모분산 대신 사용할 수 있는가 (2) 정규분포를 따르는 모집단에서 p값 비교

#강의 영상

'@ 필수과목 > 손으로 푸는 통계' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[손으로 푸는 통계 ver1.0] 97. 표본분산을 모분산 대신 사용할 수 있는가 (2) 정규분포를 따르는 모집단에서 p값 비교

#강의 영상

'@ 필수과목 > 손으로 푸는 통계' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역