본문 바로가기
@ 통계 교양/통계 Tips

통계적 유의차가 있으면 의미 있는 차이인 걸까

by bigpicture 2021. 6. 22.
반응형

두 회사에서 감자칩을 출시했고 가격은 동일합니다. 각각의 회사는 올해 10만개의 감자칩을 생산했습니다. 우리에게 모든 것을 아는 초능력이 있어서 10만개의 평균과 표준편차를 알고 있다고 가정합시다. 

A회사의 감자칩 무게의 평균은 50g, 표준편차는 1g 이었고, B회사의 감자칩 무게의 평균은 50.1g, 표준편차는 1g 이었습니다. 분포는 정규분포를 따른다고 가정하겠습니다.

 

$A\sim N\left ( 50,1 \right )$

 

$A\sim N\left ( 50.1,1 \right )$

 

각 회사의 10만개의 감자칩을 모집단으로 하여 표본을 추출하고 p값을 구해봅시다.

 

무료 통계 프로그램인 R을 이용하여 표본의 크기를 10부터 10000까지 10단위로 키우며 표본을 추출하고 p값을 구해봤습니다. 

 

사용한 R 코드는 아래와 같습니다. 

 

pv=list()

for (i in 1:1000){
n=seq(10,10000,10)
A=rnorm(n[i],50,1)
B=rnorm(n[i],50.1,1)
pv[i]=t.test(A,B)$p.value
}

plot(n,unlist(pv),xlab="n",ylab="p-value")

 

그래프는 아래와 같습니다. 

 

표본의 크기를 키우면 유의차가 발생합니다. 이는 당연한 현상입니다. t통계량을 봅시다. 

 

$T=\frac{\bar{X}_{1}-\bar{X}_{2}}{\sqrt{
\frac{s_{1}^{2}}{N_{1}}+\frac{s_{2}^{2}}{N_{2}}
}}$

 

t값은 표본의 크기 n이 커지면 커지게 되어 있습니다. t값이 커지면 p값은 작아집니다. 모평균의 차이가 0이 아닌 이상, 표본의 크기가 커질 수록 p 값은 작아지게 되고 유의차가 발생합니다. 

 

위 예시에서도 모평균의 차이는 0.1g이라는 작은 차이지만, 표본의 크기가 커지면 유의한 차이가 되는 것입니다. 통계적 유의차라는 것은 0이 아닌 차이를 의미합니다. 하지만 현실에서는 다릅니다. 차이가 0이 아니라고 의미있는 차이인 것은 아닙니다. 과자 무게가 0.1g 차이나는게 의미 있는 차이일까요? 

 

0이 아닌 차이가, 실제로 의미 있는 차이인지는 각자가 판단해야하는 문제입니다. 

 

 

반응형

댓글