본문 바로가기
@ 통계 교양/통계 Tips

통계적 유의차가 있다고 의미있는 차이일까

by bigpicture 2022. 7. 22.
반응형

두 집단의 평균을 비교하기 위해 t검정을 했고 p값이 0.001이 나왔다고 합시다. p값이 0.05보다 작으므로 두 집단의 평균이 다르다고 판단할 것입니다. 

 

하지만 통계적 유의차가 있다고 정말 의미있는 차이일지는 생각을 해봐야 합니다. 통계적 유의차가 있는 것과 실제로 의미있는 차이인 것은 별개의 문제입니다. 아래 사례를 통해 알아봅시다. 

 

두 모집단 A와 B가 있습니다. 변수는 키(height)라고 합시다. 집단 A의 평균 키는 180, 집단 B의 평균 키는 180.01이라고 합시다. 각 집단에서 크기가 n인 표본을 뽑았습니다. 집단 A의 표본평균과 표본분산은 $\bar{X}_{A}$, $s_{A}$ 이고 집단 B의 표본평균과 표본분산은 $\bar{X}_{B}$, $s_{B}$ 라고 합시다. 그림으로 나타내면 아래와 같습니다. 

 

 

t통계량을 구하면 아래와 같습니다. 두 집단의 분산이 다르다고 가정했습니다. 아래는 이분산 가정 t통계량입니다. 

 

t통계량 

$T=\frac{\bar{X}_{B}-\bar{X}_{A}}{\sqrt{
\frac{s_{B}^{2}}{n}+\frac{s_{A}^{2}}{n}
}}$

 

자유도

$df= \frac{ \left ( \frac{s_{B}^{2}}{n} + \frac{s_{A}^{2}}{n} \right )^2 } 

\frac { \left (  \frac{s_{B}^{2}}{n} \right )^2 } {n-1} + 
\frac { \left (  \frac{s_{A}^{2}}{n} \right )^2 } {n-1}
}$

 

n이 커지면 자유도와 t통계량도 커집니다. 자유도도 커집니다. 따라서 p값은 작아집니다. n커지면 언젠가 p값은 0.05 보다 작아지게 되고 유의차가 발생하게 됩니다. n을 모집단 크기만큼 키워도 유의차가 발생하지 않는 경우는 한가지 밖에 없습니다. 두 모집단의 평균이 완전히 같은 경우입니다. 이때는 n을 모집단 크기만큼 키우면 t값은 0이 됩니다. 

 

위 예시에서도 n을 키우면 p값은 언젠가 0.05 보다 작아지게 됩니다.우리는 아래와 같은 결론을 내릴 것입니다. 

 

"두 집단의 키에는 통계적 유의차가 있다"

 

이 의미를 두 집단의 키에 의미있느 정도의 차이가 있다 라고 생각하는 경우가 있습니다. 상식적으로 생각해봅시다. 평균 키가 180인 모집단과 180.01인 모집단은 다르다고 할 수 있나요? 아마 사람마다 판단이 달라질 것입니다. 저는 다르다고 할 수 없다고 생각합니다. 그게 그거죠. 통계적 유의차는 발생했을 지라도 의미있는 차이가 아닐 수 있습니다. 

 

통계적 유의차가 있다는 말은 두 모집단의 평균이 모든 소수점 자리까지 토시 하나 안틀리고 같은 것은 아니다 라는 정보만 제공합니다. 그 차이에 의미를 부여하는 것은 각자에게 달려 있습니다. 

반응형

댓글