Processing math: 100%
본문 바로가기
@ 통계 교양/통계 Tips

통계적 유의차가 있다고 의미있는 차이일까

by bigpicture 2022. 7. 22.
반응형

두 집단의 평균을 비교하기 위해 t검정을 했고 p값이 0.001이 나왔다고 합시다. p값이 0.05보다 작으므로 두 집단의 평균이 다르다고 판단할 것입니다. 

 

하지만 통계적 유의차가 있다고 정말 의미있는 차이일지는 생각을 해봐야 합니다. 통계적 유의차가 있는 것과 실제로 의미있는 차이인 것은 별개의 문제입니다. 아래 사례를 통해 알아봅시다. 

 

두 모집단 A와 B가 있습니다. 변수는 키(height)라고 합시다. 집단 A의 평균 키는 180, 집단 B의 평균 키는 180.01이라고 합시다. 각 집단에서 크기가 n인 표본을 뽑았습니다. 집단 A의 표본평균과 표본분산은 ˉXA, sA 이고 집단 B의 표본평균과 표본분산은 ˉXB, sB 라고 합시다. 그림으로 나타내면 아래와 같습니다. 

 

 

t통계량을 구하면 아래와 같습니다. 두 집단의 분산이 다르다고 가정했습니다. 아래는 이분산 가정 t통계량입니다. 

 

t통계량 

T=ˉXBˉXAs2Bn+s2An

 

자유도

df=(s2Bn+s2An)2(s2Bn)2n1+(s2An)2n1

 

n이 커지면 자유도와 t통계량도 커집니다. 자유도도 커집니다. 따라서 p값은 작아집니다. n커지면 언젠가 p값은 0.05 보다 작아지게 되고 유의차가 발생하게 됩니다. n을 모집단 크기만큼 키워도 유의차가 발생하지 않는 경우는 한가지 밖에 없습니다. 두 모집단의 평균이 완전히 같은 경우입니다. 이때는 n을 모집단 크기만큼 키우면 t값은 0이 됩니다. 

 

위 예시에서도 n을 키우면 p값은 언젠가 0.05 보다 작아지게 됩니다.우리는 아래와 같은 결론을 내릴 것입니다. 

 

"두 집단의 키에는 통계적 유의차가 있다"

 

이 의미를 두 집단의 키에 의미있느 정도의 차이가 있다 라고 생각하는 경우가 있습니다. 상식적으로 생각해봅시다. 평균 키가 180인 모집단과 180.01인 모집단은 다르다고 할 수 있나요? 아마 사람마다 판단이 달라질 것입니다. 저는 다르다고 할 수 없다고 생각합니다. 그게 그거죠. 통계적 유의차는 발생했을 지라도 의미있는 차이가 아닐 수 있습니다. 

 

통계적 유의차가 있다는 말은 두 모집단의 평균이 모든 소수점 자리까지 토시 하나 안틀리고 같은 것은 아니다 라는 정보만 제공합니다. 그 차이에 의미를 부여하는 것은 각자에게 달려 있습니다. 

반응형

댓글

bigpicture님의
글이 좋았다면 응원을 보내주세요!