본문 바로가기
@ 통계 교양/통계 Tips

분산분석에는 왜 사후검정이 있나요?

by bigpicture 2021. 2. 27.
반응형

비교해야하는 집단(그룹,표본)이 세개 이상인 경우 t검정 대신 분산분석(ANOVA)를 사용해야한다고 알고 계실 것입니다. 물론 틀린 말은 아니지만 위와 같이 말할 경우 '사후검정'이 낄 자리가 없어집니다. 분산분석이 사후분석을 포함하는 개념이라고 할 수도 있지만, 처음 배우는 사람들에게 그런 개념은 당연히 없습니다. 분산분석과 함께 사후검정이 등장할 자리를 마련해야하고, 이를 위해 분산분석이 t검정을 대신한다는 말은 일부만 맞다고 하겠습니다. 따라서 여기서는 분산분석과 사후분석을 구분하겠습니다.

 

분산분석만으로는 t검정을 대체하지 못합니다. t검정으로 A,B 집단을 비교할 경우 A,B 집단에 차이가 있는지 없는지를 알려줍니다. 집단이 A,B,C로 늘어나고 분산분석을 사용했다고 합시다. 분산분석은 서로 유의차가 있는 어느 두 집단이 존재하는지 '여부'만을 알려줍니다. 

 

예를들어 세 집단 A,B,C로 분산분석을 했고 p값이 0.05보다 작게 나와서 유의차가 있다고 합시다. 여기서 유의차가 있다는 말은 '세 집단의 평균이 같지는 않다'는 말입니다. 귀무가설이 A=B=C 이므로, 이 귀무가설이 기각된 것입니다. 그렇다면 누구와 누구가 다르다는 말일까요? A와 B가 다르다는 건가요? 아니면 A와 C가 다르다는 걸까요? 

 

이런 질문에 대한 답을 얻기 위해 '사후분석'이 필요합니다. 사후분석은 분산분석에서 유의차가 발생한 경우에 실시합니다. 만약 유의차가 발생하지 않아서 A=B=C 라면 굳이 사후분석을 할 이유가 없습니다. 사후분석을 실시하면 누가 누구와 유의차가 발생한 것인지를 알려줍니다. 아래와 같은 테이블로 말이죠. 

 

  A B C
A - p=0.01 p=0.001
B - - p=0.3
C - - -

 

사후분석은 결국 t검정을 여러번 하는 것입니다. 모든 조합에 대해 t검정을 수행합니다. 하지만 t검정의 결과를 그대로 사용하지는 않습니다. t검정을 반복할 경우 오류가 누적되기 때문에, '보정'을 합니다. 사후검정은 이러한 보정을 포함합니다. 

반응형

댓글