본문 바로가기
@ 통계 교양/통계 Tips

분산분석은 언제쓰는걸까

by bigpicture 2020. 7. 17.
반응형

3. 분산분석은 언제쓰는걸까

 

우리는 지난 두 강에 걸쳐서 '독립표본 t검정' 과 '카이제곱 검정'을 언제 사용하는지 알아보았습니다. 분산분석, 상관분석, 회귀분석, 비모수검정을 언제 하는지 정도만 더 알아본 뒤에 일반화 시키도록 하겠습니다.

 

오늘은 분산분석을 언제 하는지 알아봅시다. 더 정확히 말하면 일원분산분석입니다. 분산분석의 세분화에 관하여는 이후 글에서 설명하겠습니다. 

 

분산분석은 세 집단 이상의 평균을 비교하는데 사용합니다. 예를들면 A반, B반, C반의 수학성적의 평균을 비교할 때 사용할 수 있습니다. 

 

분산분석을 t검정의 확장판으로 생각하는 경우가 있는데, 분산분석은 t검정과는 원리가 다릅니다. 오히려 분산분석 이후에 하는 '사후분석'이 t검정의 확장판입니다. 

 

분산분석은 '집단 간 분산'과 '집단 내 분산'을 비교합니다. 이들의 비(ratio)와 F분포를 이용하여 검정합니다. 

 

분산분석은 A,B,C 의 평균을 같다고 할 수 있는지 없는지 여부만 알려줍니다. 분산분석이 기각되지 않는다면 A,B,C의 평균이 같다고 할 수 있습니다. 만약 기각된다면 A,B,C의 평균이 같다고 할 수 없는데, 같지 않은 이유가 A=B≠C 인지 A≠B=C 인지 A≠B≠C 인지를 알려주지는 않습니다. 즉 비교한 집단들 중에서 어떤 집단 끼리 차이가 있었는지는 알 수 없습니다. 이런 차이는 '사후 검정'을 통해서 알게됩니다. 

 

분산분석에서 독립변수와 종속변수를 알아봅시다. 위 예제에서 독립변수는 반의 종류입니다. 종속변수는 수학성적입니다. 집합으로 나타내면 아래와 같습니다.

 

독립변수 = {A반, B반, C반}

종속변수 = {75점, 88점, 62점, 54점, ...}

 

독립변수는 범주형자료입니다. t검정과는 다르게 수준을 3개 이상 가질 수 있습니다. t검정은 수준을 2개까지만 가질 수 있었습니다. 종속변수는 수치형자료입니다. 

 

 

<분산분석이 적용 가능한 데이터의 조건>

 

독립변수 : 범주형(3수준 이상)

종속변수 : 수치형 

 

 

반응형

댓글