3. 분산분석은 언제쓰는걸까
우리는 지난 두 강에 걸쳐서 '독립표본 t검정' 과 '카이제곱 검정'을 언제 사용하는지 알아보았습니다. 분산분석, 상관분석, 회귀분석, 비모수검정을 언제 하는지 정도만 더 알아본 뒤에 일반화 시키도록 하겠습니다.
오늘은 분산분석을 언제 하는지 알아봅시다. 더 정확히 말하면 일원분산분석입니다. 분산분석의 세분화에 관하여는 이후 글에서 설명하겠습니다.
분산분석은 세 집단 이상의 평균을 비교하는데 사용합니다. 예를들면 A반, B반, C반의 수학성적의 평균을 비교할 때 사용할 수 있습니다.
분산분석을 t검정의 확장판으로 생각하는 경우가 있는데, 분산분석은 t검정과는 원리가 다릅니다. 오히려 분산분석 이후에 하는 '사후분석'이 t검정의 확장판입니다.
분산분석은 '집단 간 분산'과 '집단 내 분산'을 비교합니다. 이들의 비(ratio)와 F분포를 이용하여 검정합니다.
분산분석은 A,B,C 의 평균을 같다고 할 수 있는지 없는지 여부만 알려줍니다. 분산분석이 기각되지 않는다면 A,B,C의 평균이 같다고 할 수 있습니다. 만약 기각된다면 A,B,C의 평균이 같다고 할 수 없는데, 같지 않은 이유가 A=B≠C 인지 A≠B=C 인지 A≠B≠C 인지를 알려주지는 않습니다. 즉 비교한 집단들 중에서 어떤 집단 끼리 차이가 있었는지는 알 수 없습니다. 이런 차이는 '사후 검정'을 통해서 알게됩니다.
분산분석에서 독립변수와 종속변수를 알아봅시다. 위 예제에서 독립변수는 반의 종류입니다. 종속변수는 수학성적입니다. 집합으로 나타내면 아래와 같습니다.
독립변수 = {A반, B반, C반}
종속변수 = {75점, 88점, 62점, 54점, ...}
독립변수는 범주형자료입니다. t검정과는 다르게 수준을 3개 이상 가질 수 있습니다. t검정은 수준을 2개까지만 가질 수 있었습니다. 종속변수는 수치형자료입니다.
<분산분석이 적용 가능한 데이터의 조건>
독립변수 : 범주형(3수준 이상)
종속변수 : 수치형
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
반복측정 분산분석에서의 표본수 선정 (0) | 2020.08.26 |
---|---|
통계분석 전에 상자수염그림을 그려봐야 하는 이유 (0) | 2020.08.25 |
모비율의 추정 간단 설명 (0) | 2020.08.04 |
상관분석은 언제쓰는걸까 (0) | 2020.07.23 |
카이제곱검정은 언제 쓰는걸까 (4) | 2020.07.12 |
독립표본 t검정은 언제쓰는걸까 (0) | 2020.07.12 |
음이항분포의 정의는 왜 여러가지일까? (+파스칼분포) (1) | 2020.06.10 |
ROC curve 직접 그려보기 (9) | 2020.06.06 |
댓글