1. 설명
카이제곱검정은 집단들의 비율을 비교하는 검정입니다. 일반적으로 두 집단의 비율 비교에 주로 사용하며 세 집단 이상 비교할 경우 사후검정을 해야 어느 집단 사이에 차이가 있는지 알 수 있습니다.
2. 변수
카이제곱검정에 사용되는 독립변수와 종속변수를 이해해 봅시다. 한가지 예시를 통해 설명하겠습니다.
남녀 각 100명의 혈액형을 조사하였고 결과는 아래와 같습니다.
A | B | O | AB | Total | |
남 | 10 | 30 | 25 | 35 | 100 |
여 | 15 | 20 | 30 | 35 | 100 |
Total | 25 | 50 | 55 | 70 | 200 |
독립변수와 종속변수를 찾아봅시다. 독립변수는 성별입니다. 성별은 둘로 나눠지므로 2수준(level)인 범주형변수입니다. 종속변수는 혈액형이고 넷으로 나뉘므로 4수준인 범주형 변수입니다.
독립변수 : 성별 (2수준, 범주형)
종속변수 : 혈액형 (4수준, 범주형)
3. 분류
카이제곱검정은 목적에 따라 셋으로 나뉩니다.
- 적합도검정 (Goodness of fit)
- 독립성검정 (Test of Independence)
- 동질성검정 (Test of Homogeneity)
하지만 이는 실제 사용에서의 실용적 분류는 아닙니다. 검정 조건이나 방법이 달라지지 않기 때문입니다. 아래 세가지 분류가 실용적 분류입니다.
1) 독립변수 수준 수
2) 종속변수 수준 수
3) 기대빈도 5미만인 셀의 비율
4) 그룹이 paired된 경우
1) 독립변수 수준 수
독립변수의 수준이 셋 이상이 되면 카이제곱 검정 만으로는 유의차가 어디서 발생한 것인지 알 수 없습니다. 따라서 사후검정을 수행합니다.
예를들어 세 그룹 A,B,C 에서 카이제곱검정을 했고 p값이 0.05보다 작아서 귀무가설이 기각되었다고 합시다. 이때 어느 그룹과 어느 그룹에서 차이가 발생하여 귀무가설이 기각된 것인지를 확인하는 분석이 사후붆석입니다.
2) 종속변수 수준 수
종속변수의 수준이 셋 이상이 되면 카이제곱 검정 만으로는 유의차가 어디서 발생한 것인지 알 수 없습니다. 따라서 사후검정을 수행합니다.
종속변수의 수준이 셋 이상인 경우 '경향성'을 확인할 수 있습니다. 증가하는 경향인지 감소하는 경향인지를 확인하는 것입니다. 카이제곱 트랜드검정이라고도 하고, 선형 대 선형 결합이라고도 합니다.
3) 기대빈도가 5 미만인 셀의 비율
기대빈도가 5 미만인 셀의 비율이 20% 이상인 경우 카이제곱검정 대신 피셔의 정확검정을 사용합니다. 5라는 기준은 경험적으로 정해진 값입니다. 10을 사용하기도 합니다.
4) 그룹이 paired 된 경우
t검정의 대응표본 t검정처럼, 카이제곱검정에도 그룹끼리 대응인 경우가 있습니다. '전후 비율 비교' 등의 상황입니다. 이때는 카이제곱검정 대신 아래 검정을 사용합니다.
- 맥니마 검정 (2x2 테이블)
- 맥니바 보우커 검정 (2x2 이상)
- 코크란 Q검정 (그룹이 셋 이상도 가능)
'@한눈에보기 > 통계 분석 언제뭐써' 카테고리의 다른 글
[통계분석 방법의 분류] 4. 분산분석의 분류 (셋 이상 집단의 평균비교) (0) | 2021.04.26 |
---|---|
[통계분석 언제 뭘 써야하나] 2. t검정의 분류 (두 집단의 평균비교) (0) | 2021.03.19 |
[통계분석 언제 뭘 써야하나] 1. 큰그림 그려보기 (0) | 2021.03.18 |
댓글