본문 바로가기
@한눈에보기/통계 분석 언제뭐써

[통계분석의 분류] 5. 카이제곱검정의 분류

by bigpicture 2021. 8. 30.
반응형

1. 설명

카이제곱검정은 집단들의 비율을 비교하는 검정입니다. 일반적으로 두 집단의 비율 비교에 주로 사용하며 세 집단 이상 비교할 경우 사후검정을 해야 어느 집단 사이에 차이가 있는지 알 수 있습니다. 

 

2. 변수

카이제곱검정에 사용되는 독립변수와 종속변수를 이해해 봅시다. 한가지 예시를 통해 설명하겠습니다. 
남녀 각 100명의 혈액형을 조사하였고 결과는 아래와 같습니다.

 

  A B O AB Total
10 30 25 35 100
15 20 30 35 100
Total 25 50 55 70 200

 

독립변수와 종속변수를 찾아봅시다. 독립변수는 성별입니다. 성별은 둘로 나눠지므로 2수준(level)인 범주형변수입니다. 종속변수는 혈액형이고 넷으로 나뉘므로 4수준인 범주형 변수입니다. 

 

독립변수 : 성별 (2수준, 범주형)

종속변수 : 혈액형 (4수준, 범주형)

 

3. 분류

카이제곱검정은 목적에 따라 셋으로 나뉩니다. 

 

- 적합도검정 (Goodness of fit)

- 독립성검정 (Test of Independence)

- 동질성검정 (Test of Homogeneity)

 

하지만 이는 실제 사용에서의 실용적 분류는 아닙니다. 검정 조건이나 방법이 달라지지 않기 때문입니다. 아래 세가지 분류가 실용적 분류입니다. 

 

1) 독립변수 수준 수

2) 종속변수 수준 수

3) 기대빈도 5미만인 셀의 비율

4) 그룹이 paired된 경우

 

 

1) 독립변수 수준 수

독립변수의 수준이 셋 이상이 되면 카이제곱 검정 만으로는 유의차가 어디서 발생한 것인지 알 수 없습니다. 따라서 사후검정을 수행합니다. 

 

예를들어 세 그룹 A,B,C 에서 카이제곱검정을 했고 p값이 0.05보다 작아서 귀무가설이 기각되었다고 합시다. 이때 어느 그룹과 어느 그룹에서 차이가 발생하여 귀무가설이 기각된 것인지를 확인하는 분석이 사후붆석입니다. 

 

 

2) 종속변수 수준 수

종속변수의 수준이 셋 이상이 되면 카이제곱 검정 만으로는 유의차가 어디서 발생한 것인지 알 수 없습니다. 따라서 사후검정을 수행합니다. 

 

종속변수의 수준이 셋 이상인 경우 '경향성'을 확인할 수 있습니다. 증가하는 경향인지 감소하는 경향인지를 확인하는 것입니다. 카이제곱 트랜드검정이라고도 하고, 선형 대 선형 결합이라고도 합니다. 

 

 

3) 기대빈도가 5 미만인 셀의 비율

기대빈도가 5 미만인 셀의 비율이 20% 이상인 경우 카이제곱검정 대신 피셔의 정확검정을 사용합니다. 5라는 기준은 경험적으로 정해진 값입니다. 10을 사용하기도 합니다. 

 

 

4) 그룹이 paired 된 경우

t검정의 대응표본 t검정처럼, 카이제곱검정에도 그룹끼리 대응인 경우가 있습니다. '전후 비율 비교' 등의 상황입니다. 이때는 카이제곱검정 대신 아래 검정을 사용합니다. 

 

- 맥니마 검정 (2x2 테이블)
- 맥니바 보우커 검정 (2x2 이상)
- 코크란 Q검정 (그룹이 셋 이상도 가능)

반응형

댓글