본문 바로가기
@ 통계 교양/통계 Tips

카이제곱검정은 언제 쓰는걸까

by bigpicture 2020. 7. 12.
반응형

통계분석 언제쓰나

2. 카이제곱검정은 언제 쓰는걸까

 

지난 글에서는 t검정을 언제 사용할 수 있는지 알아보았습니다. 어떤 상황에 어느 검정을 쓰는지 일반화하여 표나, 디시전트리로 정리하는 것이 목적인데요. 일단 감을 잡아햐 하니, 몇개의 대표적인 검정들을 살펴보고 있는 것입니다. 

 

이번 글에서는 카이제곱검정을 언제 사용하는지 알아봅시다. 

 

카이제곱검정의 대표적인 예시는 폐암과, 흡연입니다. 

 

폐암환자 100명과, 정상인 100명을 모집했습니다. 폐암 환자중 흡연자는 30명이었고, 정상인 중 흡연자는 10명이었습니다. 자료를 표로 나타내면 아래와 같습니다. 

 

 

  폐암 정상 합계 
흡연 30 10 40
비흡연  70 90 160
합계 100 100 200

 

카이제곱검정을 하면 폐암과 흡연의 연관성을 알 수 있습니다. 폐암에 걸린 사람 중 흡연자의 비율은 30%이고, 정상인 중 흡연자의 비율은 10%입니다. 카이제곱검정은 이러한 비율의 차이를 검정하는 것입니다. 

 

카이제곱검정을 어떤 데이터에 사용할 수 있냐고 할 때, 위와 같이 분할표로 나타낼 수 있는 경우라고 해도 틀린 말은 아닙니다. 하지만 우리는 일반화가 목적이기 때문에 독립변수와 종속변수의 관점으로 이해해 보겠습니다. 

 

카이제곱검정에 사용되는 자료에서 독립변수와 종속변수는 어떤 특성을 갖고 있을까요? 

 

독립변수는 우리가 통제한 변수를 말합니다. 따라서 독립변수는 폐암 여부입니다. 종속변수는 흡연여부입니다. 집합으로 나타내면 아래와 같습니다. 

 

독립변수 = {폐암, 정상}

종속변수 = {흡연, 비흡연}

 

독립변수와 종속변수 모두 '범주형 자료'입니다. 독립변수의 수준은 2수준 이상 가능합니다. 반면 종속변수의 수준은 2수준이어야 합니다. 

 

<카이제곱검정이 가능한 조건>

 

독립변수 : 범주형(2수준 이상)

종속변수 : 범주형(2수준)

 

반응형

댓글