통계분석 언제쓰나
2. 카이제곱검정은 언제 쓰는걸까
지난 글에서는 t검정을 언제 사용할 수 있는지 알아보았습니다. 어떤 상황에 어느 검정을 쓰는지 일반화하여 표나, 디시전트리로 정리하는 것이 목적인데요. 일단 감을 잡아햐 하니, 몇개의 대표적인 검정들을 살펴보고 있는 것입니다.
이번 글에서는 카이제곱검정을 언제 사용하는지 알아봅시다.
카이제곱검정의 대표적인 예시는 폐암과, 흡연입니다.
폐암환자 100명과, 정상인 100명을 모집했습니다. 폐암 환자중 흡연자는 30명이었고, 정상인 중 흡연자는 10명이었습니다. 자료를 표로 나타내면 아래와 같습니다.
폐암 | 정상 | 합계 | |
흡연 | 30 | 10 | 40 |
비흡연 | 70 | 90 | 160 |
합계 | 100 | 100 | 200 |
카이제곱검정을 하면 폐암과 흡연의 연관성을 알 수 있습니다. 폐암에 걸린 사람 중 흡연자의 비율은 30%이고, 정상인 중 흡연자의 비율은 10%입니다. 카이제곱검정은 이러한 비율의 차이를 검정하는 것입니다.
카이제곱검정을 어떤 데이터에 사용할 수 있냐고 할 때, 위와 같이 분할표로 나타낼 수 있는 경우라고 해도 틀린 말은 아닙니다. 하지만 우리는 일반화가 목적이기 때문에 독립변수와 종속변수의 관점으로 이해해 보겠습니다.
카이제곱검정에 사용되는 자료에서 독립변수와 종속변수는 어떤 특성을 갖고 있을까요?
독립변수는 우리가 통제한 변수를 말합니다. 따라서 독립변수는 폐암 여부입니다. 종속변수는 흡연여부입니다. 집합으로 나타내면 아래와 같습니다.
독립변수 = {폐암, 정상}
종속변수 = {흡연, 비흡연}
독립변수와 종속변수 모두 '범주형 자료'입니다. 독립변수의 수준은 2수준 이상 가능합니다. 반면 종속변수의 수준은 2수준이어야 합니다.
<카이제곱검정이 가능한 조건>
독립변수 : 범주형(2수준 이상)
종속변수 : 범주형(2수준)
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
통계분석 전에 상자수염그림을 그려봐야 하는 이유 (0) | 2020.08.25 |
---|---|
모비율의 추정 간단 설명 (0) | 2020.08.04 |
상관분석은 언제쓰는걸까 (0) | 2020.07.23 |
분산분석은 언제쓰는걸까 (0) | 2020.07.17 |
독립표본 t검정은 언제쓰는걸까 (0) | 2020.07.12 |
음이항분포의 정의는 왜 여러가지일까? (+파스칼분포) (1) | 2020.06.10 |
ROC curve 직접 그려보기 (9) | 2020.06.06 |
표본분산은 꼭 불편추정량이어야 하나요?? (0) | 2020.05.14 |
댓글