본문 바로가기
@통계분석 특강/분석

독립표본 t검정 글 하나로 끝내버리기

by bigpicture 2023. 1. 13.
반응형

1. 언제 쓰는 건가요?

독립표본 t검정은 서로 독립인 두 집단의 평균을 비교할 때 사용합니다. 예를 들면 서울 시민 남자의 키와 여자의 키 비교가 있습니다. 

 

2. 독립변수와 종속변수

독립변수와 종속변수 관점으로도 생각해봅시다. 서울 시민의 남녀 키 비교에서 독립변수는 성별입니다. 성별이 달라졌을 때 키가 달라지는지 알고 싶은 것이기 때문입니다. 따라서 독립변수는 '범주형 자료'입니다. 종속변수는 키 이므로 종속변수는 '수치형 자료'입니다. t검정에서의 독립변수와 종속변수는 아래와 같습니다. 

 

독립변수 : 범주형

종속변수 : 수치형

 

2. 조건

1) 두 집단이 서로 독립이어야 합니다. 

2) 모집단이 정규분포를 따라야 합니다. 정규성검정을 통해서 확인합니다. 만약 정규성을 만족하지 않는 경우 비모수 검정인 윌콕슨 순위합 검정을 사용합니다. 

3) 두 집단의 분산이 같다는 등분산이 기본적 가정입니다. 등분산 검정을 통해 확인합니다. 만약 등분산이 아닐 경우 독립표본 t검정 대신 이분산 가정 t검정을 하면 됩니다. 

 

3. 정규성검정과 등분산검정

1) 정규성 검정

정규성검정에는 주로 샤피로-윌크 검정이 사용됩니다. 만약 정규성 검정에서 p값이 0.05 보다 작게 나와서 정규성이 기각 될 경우에는 독립표본 t검정 대신 비모수 검정인 윌콕슨 순위합 검정을 사용합니다. 

 

2) 등분산 검정

Levene's test 를 사용합니다. p값이 0.05보다 크면 독립표본 t검정을, p 값이 0.05 보다 작으면 독립표본 t검정 대신 이분산 가정 t검정을 사용합니다. 

 

4. t 검정 절차

정규성검정에서 p값이 0.05 보다 크게 나왔다고 가정합시다. 따라서 t검정을 사용할 수 있습니다. t검정이 어떤 절차로 진행되는지 알아봅시다. 수식이 등장해서 어려울 수 있는데 최대한 간단하게 설명하겠습니다 .

 

가장 먼저 귀무가설과 대립가설을 세웁니다. 귀무가설은 무로 돌아가게 하고 싶은 가설입니다. 대립가설은 우리의 주장을 담고 있는 가설입니다. 

귀무가설 : 두 집단의 평균이 같다. 
대립가설 : 두 집단의 평균이 다르다. 

 

비교하려고 하는 두 집단에서 표본을 각각 뽑습니다. 뽑힌 표본을 표본 A와 표본 B라고 놓겠습니다. 각 집단에서 뽑은 표본의 크기, 표본평균, 표본표준편차를 아래와 같이 놓겠습니다. 

 

표본의 크기 : $n_{A}$, $n_{B}$

표본 평균 : $\bar{X}_{A}$, $\bar{X}_{B}$

표본 표준편차 : $s_{A}$, $s_{B}$

 

이후 과정은 등분산 가정과 이분산 가정이 다릅니다. 등분산 검정에서 p값이 0.05보다 크게 나온 경우 1번의 절차를 따르고, 그렇지 않은 경우 2번의 절차를 따르면 됩니다. 

 

1) 등분산 가정

아래 수식을 이용하여 T 통계량을 구합니다. 

 

$T=\frac{\bar{X}_{A}-\bar{X}_{B}}{s\sqrt{\frac{1}{N_{A}}+\frac{1}{N_{B}}}}$

 

위 식의 s는 합동표준편차인데 아래와 같이 구합니다.

 

$s=\sqrt{\frac{(n_{A}-1)s^2_{A}+(n_{B}-1)s^2_{B}}{n_{A}+n_{B}-2}}$

 

등분산 가정에서는 위 T통계량이 아래와 같은 자유도의  t분포에서 뽑힌 것입니다. 

 

자유도 : $n_{A}+n_{B}-2$

 

우리가 구한 T통계량 보다 극단적인 영역의 넓이를 t분포에서 구합니다. 이 넓이가 바로 p값입니다. 

 

2) 이분산 가정

아래 수식을 이용하여 T 통계량을 구합니다. 

 

$T=\frac{ \bar{X}_{A}-\bar{X}_{B} }{ \sqrt{ \frac{s^2_{A}}{N_{A}}+\frac{s^2_{B}}{N_{B}} } }$

 

이분산 가정에서는 위 T통계량이 아래와 같은 자유도의  t분포에서 뽑힌 것입니다.

 

자유도 : $n_{A}+n_{B}-2$

 

$DOF=\frac{\left ( \frac{s^2_{A}}{n_{A}}+\frac{s^2_{B}}{n_{B}}  \right )^2}
{ \frac{ \left ( \frac{s^2_{A}}{n_{A}} \right )^2 }{n_{A}-1}
+ \frac{ \left ( \frac{s^2_{B}}{n_{B}} \right )^2 }{n_{B}-1}    }$

 

우리가 구한 T통계량 보다 극단적인 영역의 넓이를 t분포에서 구합니다. 이 넓이가 바로 p값입니다. 

 

우리가 p 값을 직접 구할 일은 없습니다. R을 이용하면 코드 몇 줄이면 구할 수 있습니다. 그렇다고 원리를 이해할 필요가 없는 것은 아닙니다. t검정으로 나온 결과가 어떤 의미인지 제대로 해석하기 위해서는 원리를 알아야 합니다

반응형

댓글