본문 바로가기
@한눈에보기/검정통계량

분산분석 수식으로 이해하기 (검정통계량 구하기)

by bigpicture 2021. 6. 1.
반응형

요인이 하나이고 레벨이 3개인 일원분산분석의 검정통계량을 구해봅시다. 쉽게 말하면 세 그룹의 평균을 비교하는 분산분석입니다. 

그룹은 1,2,3 이 있다고 합시다. 원소를 $X_{ij}$ 라고 놓겠습니다. i는 그룹의 번호, j는 해당 그룹에서의 원소 번호라고 놓겠습니다. 각 그룹의 원소 수는 $N_{i}라고 놓겠습니다. 


각 그룹의 평균과 전체평균은 아래와 같이 나타내겠습니다.


그룹 1의 평균 = $\bar{X}_{1.}=\frac{\sum_{i=1}^{N_{1}}X_{1i}}{N_{1}}$
그룹 2의 평균 = $\bar{X}_{2.}=\frac{\sum_{i=1}^{N_{2}}X_{2i}}{N_{2}}$
그룹 3의 평균 = $\bar{X}_{3.}=\frac{\sum_{i=1}^{N_{3}}X_{3i}}{N_{3}}$

 

전체 평균 = $\bar{X}_{..}=\frac{\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}X_{ij}}{N_{1}+N_{2}+N_{3}}$

총변동(SST: total sum of square)은 아래와 같이 계산됩니다. 

$SST=\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}\left ( X_{ij}-\bar{X}_{..} \right )^2$

총 변동 수식을 아래와 같이 변형하겠습니다. $\bar{X}_{i.}$을 빼고 더했습니다. 

$SST=\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}\left ( X_{ij}-\bar{X}_{i.}+\bar{X}_{i.}-\bar{X}_{..} \right )^2$

 

아래와 같이 전개할 수 있습니다. 

 

$SST=\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left [ 
\left ( X_{ij}-\bar{X}_{i.} \right )^2
+
2\left ( X_{ij}-\bar{X}_{i.} \right )
\left (\bar{X}_{i.}-\bar{X}_{..} \right )
+
\left (\bar{X}_{i.}-\bar{X}_{..} \right )^2
 \right ]$

 

시그마를 나눠 써줍니다.

 

$SST=
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left ( X_{ij}-\bar{X}_{i.} \right )^2
+
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
2\left ( X_{ij}-\bar{X}_{i.} \right )
\left (\bar{X}_{i.}-\bar{X}_{..} \right )
+
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left (\bar{X}_{i.}-\bar{X}_{..} \right )^2$

 

가운데 항만 따로 떼어놓고 봅시다.

 

$\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
2\left ( X_{ij}-\bar{X}_{i.} \right )
\left (\bar{X}_{i.}-\bar{X}_{..} \right )$

 

두번째 괄호는 i와 무관한 항이므로 아래와 같이 꺼낼 수 있습니다.

 

$2\sum_{i=1}^{3}
\left [ 
\left (\bar{X}_{i.}-\bar{X}_{..} \right )
\sum_{j=1}^{N_{i}}
\left ( X_{ij}-\bar{X}_{i.} \right )
 \right ]$

 

다시 괄호 안의 시그마항만 따로 떼어놓고 봅시다.

 

$\sum_{j=1}^{N_{i}}
\left ( X_{ij}-\bar{X}_{i.} \right )$

 

아래와 같이 시그마를 분리합시다.

 

$\sum_{j=1}^{N_{i}}
 X_{ij}-
\sum_{j=1}^{N_{i}}
\bar{X}_{i.}$

 

두번째 항은 아래와 같이 계산됩니다. 

 

$\sum_{j=1}^{N_{i}}
 X_{ij}-
N_{i}\bar{X}_{i.}$

 

아래와 같이 변형됩니다. 

 

$\sum_{j=1}^{N_{i}}
 X_{ij}-
N_{i}\cdot \frac{\sum_{j=1}^{N_{i}}
 X_{ij}}{N_{i}}$

 

계산하면 0입니다. 아래 식을 다시 봅시다. 총변동 STT 식입니다. 

 

$SST=
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left ( X_{ij}-\bar{X}_{i.} \right )^2
+
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
2\left ( X_{ij}-\bar{X}_{i.} \right )
\left (\bar{X}_{i.}-\bar{X}_{..} \right )
+
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left (\bar{X}_{i.}-\bar{X}_{..} \right )^2$

 

우리는 가운데 항이 0이 된다는 것을 보인 것입니다. 따라서 총변동은 아래와 같습니다. 

 

$SST=
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left ( X_{ij}-\bar{X}_{i.} \right )^2
+
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left (\bar{X}_{i.}-\bar{X}_{..} \right )^2$

 

우변 각 항의 의미를 생각해봅시다. 우변의 첫 항은 아래와 같이 계산됩니다. 

 

$SSW=\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left ( X_{ij}-\bar{X}_{i.} \right )^2=\sum_{j=1}^{N_{1}}
\left ( X_{1j}-\bar{X}_{1.} \right )^2
+\sum_{j=1}^{N_{2}}
\left ( X_{2j}-\bar{X}_{2.} \right )^2
+\sum_{j=1}^{N_{3}}
\left ( X_{3j}-\bar{X}_{3.} \right )^2$

 

각 그룹별 변동의 합입니다. 그룹 내 변동이라고 합니다. 약어로는 SSW(within-groups sum of squares) 라고 부릅니다. 오차제곱합(SSE)이 라고도 부릅니다. 

 

따라서 수식은 아래와 같이 놓을 수 있습니다. 

 

$SST=
SSW
+
\sum_{i=1}^{3}\sum_{j=1}^{N_{i}}
\left (\bar{X}_{i.}-\bar{X}_{..} \right )^2$

 

우변의 두번째 항은 아래와 같이 계산됩니다.

 

$SSB=\sum_{i=1}^{3}N_{i}
\left (\bar{X}_{i.}-\bar{X}_{..} \right )^2=

N_{1} \left (\bar{X}_{1.}-\bar{X}_{..} \right )^2
+
N_{2} \left (\bar{X}_{2.}-\bar{X}_{..} \right )^2
+
N_{3} \left (\bar{X}_{3.}-\bar{X}_{..} \right )^2$

 

그룹들 사이의 변동을 의미합니다. 그룹 간 변동이라고 합니다. 약어로는 SSB(between-groups sum of squares) 라고 부릅니다. 처리제곱합 이라고도 부릅니다. 

 

따라서 수식은 아래와 같이 놓을 수 있습니다. 

 

$SST=SSW+SSB$

 

따라서 전체변동(SST)을 그룹 내부에서 발생하는 변동(SSW)과 그룹들 사이에서 발생하는 변동(SSB)으로 나눌 수 있습니다. 

 

각각의 자유도를 계산해봅시다. 

 

총 변동의 자유도 $df_{T}$ : $N_{1}+N_{2}+N_{3}-1$

그룹 간 변동의 자유도 $df_{B}$ : $3-1=2$

그룹 내 변동의 자유도 $df_{W}$ : $(N_{1}-1)+(N_{2}-1)+(N_{3}-1)$

 

F통계량은 아래와 같이 계산됩니다. 

 

$F=\frac{SSB/df_{B}}{SSW/df_{W}}$


일반화

 

그룹의 개수를 k개로 일반화한 자유도는 아래와 같습니다. 

 

총 변동의 자유도 $df_{T}$ : $N_{1}+N_{2}+ \cdots +N_{k}-1$

그룹 간 변동의 자유도 $df_{B}$ : $k-1$

그룹 내 변동의 자유도 $df_{W}$ : $(N_{1}-1)+(N_{2}-1)+ \cdots + (N_{k}-1)$

 

F통계량을 일반화한 수식으로 놓으면 아래와 같습니다. 

 

$F=\frac{
\frac{\sum_{i=1}^{k}N_{i}
\left (\bar{X}_{i.}-\bar{X}_{..} \right )^2}{k-1}
}{
\frac{\sum_{i=1}^{k}\sum_{j=1}^{N_{i}}
\left ( X_{ij}-\bar{X}_{i.} \right )^2}{(N_{1}-1)+(N_{2}-1)+ \cdots + (N_{k}-1)}
}$

 

F통계량이 커진다는 것은 그룹간 변동이 그룹 내 변동 보다 커지는 것입니다. F통계량이 커질 수록 극단값이 되고, 귀무가설이 기각됩니다. 

 

그룹간 변동이 그룹 내 변동보다 큼  → F통계량 큼  귀무가설 기각됨  그룹의 평균이 서로 같지 않음

반응형

댓글