본문 바로가기
@한눈에보기/검정통계량

분산분석 수식으로 이해하기 (검정통계량 구하기)

by bigpicture 2021. 6. 1.
반응형

요인이 하나이고 레벨이 3개인 일원분산분석의 검정통계량을 구해봅시다. 쉽게 말하면 세 그룹의 평균을 비교하는 분산분석입니다. 

그룹은 1,2,3 이 있다고 합시다. 원소를 XijXij 라고 놓겠습니다. i는 그룹의 번호, j는 해당 그룹에서의 원소 번호라고 놓겠습니다. 각 그룹의 원소 수는 $N_{i}라고 놓겠습니다. 


각 그룹의 평균과 전체평균은 아래와 같이 나타내겠습니다.


그룹 1의 평균 = ˉX1.=N1i=1X1iN1¯X1.=N1i=1X1iN1
그룹 2의 평균 = ˉX2.=N2i=1X2iN2¯X2.=N2i=1X2iN2
그룹 3의 평균 = ˉX3.=N3i=1X3iN3¯X3.=N3i=1X3iN3

 

전체 평균 = ˉX..=3i=1Nij=1XijN1+N2+N3¯X..=3i=1Nij=1XijN1+N2+N3

총변동(SST: total sum of square)은 아래와 같이 계산됩니다. 

SST=3i=1Nij=1(XijˉX..)2SST=3i=1Nij=1(Xij¯X..)2

총 변동 수식을 아래와 같이 변형하겠습니다. ˉXi.¯Xi.을 빼고 더했습니다. 

SST=3i=1Nij=1(XijˉXi.+ˉXi.ˉX..)2SST=3i=1Nij=1(Xij¯Xi.+¯Xi.¯X..)2

 

아래와 같이 전개할 수 있습니다. 

 

SST=3i=1Nij=1[(XijˉXi.)2+2(XijˉXi.)(ˉXi.ˉX..)+(ˉXi.ˉX..)2]SST=3i=1Nij=1[(Xij¯Xi.)2+2(Xij¯Xi.)(¯Xi.¯X..)+(¯Xi.¯X..)2]

 

시그마를 나눠 써줍니다.

 

SST=3i=1Nij=1(XijˉXi.)2+3i=1Nij=12(XijˉXi.)(ˉXi.ˉX..)+3i=1Nij=1(ˉXi.ˉX..)2

 

가운데 항만 따로 떼어놓고 봅시다.

 

3i=1Nij=12(XijˉXi.)(ˉXi.ˉX..)

 

두번째 괄호는 i와 무관한 항이므로 아래와 같이 꺼낼 수 있습니다.

 

23i=1[(ˉXi.ˉX..)Nij=1(XijˉXi.)]

 

다시 괄호 안의 시그마항만 따로 떼어놓고 봅시다.

 

Nij=1(XijˉXi.)

 

아래와 같이 시그마를 분리합시다.

 

Nij=1XijNij=1ˉXi.

 

두번째 항은 아래와 같이 계산됩니다. 

 

Nij=1XijNiˉXi.

 

아래와 같이 변형됩니다. 

 

Nij=1XijNiNij=1XijNi

 

계산하면 0입니다. 아래 식을 다시 봅시다. 총변동 STT 식입니다. 

 

SST=3i=1Nij=1(XijˉXi.)2+3i=1Nij=12(XijˉXi.)(ˉXi.ˉX..)+3i=1Nij=1(ˉXi.ˉX..)2

 

우리는 가운데 항이 0이 된다는 것을 보인 것입니다. 따라서 총변동은 아래와 같습니다. 

 

SST=3i=1Nij=1(XijˉXi.)2+3i=1Nij=1(ˉXi.ˉX..)2

 

우변 각 항의 의미를 생각해봅시다. 우변의 첫 항은 아래와 같이 계산됩니다. 

 

SSW=3i=1Nij=1(XijˉXi.)2=N1j=1(X1jˉX1.)2+N2j=1(X2jˉX2.)2+N3j=1(X3jˉX3.)2

 

각 그룹별 변동의 합입니다. 그룹 내 변동이라고 합니다. 약어로는 SSW(within-groups sum of squares) 라고 부릅니다. 오차제곱합(SSE)이 라고도 부릅니다. 

 

따라서 수식은 아래와 같이 놓을 수 있습니다. 

 

SST=SSW+3i=1Nij=1(ˉXi.ˉX..)2

 

우변의 두번째 항은 아래와 같이 계산됩니다.

 

SSB=3i=1Ni(ˉXi.ˉX..)2=N1(ˉX1.ˉX..)2+N2(ˉX2.ˉX..)2+N3(ˉX3.ˉX..)2

 

그룹들 사이의 변동을 의미합니다. 그룹 간 변동이라고 합니다. 약어로는 SSB(between-groups sum of squares) 라고 부릅니다. 처리제곱합 이라고도 부릅니다. 

 

따라서 수식은 아래와 같이 놓을 수 있습니다. 

 

SST=SSW+SSB

 

따라서 전체변동(SST)을 그룹 내부에서 발생하는 변동(SSW)과 그룹들 사이에서 발생하는 변동(SSB)으로 나눌 수 있습니다. 

 

각각의 자유도를 계산해봅시다. 

 

총 변동의 자유도 dfT : N1+N2+N31

그룹 간 변동의 자유도 dfB : 31=2

그룹 내 변동의 자유도 dfW : (N11)+(N21)+(N31)

 

F통계량은 아래와 같이 계산됩니다. 

 

F=SSB/dfBSSW/dfW


일반화

 

그룹의 개수를 k개로 일반화한 자유도는 아래와 같습니다. 

 

총 변동의 자유도 dfT : N1+N2++Nk1

그룹 간 변동의 자유도 dfB : k1

그룹 내 변동의 자유도 dfW : (N11)+(N21)++(Nk1)

 

F통계량을 일반화한 수식으로 놓으면 아래와 같습니다. 

 

F=ki=1Ni(ˉXi.ˉX..)2k1ki=1Nij=1(XijˉXi.)2(N11)+(N21)++(Nk1)

 

F통계량이 커진다는 것은 그룹간 변동이 그룹 내 변동 보다 커지는 것입니다. F통계량이 커질 수록 극단값이 되고, 귀무가설이 기각됩니다. 

 

그룹간 변동이 그룹 내 변동보다 큼  → F통계량 큼  귀무가설 기각됨  그룹의 평균이 서로 같지 않음

반응형

댓글

bigpicture님의
글이 좋았다면 응원을 보내주세요!