본문 바로가기
@ 통계 교양/통계 Tips

표준화 회귀계수가 뭔가요?

by bigpicture 2023. 10. 25.
반응형

독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다. 

$Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}$

위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다. 

$Y=2+10X_{1}+2X_{2}+5X_{3}$

여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. $X_{1}$이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 $X_{1}$이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. $X_{1}$은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 단위를 kg으로 바꾸면 $X_{1}$의 회귀계수는 작아집니다. 

이와 같은 단위의 영향을 제거해야 변수 간의 중요도를 회귀계수로 판단할 수 있습니다. 단위의 영향을 제거한 회귀계수가 표준화회귀계수입니다. 

표준화회귀계수를 구해봅시다. 아래와 같은 간단한 형태의 식에서 구하겠습니다. 

$Y=\beta_{0}+\beta_{1}X_{1}$

위 식의 독립변수와 종속변수를 표준화합시다. 

$Y'=\frac{Y-E[Y]}{\sigma[Y]}$

$Z_{1}=\frac{X_{1}-E[X_{1}]}{\sigma[X_{1}]}$

아래와 같이 변형합니다. 

$Y=\sigma[Y]Y'+E[Y]$

$X_{1}=\sigma[X_{1}]Z_{1}+E[X_{1}]$

회귀식에 대입합니다. 

$\sigma[Y]Y'+E[Y]=\beta_{0}+\beta_{1}\left ( \sigma[X] Z_{1}+E[X] \right )$

아래와 같이 전개합니다. 

$\sigma[Y]Y'+E[Y]=\beta_{0}+\beta_{1}\sigma[X] Z_{1}+\beta_{1}E[X]$

$E[Y]=\beta_{0}+E[X]$ 이므로 위 식은 아래와 같이 변형됩니다. 

$\sigma[Y]Y'=\beta_{1}\sigma[X] Z_{1}$

아래와 같이 변형합시다. 

$Y'=\beta_{1}\frac{\sigma[X]}{\sigma[Y]} Z_{1}$

$\beta_{1}\frac{\sigma[X]}{\sigma[Y]}$가 표준화 회귀계수입니다. 

 

$Z_{1}$이 1 변한다는 것은 $X_{1}$의 표준편차만큼 변한다는 의미입니다. 따라서 표준화회귀계수는 독립변수가 1표준편차만큼 변할 때, 표준화된 종속변수 Y'가 변하는 양입니다. 

반응형

댓글