독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다.
$Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}$
위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다.
$Y=2+10X_{1}+2X_{2}+5X_{3}$
여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. $X_{1}$이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 $X_{1}$이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. $X_{1}$은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 단위를 kg으로 바꾸면 $X_{1}$의 회귀계수는 작아집니다.
이와 같은 단위의 영향을 제거해야 변수 간의 중요도를 회귀계수로 판단할 수 있습니다. 단위의 영향을 제거한 회귀계수가 표준화회귀계수입니다.
표준화회귀계수를 구해봅시다. 아래와 같은 간단한 형태의 식에서 구하겠습니다.
$Y=\beta_{0}+\beta_{1}X_{1}$
위 식의 독립변수와 종속변수를 표준화합시다.
$Y'=\frac{Y-E[Y]}{\sigma[Y]}$
$Z_{1}=\frac{X_{1}-E[X_{1}]}{\sigma[X_{1}]}$
아래와 같이 변형합니다.
$Y=\sigma[Y]Y'+E[Y]$
$X_{1}=\sigma[X_{1}]Z_{1}+E[X_{1}]$
회귀식에 대입합니다.
$\sigma[Y]Y'+E[Y]=\beta_{0}+\beta_{1}\left ( \sigma[X] Z_{1}+E[X] \right )$
아래와 같이 전개합니다.
$\sigma[Y]Y'+E[Y]=\beta_{0}+\beta_{1}\sigma[X] Z_{1}+\beta_{1}E[X]$
$E[Y]=\beta_{0}+E[X]$ 이므로 위 식은 아래와 같이 변형됩니다.
$\sigma[Y]Y'=\beta_{1}\sigma[X] Z_{1}$
아래와 같이 변형합시다.
$Y'=\beta_{1}\frac{\sigma[X]}{\sigma[Y]} Z_{1}$
$\beta_{1}\frac{\sigma[X]}{\sigma[Y]}$가 표준화 회귀계수입니다.
$Z_{1}$이 1 변한다는 것은 $X_{1}$의 표준편차만큼 변한다는 의미입니다. 따라서 표준화회귀계수는 독립변수가 1표준편차만큼 변할 때, 표준화된 종속변수 Y'가 변하는 양입니다.
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
오즈비 95% 신뢰구간 직접 구하는 방법 (0) | 2023.12.15 |
---|---|
마르코브 연쇄 쉽게 이해하기 (0) | 2023.11.09 |
자기회귀모델 (Autoregressive model) 쉽게 이해하기 (0) | 2023.11.06 |
다중공선성 확인하는 방법 (분산팽창요인 VIF) (0) | 2023.10.30 |
다중회귀분석에서 왜 수정된 결정계수를 사용하는가? (0) | 2023.10.24 |
표본 크기가 커지면 정규성을 따르지 않는 문제 (0) | 2023.09.19 |
머신러닝과 데이터마이닝의 차이 (0) | 2023.08.01 |
최빈값은 언제 쓸까? (mode) (0) | 2023.06.28 |
댓글