본문 바로가기
@ 통계 교양/통계 Tips

다중공선성 확인하는 방법 (분산팽창요인 VIF)

by bigpicture 2023. 10. 30.
반응형

다중공선성이란?

독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다. 

 

다중공선성의 문제

다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다. 

 

다중공선성 진단 방법

1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함

2) 변수들 간의 산점도를 그려보고 상관계수를 계산함

3) 분산팽창요인 (Variance Inflation Factor, VIF)를 구해봄

 

위 방법들 중 VIF가 가장 많이 사용됨

 

VIF

VIF 는 아래와 같이 정의됩니다. $X_{1}$ 이라는 독립변수의 VIF 입니다. 

 

$VIF(X_{1})=\frac{1}{1-R_{X1 \sim others}^2}$

 

위 식에서 $R^2$은 X1 을 종속변수로 하고 나머지 변수들을 독립변수로 하여 구한 결정계수입니다. 만약 이 값이 0.9라면 X1이라는 변수는 나머지 변수들로 90% 설명할 수 있다는 의미입니다. 이때 VIF 는 10 입니다. 

 

보통 VIF 10을 기준으로 10보다 크면 다중공선성이 있다고 판단합니다. 

반응형

댓글