반응형
다중공선성이란?
독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다.
다중공선성의 문제
다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다.
다중공선성 진단 방법
1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함
2) 변수들 간의 산점도를 그려보고 상관계수를 계산함
3) 분산팽창요인 (Variance Inflation Factor, VIF)를 구해봄
위 방법들 중 VIF가 가장 많이 사용됨
VIF
VIF 는 아래와 같이 정의됩니다. $X_{1}$ 이라는 독립변수의 VIF 입니다.
$VIF(X_{1})=\frac{1}{1-R_{X1 \sim others}^2}$
위 식에서 $R^2$은 X1 을 종속변수로 하고 나머지 변수들을 독립변수로 하여 구한 결정계수입니다. 만약 이 값이 0.9라면 X1이라는 변수는 나머지 변수들로 90% 설명할 수 있다는 의미입니다. 이때 VIF 는 10 입니다.
보통 VIF 10을 기준으로 10보다 크면 다중공선성이 있다고 판단합니다.
반응형
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
두사람이 데이터를 두번씩 측정했다면 ICC는 어떻게 비교해야 할까? (1) | 2024.10.23 |
---|---|
오즈비 95% 신뢰구간 직접 구하는 방법 (0) | 2023.12.15 |
마르코브 연쇄 쉽게 이해하기 (0) | 2023.11.09 |
자기회귀모델 (Autoregressive model) 쉽게 이해하기 (0) | 2023.11.06 |
표준화 회귀계수가 뭔가요? (0) | 2023.10.25 |
다중회귀분석에서 왜 수정된 결정계수를 사용하는가? (0) | 2023.10.24 |
표본 크기가 커지면 정규성을 따르지 않는 문제 (0) | 2023.09.19 |
머신러닝과 데이터마이닝의 차이 (0) | 2023.08.01 |
댓글