본문 바로가기
@ 통계학 석박사 진학관련/회귀분석 요약

[회귀분석] 11. 우리가 구한 회귀모델의 성질 (6가지)

by bigpicture 2021. 4. 17.
반응형

우리가 지난시간까지 구한 회귀모델은 아래와 같습니다. 

 

오늘은 우리가 구한 회귀모델의 성질을 알아봅시다. 

 

먼저 용어를 다시 정리해봅시다. 우리가 가진 데이터를 $(x,y)$ 라고 놓았었습니다. (x,y)들을 관측값이라고도 부릅니다. 추정된 $y$ 값은 모자를 씌워서 $\hat{y}$ 로 놓았습니다. 예를 들면, i번째 관측값은 $y_{i}$이고, i번째 추정값은 $\hat{y}_{i}$ 입니다. 

 

이때, 실제로 뽑힌 값인 관측값 $y$와 모델을 이용하여 추정한 값인 추정값 $\hat{i}$의 차이를 오차(error) 또는 잔차(residual) 이라고 부릅니다. 

 

$e_{i}=y_{i}-\hat{y}_{i}$

 

성질1) 잔차의 합은 0이다. 

최대우도법과 오차항가정 직접법에서 오차항의 평균을 0으로 가정했으므로, 오차의 합은 0인 것이 당연한게 아닌데 이걸 뭐하러 성질에 넣었나 생각할 수도 있습니다. 그런데 최소제곱법에서는 오차항의 평균이 0인 것을 가정하지 않았습니다. 오차항의 평균이 0이라는 가정을 하지 않고 최소제곱법으로 회귀계수를 구했어도, 오차항의 평균이 0이라는 결론에 도달하게 된다는 것이 핵심입니다. 

 

오차항의 합은 아래와 같이 계산됩니다. 

 

$\sum_{i=1}^{n}e_{i}=\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})$

 

우리가 구한 회귀모델을 대입합시다.

 

$\sum_{i=1}^{n}e_{i}=\sum_{i=1}^{n}(y_{i}-\hat{b}_{0}-\hat{b}_{1}x_{i})$

 

우변은 최소제곱법을 이용한 회귀계수 추정에서 $b_{0}$로 편미분한 결과이고 우리는 이 값을 0으로 놓았습니다. 따라서 오차항의 합은 0이 됩니다. 

 

성질2) 회귀선은 항상 관측값의 도심(centroid)을 지난다. 

여기서 도심은 $(\bar{x},\bar{y})$ 를 의미합니다. 

 

회귀계수를 구하는 과정에서 아래 수식이 이미 등장했습니다. $\hat{b}_{0}$를 구하는 수식입니다. 

 

$\hat{b}_{0}=\bar{y}-\hat{b}_{1}\bar{x}$

 

아래와 같이 이항해줍시다.

 

$\bar{y}=\hat{b}_{0}+\hat{b}_{1}\bar{x}$

 

$(\bar{x},\bar{y})$이 회귀선 상에 있다는 것을 알 수 있습니다. 

 

 

성질3) 예측변수(독립변수)에 오차항을 가중한 합이 0이다. 

예측변수에 오차항을 가중했다는 것은 곱했다는 의미입니다. 아래와 같습니다. 

 

$x_{i}e_{i}$

 

가중합은 아래와 같습니다.

 

$\sum_{i=1}^{n}x_{i}e_{i}=\sum_{i=1}^{n}x_{i}(y_{i}-\hat{y}_{i})$

 

회귀식을 대입합시다.

 

$\sum_{i=1}^{n}x_{i}e_{i}=\sum_{i=1}^{n}x_{i}(y_{i}-\hat{b}_{0}-\hat{b}_{1}x_{i})$

 

우변은 최소제곱법을 이용한 회귀계수 추정에서 $b_{1}$로 편미분한 결과이고 우리는 이 값을 0으로 놓았습니다. 따라서 예측변수(독립변수)에 오차항을 가중한 합이 0이 됩니다. 

 

성질4) 예측값에 오차항을 가중한 합이 0이다. 

예측값에 오차항을 가중했다는 것은 곱했다는 의미입니다. 아래와 같습니다. 

 

$\hat{y}_{i}e_{i}$

 

가중합은 아래와 같습니다.

 

$\sum_{i=1}^{n}\hat{y}_{i}e_{i}$

 

아래와 같이 변형합시다.

 

$\sum_{i=1}^{n}\hat{y}_{i}e_{i}=\sum_{i=1}^{n}(\hat{b}_{0}+\hat{b}_{1}x_{i})e_{i}$

 

우변의 시그마를 분리합시다.

 

$\sum_{i=1}^{n}\hat{y}_{i}e_{i}=\sum_{i=1}^{n}\hat{b}_{0}e_{i}
+\sum_{i=1}^{n}\hat{b}_{1}x_{i}e_{i}$


시그마와 무관한 항은 밖으로 꺼내줍시다. 

 

$\sum_{i=1}^{n}\hat{y}_{i}e_{i}=\hat{b}_{0}\sum_{i=1}^{n}e_{i}
+\hat{b}_{1}\sum_{i=1}^{n}x_{i}e_{i}$

 

오차항의 합은 0이고, 예측변수의 오차항 가중합도 0이므로 우변은 0입니다. 따라서 아래 등식이 유도됩니다. 

 

$\sum_{i=1}^{n}\hat{y}_{i}e_{i}=0$

 

성질5) 관측값의 합과 예측값의 합이 같다. 

오차항의 합이 0이므로 아래 등식이 성립합니다. 

 

$\sum_{i=1}^{n}e_{i}=\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})=0$

 

따라서 아래 등식이 성립합니다. 

 

$\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})=0$

 

시그마를 분리하고 이항합시다. 

 

$\sum_{i=1}^{n}y_{i}=\sum_{i=1}^{n}\hat{y}_{i}$

 

 

성질6) 오차항의 제곱합은 최소가 된다. 

최소제곱법으로 구할 때, 오차항의 제곱합이 최소가 되도록 회귀계수를 구했기 때문에 당연히 성립하는 성질입니다. 그러나, 최대우도법과 오차항가정직접법에서는 이와 같은 가정을 하지 않았습니다. 최대우도법과 오차항가정 직접법에서는 오차항의 평균이 0이라는 가정을 했는데요. 결국 오차항의 제곱합이 최소가 된다는 결론에 동일하게 도달하게 된다는 것이 중요합니다. 

반응형

댓글