본문 바로가기
@ 통계학 석박사 진학관련/회귀분석 요약

[회귀분석] 6. 최소제곱법을 이용한 회귀계수 추정 일반화

by bigpicture 2021. 3. 25.
반응형

회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다. 

 

 

지난 강의에서 최소제곱법의 예시를 공부했습니다. 오늘은 최소제곱법을 이용한 회귀계수 계산 방법을 일반화해보겠습니다.  

(최소제곱법 예시) → (일반화)

 

최소제곱법 일반화

아래와 같은 데이터가 있다고 합시다.

$(x_{1},y_{1})$
$(x_{1},y_{1})$
$...$
$(x_{n},y_{n})$

선형모델을 아래와 같이 가정합시다. 

$y=\beta_{0}+\beta_{1}x+\varepsilon$

오차에 대해 위 식을 정리하면 아래와 같습니다. 

$\varepsilon=y- \beta_{0}-\beta_{1}x$

위 데이터를 대입하면 오차들은 각각 아래와 같습니다. 

$\varepsilon_{1}=y_{1}-\beta_{0}-\beta_{1}x_{1}$
$\varepsilon_{2}=y_{2}-\beta_{0}-2\beta_{1}x_{2}$
$...$
$\varepsilon_{n}=y_{n}-\beta_{0}-3\beta_{1}x_{n}$

오차의 제곱합은 아래와 같습니다. 

$\sum_{i=1}^{n}\varepsilon_{i}^2=\varepsilon_{1}^2 
+\varepsilon_{2}^2 
+...+\varepsilon_{n}^2 
=\sum_{i=1}^{n} \left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ] ^2$

오차의 제곱합에서 변수는 $\beta_{0}$와 $\beta_{1}$입니다. 따라서 아래와 같은 함수로 놓을 수 있습니다. 

$J(\beta_{0},\beta_{1})
=\sum_{i=1}^{n} \left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ] ^2$

이제 이 함수가 최소가 되게 하는 $\beta_{0}$와 $\beta_{1}$ 을 찾으면 됩니다. 함수가 최솟값을 갖는 위치에서는 각 변수방향으로의 기울기가 0입니다. 아래로 볼록인 함수를 상상하시면 됩니다. 따라서 J함수를 각 변수로 편미분한 함수를 0으로 만들어주는 값을 찾으면 됩니다. J함수를 각 변수로 편미분해봅시다. 

 

$\beta_{0}$로 편미분

함수 J를 $\beta_{0}$로 편미분하면 아래와 같습니다. 

 

$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{0}}
=-\sum_{i=1}^{n} 2\left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ]$

 

이 편미분 값이 0인 위치에서 함수 J가 최솟값을 갖습니다. 

 

$-\sum_{i=1}^{n} 2\left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ]=0$

 

-2를 약분합시다. 

$\sum_{i=1}^{n} \left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ]=0$

항을 나눠서 써줍시다. 

$\sum_{i=1}^{n} y_{i}
-\sum_{i=1}^{n} \beta_{0}
-\sum_{i=1}^{n} \beta_{1}x_{i}
=0$

시그마와 무관한 항을 밖으로 꺼냅시다. 

$\sum_{i=1}^{n} y_{i}
-\beta_{0}\sum_{i=1}^{n} 1
-\beta_{1}\sum_{i=1}^{n} x_{i}
=0$

두번째 항을 아래와 같이 계산합시다. 

$\sum_{i=1}^{n} y_{i}
-\beta_{0}n
-\beta_{1}\sum_{i=1}^{n} x_{i}
=0$

두 변수에 대해 아래와 같이 정리해줍니다. 

$\beta_{0}n
+\beta_{1}\sum_{i=1}^{n} x_{i}
=\sum_{i=1}^{n} y_{i}$

 

$\beta_{1}$로 편미분

함수 J를 $\beta_{1}$로 편미분하면 아래와 같습니다. 

 

$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{1}}
=-\sum_{i=1}^{n} 2\left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ]x_{i}$

이 편미분 값이 0인 위치에서 함수 J가 최솟값을 갖습니다.

$-\sum_{i=1}^{n} 2\left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ]x_{i}=0$

-2로 약분합시다.

$\sum_{i=1}^{n} \left [ y_{i}- \beta_{0}-\beta_{1}x_{i}  \right ]x_{i}=0$

전개합니다.

$\sum_{i=1}^{n} \left [ y_{i}x_{i}- \beta_{0}x_{i}-\beta_{1}x_{i}^2  \right ]=0$

항을 나눠서 써줍시다. 

$\sum_{i=1}^{n} y_{i}x_{i}
-\sum_{i=1}^{n} \beta_{0}x_{i}
-\sum_{i=1}^{n} \beta_{1}x_{i}^2 =0$

시그마와 무관한 항을 밖으로 꺼냅시다. 

$\sum_{i=1}^{n} y_{i}x_{i}
-\beta_{0} \sum_{i=1}^{n} x_{i}
- \beta_{1} \sum_{i=1}^{n}x_{i}^2 =0$

두 변수에 대해 아래와 같이 정리해줍니다. 

$\beta_{0} \sum_{i=1}^{n} x_{i}+
 \beta_{1} \sum_{i=1}^{n}x_{i}^2 =\sum_{i=1}^{n} y_{i}x_{i}$

 

연립방정식 풀기

함수 J를 $\beta_{0}$과 $\beta_{1}$로 미분한 결과는 각각 아래와 같습니다. 

 

$\beta_{0}n
+\beta_{1}\sum_{i=1}^{n} x_{i}
=\sum_{i=1}^{n} y_{i}$

$\beta_{0} \sum_{i=1}^{n} x_{i}+
 \beta_{1} \sum_{i=1}^{n}x_{i}^2 =\sum_{i=1}^{n} y_{i}x_{i}$

 

첫번째 식의 양변을 n으로 나누고, $\sum_{i=1}^{n} x_{i}$ 를 곱하여 아래와 같이 변형합니다. 

$\beta_{0}\sum_{i=1}^{n} x_{i}
+\beta_{1} \frac{\left( \sum_{i=1}^{n} x_{i}\right )^2 }{n}
=\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}$

$\beta_{0} \sum_{i=1}^{n} x_{i}+
 \beta_{1} \sum_{i=1}^{n}x_{i}^2 =\sum_{i=1}^{n} y_{i}x_{i}$

 

첫번째 식의 양변을 n으로 나누고, $\sum_{i=1}^{n} x_{i}$ 를 곱하여 아래와 같이 변형합니다. 

$\beta_{0}\sum_{i=1}^{n} x_{i}
+\beta_{1} \frac{\left( \sum_{i=1}^{n} x_{i}\right )^2 }{n}
=\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}$

$\beta_{0} \sum_{i=1}^{n} x_{i}+
 \beta_{1} \sum_{i=1}^{n}x_{i}^2 =\sum_{i=1}^{n} y_{i}x_{i}$

아래 항에서 위 항을 빼줍니다. 

$\left \{ \sum_{i=1}^{n}x_{i}^2 - \frac{\left( \sum_{i=1}^{n} x_{i}\right )^2 }{n} \right \}\beta_{1}=
\sum_{i=1}^{n} y_{i}x_{i}-\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}$

따라서 $\beta_{1}$은 아래와 같이 계산됩니다. 

$\beta_{1}=
\frac{
\sum_{i=1}^{n} x_{i}y_{i}-\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}
}{
 \sum_{i=1}^{n}x_{i}^2 - \frac{\left( \sum_{i=1}^{n} x_{i}\right )^2 }{n}
}$

$\beta_{0}$ 는 $\beta_{1}$ 을 계산한 뒤에 아래 식에 대입하여 구합니다. 

$\beta_{0}n
+\beta_{1}\sum_{i=1}^{n} x_{i}
=\sum_{i=1}^{n} y_{i}$

 

 

$\beta_{1}$ 변형 (이렇게 안한다는얘기)

$\beta_{1}$ 을 구하는 수식을 봅시다. 

 

$\beta_{1}=
\frac{
\sum_{i=1}^{n} x_{i}y_{i}-\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}
}{
 \sum_{i=1}^{n}x_{i}^2 - \frac{\left( \sum_{i=1}^{n} x_{i}\right )^2 }{n}
}$

 

먼저 분모를 n으로 묶어줍시다. 

 

$\beta_{1}=
\frac{
\sum_{i=1}^{n} x_{i}y_{i}-\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}
}{
n\left \{ \frac{\sum_{i=1}^{n}x_{i}^2}{n} - \frac{\left( \sum_{i=1}^{n} x_{i}\right )^2 }{n^2}
\right \}
}$

 

분모의 괄호 안에 있는 항은 X의 제곱의 평균에서 평균의 제곱을 뺀 값입니다. 이는 분산입니다. 

 

$\beta_{1}=
\frac{
\sum_{i=1}^{n} x_{i}y_{i}-\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}
}{
nV(X)
}$

 

이번에는 분자를 변형합시다. n으로 묶어줍시다. 

 

$\beta_{1}=
\frac{
n\left \{  
\frac{\sum_{i=1}^{n} x_{i}y_{i}}{n}-\frac{\sum_{i=1}^{n} x_{i} }{n}\frac{\sum_{i=1}^{n} y_{i}}{n}
\right \}
}{
nV(X)
}$

 

이는 공분산을 구하는 수식입니다. 

 

$\beta_{1}=
\frac{
ncov(X,Y)
}{
nV(X)
}$

 

n을 약분하면 아래와 같습니다. 

 

$\beta_{1}=
\frac{
cov(X,Y)
}{
V(X)
}$

 

한가지 문제가 있습니다. 위 공분산은 n-1로 나눈 표본의 공분산이 아니고, V(X)도 n-1로 나눈 표본분산이 아닙니다. 의미전달에 혼란이 올 수 있습니다. 따라서 이렇게 변형하지 않고, 일반적으로 아래와 같이 변형합니다. 

 

$\beta_{1}$ 변형

$\beta_{1}$ 을 구하는 수식을 봅시다. 

 

$\beta_{1}=
\frac{
\sum_{i=1}^{n} x_{i}y_{i}-\frac{\sum_{i=1}^{n} x_{i} \sum_{i=1}^{n} y_{i}}{n}
}{
 \sum_{i=1}^{n}x_{i}^2 - \frac{\left( \sum_{i=1}^{n} x_{i}\right )^2 }{n}
}$

 

분자와 분모는 아래와 같이 변형됩니다. 

 

$\beta_{1}=
\frac{
\sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y})
}
{
 \sum_{i=1}^{n} (x_{i}-\bar{x})^2
}$

 

분모와 분자를 아래와 같이 간단한 기호로 나타내겠습니다. 

 

$\beta_{1}=
\frac{
S_{xy}
}
{
S_{xx}
}$

 

$\beta_{0}$ 계산 수식을 통계량으로 변형

$\beta_{0}$ 는 $\beta_{1}$ 을 계산한 뒤에 아래 식에 대입하여 구합니다. 

$\beta_{0}n
+\beta_{1}\sum_{i=1}^{n} x_{i}
=\sum_{i=1}^{n} y_{i}$

 

양변을 n으로 나눠줍니다. 

$\beta_{0}
+\beta_{1}\frac{\sum_{i=1}^{n} x_{i}}{n}
=\frac{\sum_{i=1}^{n} y_{i}}{n}$

$\frac{\sum_{i=1}^{n} x_{i}}{n}$은 x의 평균,$ \frac{\sum_{i=1}^{n} y_{i}}{n} $은 y의 평균입니다. 아래와 같이 바꿀 수 있습니다. 

$\beta_{0}
+\beta_{1}\bar{x}
=\bar{y}$

따라서 $\beta_{0}$는 아래와 같습니다. 

$\beta_{0}
=\bar{y}-\beta_{1}\bar{x}$

 

요약

추정된 회귀계수에는 hat을 붙여줍니다. 모델로 구한 y값도 hat을 붙여줍니다. 데이터의 실제값은 $y$이고, 추정값은 $\hat{y}$ 입니다. 

 

반응형

댓글