회귀계수를 추정하는 방법은 아래 세가지가 있습니다.
최소제곱법을 먼저 배워볼 거구요. 간단한 예시를 통해 감을 먼저 잡고 나서 일반화시키도록 하겠습니다.
(최소제곱법 예시) → (일반화)
최소제곱법 예시
A회사의 3년간 광고비(X)와 매출액 자료는 아래와 같습니다. 단위는 억원이라고 합시다.
(1,5)
(2,7)
(3,9)
선형모델을 아래와 같이 가정합시다.
$y=\beta_{0}+\beta_{1}x+\varepsilon$
오차에 대해 위 식을 정리하면 아래와 같습니다.
$\varepsilon=y-\beta_{0}-\beta_{1}x$
위 데이터를 대입하면 오차들은 각각 아래와 같습니다.
$\varepsilon_{1}=5-\beta_{0}-\beta_{1}$
$\varepsilon_{2}=7-\beta_{0}-2\beta_{1}$
$\varepsilon_{3}=9-\beta_{0}-3\beta_{1}$
오차의 제곱합은 아래와 같습니다.
$\sum_{i=1}^{3}\varepsilon_{i}^2=\varepsilon_{1}^2
+\varepsilon_{2}^2
+\varepsilon_{3}^2
= \left [ 5- \beta_{0}-\beta_{1} \right ] ^2
+ \left [ 7- \beta_{0}-2\beta_{1} \right ] ^2
+ \left [ 9- \beta_{0}-3\beta_{1} \right ] ^2$
오차의 제곱합에서 변수는 $\beta_{0}$와 $\beta_{1}$입니다. 따라서 아래와 같은 함수로 놓을 수 있습니다.
$J(\beta_{0},\beta_{1})
= \left [ 5- \beta_{0}-\beta_{1} \right ] ^2
+ \left [ 7- \beta_{0}-2\beta_{1} \right ] ^2
+ \left [ 9- \beta_{0}-3\beta_{1} \right ] ^2$
이제 이 함수가 최소가 되게 하는 $\beta_{0}$와 $\beta_{1}$ 을 찾으면 됩니다. 함수가 최솟값을 갖는 위치에서는 각 변수방향으로의 기울기가 0입니다. 아래로 볼록인 함수를 상상하시면 됩니다. 따라서 J함수를 각 변수로 편미분한 함수를 0으로 만들어주는 값을 찾으면 됩니다. J함수를 각 변수로 편미분해봅시다.
$\beta_{0}$로 편미분
함수 J를 $\beta_{0}$로 편미분하면 아래와 같습니다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{0}}
= -2\left [ 5- \beta_{0}-\beta_{1} \right ]
- 2\left [ 7- \beta_{0}-2\beta_{1} \right ]
-2\left [ 9- \beta_{0}-3\beta_{1} \right ]$
우변을 전개합시다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{0}}
=
-10+2\beta_{0}+2\beta_{1}
-14+2\beta_{0}+4\beta_{1}
-18+2\beta_{0}+6\beta_{1}$
정리하면 아래와 같습니다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{0}}
=
-42+6\beta_{0}+12\beta_{1}
$
이 값이 0인 곳에서 함수 J가 최솟값을 갖습니다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{0}}
=
-42+6\beta_{0}+12\beta_{1}=0
$
$\beta_{1}$로 편미분
함수 J를 $\beta_{1}$로 편미분하면 아래와 같습니다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{1}}
= -2\left [ 5- \beta_{0}-\beta_{1} \right ]
- 2\cdot 2 \left [ 7- \beta_{0}-2\beta_{1} \right ]
- 2\cdot 3\left [ 9- \beta_{0}-3\beta_{1} \right ]$
우변을 전개합시다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{1}}
= -10+2\beta_{0}+2\beta_{1}
-28+4\beta_{0}+8\beta_{1}
-54+6\beta_{0}+18\beta_{1}$
정리하면 아래와 같습니다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{1}}
= -92+12\beta_{0}+28\beta_{1}$
이 값이 0인 곳에서 함수 J가 최솟값을 갖습니다.
$\frac{\partial J(\beta_{0},\beta_{1})}{\partial \beta_{1}}
= -92+12\beta_{0}+28\beta_{1}=0$
연립방정식 풀기
함수 J를 $\beta_{0}$과 $\beta_{1}$로 미분한 결과는 각각 아래와 같습니다.
$-42+6\beta_{0}+12\beta_{1}=0$
$-92+12\beta_{0}+28\beta_{1}=0$
아래와 같이 정리합시다.
$6\beta_{0}+12\beta_{1}=42$
$12\beta_{0}+28\beta_{1}=92$
각 식을 약분해서 간단히 합시다.
$\beta_{0}+2\beta_{1}=7$
$3\beta_{0}+7\beta_{1}=23$
연립방정식을 풀어줍니다. 첫번째 식을 세배합니다.
$3\beta_{0}+6\beta_{1}=21$
$3\beta_{0}+7\beta_{1}=23$
아래 식에서 위 식을 빼줍니다.
$\beta_{1}=2$
$\beta_{1}$ 를 구했습니다. 이 값을 위에 있는 아무 식에나 넣으면 $\beta_{0}$를 구할 수 있습니다.
$\beta_{0}=3$
$\beta_{0}$과 $\beta_{1}$ 을 모두 구했습니다. 따라서 회귀모델은 아래와 같습니다.
$y=3+2x$
데이터와 함께 그래프로 그려보면 아래와 같습니다.
x=c(1,2,3)
y=c(5,7,9)
plot(x,y,xlim=c(0,10),ylim=c(0,10))
abline(3,2)
다음시간에는 최소제곱법으로 회귀계수를 구하는 과정을 일반화해보겠습니다.
'@ 통계학 석박사 진학관련 > 회귀분석 요약' 카테고리의 다른 글
[회귀분석] 9. 오차항 가정 직접법을 이용한 회귀계수 추정 (2) | 2021.04.03 |
---|---|
[회귀분석] 8. 최대우도법을 이용한 회귀계수 추정 일반화 (0) | 2021.03.26 |
[회귀분석] 7. 최대우도법을 이용한 회귀계수 추정 예시 (0) | 2021.03.26 |
[회귀분석] 6. 최소제곱법을 이용한 회귀계수 추정 일반화 (0) | 2021.03.25 |
[회귀분석] 4. 회귀 계수의 추정의 세가지 방법 (0) | 2021.03.25 |
[회귀분석] 3. 단순 선형 회귀분석 소개 (2) | 2021.03.22 |
[회귀분석] 2. 회귀분석의 종류 (0) | 2021.03.12 |
[회귀분석] 1. 회귀분석이란 무엇인가 (0) | 2021.03.12 |
댓글