회귀계수를 추정하는 방법은 아래 그림과 같이 세가지가 있습니다.
지난시간까지 최소제곱법을 배웠습니다. 오늘은 최대우도법을 배워봅시다. 간단한 예시를 통해 감을 먼저 잡고 나서 일반화시키도록 하겠습니다.
(최대우도법 예시) → (일반화)
최대우도법 예시
A회사의 3년간 광고비(X)와 매출액 자료는 아래와 같습니다. 단위는 억원이라고 합시다.
(1,5)
(2,7)
(3,9)
선형모델을 아래와 같이 가정합시다.
$y=\beta_{0}+\beta_{1}x+\varepsilon$
오차항의 평균을 0, 분산을 $\sigma^2$인 정규분포를 따른다고 가정하겠습니다. 오차항에 대해 정리하면 아래와 같습니다.
$\varepsilon=y-\beta_{0}-\beta_{1}x$
정규분포 함수는 아래와 같이 정의하겠습니다. 이 오차항의 정규분포함수를 $f$라고 놓겠습니다.
$f(\varepsilon)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\varepsilon^2}{2\sigma^2}}$
오차항은 $x,y,\beta_{0},\beta_{1}$ 로 표현되기 때문에 아래와 같이 바꿀 수 있습니다.
$f(x,y,\beta_{0},\beta_{1})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y-\beta_{0}-\beta_{1}x)^2}{2\sigma^2}}$
이때 각각의 사건이 발생할 확률밀도값은 아래와 같습니다.
$f(x=1,y=5,\beta_{0},\beta_{1})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(5-\beta_{0}-\beta_{1})^2}{2\sigma^2}}$
$f(x=2,y=7,\beta_{0},\beta_{1})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(7-\beta_{0}-2\beta_{1})^2}{2\sigma^2}}$
$f(x=3,y=9,\beta_{0},\beta_{1})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(9-\beta_{0}-3\beta_{1})^2}{2\sigma^2}}$
위 값이 구해진 과정을 생각해보면, 우리가 알고 있는 확률밀도값과는 다르다는 것을 알 수 있습니다. 우리가 알고 있는 확률밀도값의 계산에서 변수는 추출된 '표본값'이었는데, 위 함수에서는 '표본값'은 정해져 있고 '모수'인 $\beta_{1},\beta_{2}$ 가 확률변수입니다. 따라서 이런 경우 확률밀도 대신 다른 용어를 사용합니다. 가능도라는 의미의 '우도'라는 용어를 사용합니다. 확률밀도함수 대신 우도함수라고 부릅니다. 우도함수는 L 로 나타냅니다.
$L(\beta_{0},\beta_{1}|x=1,y=5)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(5-\beta_{0}-\beta_{1})^2}{2\sigma^2}}$
$L(\beta_{0},\beta_{1}|x=2,y=7)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(7-\beta_{0}-2\beta_{1})^2}{2\sigma^2}}$
$L(\beta_{0},\beta_{1}|x=3,y=9)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(9-\beta_{0}-3\beta_{1})^2}{2\sigma^2}}$
세 사건이 모두 발생할 우도는 위 세 우도의 곱입니다.
$L(\beta_{0},\beta_{1})=
\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(5-\beta_{0}-\beta_{1})^2}{2\sigma^2}}
\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(7-\beta_{0}-2\beta_{1})^2}{2\sigma^2}}
\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(9-\beta_{0}-3\beta_{1})^2}{2\sigma^2}}$
최대우도법은 위 우도함수가 최댓값을 갖도록 모수 $\beta_{1},\beta_{2}$를 추정하는 방법입니다. 이미 뽑은 표본이 발생할 확률을 최대로 만드는 값을 모수의 추정값으로 사용하는 것입니다.
위 수식을 아래와 같이 변형합시다.
$L(\beta_{0},\beta_{1})=
\left( \frac{1}{\sqrt{2\pi}\sigma} \right)^3
e^{-\frac{(5-\beta_{0}-\beta_{1})^2}{2\sigma^2}-\frac{(7-\beta_{0}-2\beta_{1})^2}{2\sigma^2}-\frac{(9-\beta_{0}-3\beta_{1})^2}{2\sigma^2}}$
아래와 같이 묶어줍시다.
$L(\beta_{0},\beta_{1})=
\left( \frac{1}{\sqrt{2\pi}\sigma} \right)^3
e^{-\frac{1}{2\sigma^2}\left \{
(5-\beta_{0}-\beta_{1})^2
+(7-\beta_{0}-2\beta_{1})^2
+(9-\beta_{0}-3\beta_{1})^2
\right \}}$
계산을 간단하게 만들기 위해 양변에 자연로그를 취합니다.
$lnL(\beta_{0},\beta_{1})=
3ln\left( \frac{1}{\sqrt{2\pi}\sigma} \right)
-\frac{1}{2\sigma^2}\left \{
(5-\beta_{0}-\beta_{1})^2
+(7-\beta_{0}-2\beta_{1})^2
+(9-\beta_{0}-3\beta_{1})^2
\right \}$
이제 위 우도함수를 최대로 만들어주는 $\beta_{1},\beta_{2}$를 찾으면 되는데요. 함수의 최댓값은 각 변수로 편미분한 결과가 0이 되는 곳에서 발생합니다. 위 함수를 $\beta_{1},\beta_{2}$ 로 각각 편미분해줍시다.
$\frac{\partial lnL(\beta_{0},\beta_{1})}{\partial \beta_{0}}=
\frac{1}{2\sigma^2}\left \{
2(5-\beta_{0}-\beta_{1})
+2(7-\beta_{0}-2\beta_{1})
+2(9-\beta_{0}-3\beta_{1})
\right \}$
$\frac{\partial lnL(\beta_{0},\beta_{1})}{\partial \beta_{1}}=
\frac{1}{2\sigma^2}\left \{
2(5-\beta_{0}-\beta_{1})
+2\cdot 2(7-\beta_{0}-2\beta_{1})
+2\cdot 3(9-\beta_{0}-3\beta_{1})
\right \}$
이 값이 0이 되는 곳에서 최대값이 발생합니다.
$\frac{1}{2\sigma^2}\left \{
2(5-\beta_{0}-\beta_{1})
+2(7-\beta_{0}-2\beta_{1})
+2(9-\beta_{0}-3\beta_{1})
\right \}=0$
$\frac{1}{2\sigma^2}\left \{
2(5-\beta_{0}-\beta_{1})
+2\cdot 2(7-\beta_{0}-2\beta_{1})
+2\cdot 3(9-\beta_{0}-3\beta_{1})
\right \}=0$
아래와 같이 약분합시다.
$\left \{
2(5-\beta_{0}-\beta_{1})
+2(7-\beta_{0}-2\beta_{1})
+2(9-\beta_{0}-3\beta_{1})
\right \}=0$
$\left \{
2(5-\beta_{0}-\beta_{1})
+2\cdot 2(7-\beta_{0}-2\beta_{1})
+2\cdot 3(9-\beta_{0}-3\beta_{1})
\right \}=0$
위 두 등식을 연립하여 $\beta_{1},\beta_{2}$ 를 구하면 됩니다.
눈치 채신 분들도 있으실겁니다. 최소제곱법에서 편미분 하여 나온 수식과 같습니다. 이후 계산은 최소제곱법에서 했던 계산과 동일하므로 생략하도록 하겠습니다.
'@ 통계학 석박사 진학관련 > 회귀분석 요약' 카테고리의 다른 글
[회귀분석] 11. 우리가 구한 회귀모델의 성질 (6가지) (2) | 2021.04.17 |
---|---|
[회귀분석] 10. 세 방법의 회귀계수 추정 결과가 같다는 것 (0) | 2021.04.10 |
[회귀분석] 9. 오차항 가정 직접법을 이용한 회귀계수 추정 (2) | 2021.04.03 |
[회귀분석] 8. 최대우도법을 이용한 회귀계수 추정 일반화 (0) | 2021.03.26 |
[회귀분석] 6. 최소제곱법을 이용한 회귀계수 추정 일반화 (0) | 2021.03.25 |
[회귀분석] 5. 최소제곱법을 이용한 회귀계수 추정 예시 (0) | 2021.03.25 |
[회귀분석] 4. 회귀 계수의 추정의 세가지 방법 (0) | 2021.03.25 |
[회귀분석] 3. 단순 선형 회귀분석 소개 (2) | 2021.03.22 |
댓글