중심극한정리 증명 (#3. 표본평균의 적률생성함수)
중심극한정리 증명의 마지막 시간입니다. 첫 시간에는 두 확률변수의 확률분포가 같을 조건을 배웠습니다. 두 확률변수의 적률생성함수가 같다면, 두 확률변수의 확률분포가 같았습니다. 두번째 시간에는 정규분포의 적률생성함수를 유도했습니다. 정규분포의 적률생성함수는 아래와 같습니다.
$M_{X}(t)=E(e^{tx})=e^{
\mu t+\frac{+ \sigma^2 t^2 }{2}
}$
이번 시간에는 표본평균의 적률생성함수를 유도할 것입니다. 유도된 적률생성함수가 정규분포의 적률생성함수와 같다면, 표본평균의 분포와 정규분포가 같다고 할 수 있습니다. 표본평균의 분포가 정규분포를 따른다는 것을 보일 수 있는 것입니다.
목차
1. 표본평균의 적률생성함수 유도
2. 표본평균의 적률생성함수 유도 (표준화 적용)
표본평균의 적률생성함수 유도
평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 크기가 n인 표본을 뽑았습니다. 표본을 무수히 많이 뽑았고 표본평균들을 구했습니다. 표본평균들의 평균과 분산은 아래와 같습니다.
$E(\bar{X})=\mu$
$V(\bar{X})=\frac{\sigma^2}{n}$
적률생성함수 계산식에 넣어봅시다.
$M_{\bar{X}}(t) = E(e^{t\bar{X}})$
표본평균의 평균을 아래와 같이 변형할 수 있습니다. 각각은 표본의 원소들입니다.
$M_{\bar{X}}(t) = E(e^{t\frac{x_{1}+x_{2}+...+x_{n}}{n}})$
아래와 같이 변형합니다.
$M_{\bar{X}}(t) = E(
e^{\frac{x_{1}}{n}t}
\cdot e^{\frac{x_{2}}{n}t}
\cdots
e^{\frac{x_{n}}{n}t}
)$
각 원소들은 독립이므로 아래와 같이 기댓값을 분리해줄 수 있습니다.
$M_{\bar{X}}(t) =
E(e^{\frac{x_{1}}{n}t})\cdot
E(e^{\frac{x_{2}}{n}t})
\cdots
E(e^{\frac{x_{n}}{n}t})$
각 원소들은 모집단의 확률변수와 같습니다. 모집단의 확률변수를 x라고 한다면 아래와 같이 변형할 수 있습니다.
$M_{\bar{X}}(t) =
\left \{
E(e^{\frac{x}{n}t})
\right \}^n$
아래와 같이 한가지 수학적 처리를 하겠습니다. 1을 곱한 것과 같기 때문에 등식에 영향을 주지 않습니다.
$M_{\bar{X}}(t) =
e^{\mu t}e^{-\mu t}
\left \{
E(e^{\frac{x}{n}t})
\right \}^n$
$e^{-\mu t}$ 를 괄호 안으로 넣어줍니다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
E(e^{\frac{-\mu}{n}t}e^{\frac{x}{n}t})
\right \}^n$
아래와 같이 변형합니다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
E(e^{\frac{x-\mu}{n}t})
\right \}^n$
기댓값 괄호 안에 있는 지수식에 매클로린급수를 적용합시다. 맥클로린 급수는 테일러 급수에서 a에 0을 넣은 급수입니다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
E(1+\frac{x-\mu}{n}t+\frac{(x-\mu)^2}{2n^2}t^2+HOT)
\right \}^n$
HOT는 High order term 입니다. 고차항인데요. $\mu$ 근처의 x값에서는 HOT가 무시할 수 있을 만큼 작아집니다. 날려줍니다.
기댓값 식을 분리해서 써봅시다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
E(1)+E\left(\frac{x-\mu}{n}t \right)+ E\left(\frac{(x-\mu)^2}{2n^2}t^2 \right)
\right \}^n$
기댓값에 무관한 항을 괄호 밖으로 꺼내줍니다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
E[1]+ \frac{t}{n}E\left[x-\mu \right]+ \frac{t^2}{2n^2} E\left[(x-\mu)^2 \right]
\right \}^n$
$E[x-\mu]$ 는 $E(x)-\mu$ 이고 $E(x)$는 $\mu$이므로 $E[x-\mu]$는 0입니다.
$e^{\mu t}
\left \{
E[1]+ \frac{t^2}{2n^2} E\left[(x-\mu)^2 \right]
\right \}^n$
$E\left[(x-\mu)^2 \right]$ 는 모분산이므로 $\sigma^2$입니다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
E[1]+ \frac{t^2}{2n^2} \sigma^2
\right \}^n$
여기서 한가지 변형을 해주겠습니다. 표본평균의 분산을 $s^2$라고 놓으면, $s^2=\frac{\sigma^2}{n}$ 입니다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
E[1]+ \frac{t^2}{2n} s^2
\right \}^n$
$E(1)$은 1입니다.
$M_{\bar{X}}(t) =
e^{\mu t}
\left \{
1+ \frac{t^2}{2n} s^2
\right \}^n$
표본의 크기 n을 무한대로 보냅시다.
$M_{\bar{X}}(t) = e^{\mu t}\lim_{n\rightarrow \infty }
\left \{
1+ \frac{t^2}{2n} s^2
\right \}^n$
자연로그의 극한에는 아래 성질이 있습니다.
$\lim_{n\rightarrow \infty }\left ( 1+\frac{a}{n} \right )^n=
\lim_{n\rightarrow \infty }\left \{ \left ( 1+\frac{a}{n} \right )^\frac{n}{a}
\right \} ^{a}=e^{a}$
우리가 유도하던 식에 적용합시다.
$M_{\bar{X}}(t) = e^{\mu t}\lim_{n\rightarrow \infty }
\left \{
1+ \frac{t^2}{2n} s^2
\right \}^n=e^{\mu t}e^{\frac{s^{2} t^{2}}{2}}$
아래와 같이 합쳐줍시다.
$M_{\bar{X}}(t) = e^{\mu t}\lim_{n\rightarrow \infty }
\left \{
1+ \frac{t^2}{2n} s^2
\right \}^n=e^{\mu t+\frac{s^{2} t^{2}}{2}}$
정규분포의 적률생성함수식은 아래와 같습니다. 비교해봅시다.
$M_{X}(t)=E(e^{tx})=e^{
\mu t+\frac{ \sigma^2 t^2 }{2}
}$
형태가 동일함을 알 수 있습니다.
여기서 한가지 의문이 드실 겁니다. 표본분산 $s^2=\frac{\sigma^2}{n}$ 이므로 극한을 취할 때, $s$도 0으로 수렴하게 됩니다. 맞습니다. n이 무한대로 가면 s는 0으로 가기 때문에 표준편차가 0이고 평균만 있게 됩니다. 함수가 한 점으로 수렴하는 것입니다. 여기서 우리가 주목해야할 점은, n이 커지면서 s가 0에 가까워져가긴 하지만, 동시에 표본평균의 적률생성함수의 형태가 정규분포에 가까워져 간다는 것입니다.
이번에는 표본평균을 표준화 한 후에 유도해보겠습니다. 아마 이 식에서는 의문이 드는 부분이 가려져 있어서 이상한 점을 발견하지 못하실 수도 있지만, 위에서 증명한 것과 동일한 의문이 드시는게 맞습니다. 어느 부분에서 의문을 느껴야 하는지 생각하며 유도해봅시다.
표본평균의 적률생성함수 유도 (표준화 적용)
평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 크기가 n인 표본을 뽑았습니다. 표본을 무수히 많이 뽑았고 표본평균들을 구했습니다. 표본평균들의 평균과 분산은 아래와 같습니다.
$E(\bar{X})=\mu$
$V(\bar{X})=\frac{\sigma^2}{n}$
아래와 같이 변수 Y를 정의합시다. 표본평균을 표준화한 것입니다. 구글에서 찾은 많은 문헌에서는 표준화하여 증명하더라구요.
$Y=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$
적률생성함수 계산식에 넣어봅시다.
$M_{Y}(t)=E(e^{yt})=E\left(
e^{\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}t}
\right )$
표본평균의 평균을 아래와 같이 변형할 수 있습니다. 각각은 표본의 원소들입니다.
$M_{Y}(t)=E(e^{y})=E\left(
e^{\frac{\frac{x_{1}+x_{2}+...+x_{n}}{n}-\mu}{\sigma/\sqrt{n}}t}
\right )$
아래와 같이 통분합시다.
$M_{Y}(t)=E(e^{y})=E\left(
e^{\frac{\frac{x_{1}+x_{2}+...+x_{n}-n\mu}{n}}{\sigma/\sqrt{n}}t}
\right )$
아래와 같이 변형합니다.
$M_{Y}(t)=E(e^{y})=E\left(
e^{ \frac{x_{1}+x_{2}+...+x_{n}-n\mu} { \sigma \sqrt{n} } }
\right )$
아래와 같이 나눠서 써주겠습니다.
$M_{Y}(t)=E(e^{y})=
E\left( e^{ \frac{x_{1}-\mu} { \sigma \sqrt{n} } }\right )
E\left( e^{ \frac{x_{2}-\mu} { \sigma \sqrt{n} } }\right )
\cdots
E\left( e^{ \frac{x_{n}-\mu} { \sigma \sqrt{n} } }\right )$
각 원소들은 모집단의 확률변수와 같습니다. 모집단의 확률변수를 x라고 한다면 아래와 같이 변형할 수 있습니다.
$M_{Y}(t)=E(e^{y})=
\left \{
E\left( e^{ \frac{x-\mu} { \sigma \sqrt{n} } }\right )
\right \}^{n}$
기댓값 괄호 안에 있는 지수식에 매클로린급수를 적용합시다. 맥클로린 급수는 테일러 급수에서 a에 0을 넣은 급수입니다.
$M_{Y}(t)=E(e^{y})=
\left \{
E\left[1+\frac{x-\mu}{\sigma \sqrt{n}}t + \frac{(x-\mu)^2}{(\sigma \sqrt{n})^2}\frac{t^2}{2} +HOT \right ]
\right \}^{n}$
HOT는 High order term 입니다. 고차항인데요. $\mu$ 근처의 x값에서는 HOT가 무시할 수 있을 만큼 작아집니다. 날려줍니다.
기댓값 식을 분리해서 써봅시다.
$M_{Y}(t)=E(e^{y})=
\left \{
E\left[1 \right ]
+E\left[\frac{x-\mu}{\sigma \sqrt{n}}t \right ]
+E\left[ \frac{(x-\mu)^2}{(\sigma \sqrt{n})^2}\frac{t^2}{2} \right ]
\right \}^{n}$
기댓값에 무관한 항을 괄호 밖으로 꺼내줍니다.
$M_{Y}(t)=E(e^{y})=
\left \{
E\left[1 \right ]
+\frac{t}{\sigma \sqrt{n}} E\left[ x-\mu \right ]
+\frac{t^2}{2n\sigma^2} E\left[ (x-\mu)^2 \right ]
\right \}^{n}$
$E[x-\mu]$ 는 $E(x)-\mu$ 이고 $E(x)$는 $\mu$이므로 $E[x-\mu]$는 0입니다.
$M_{Y}(t)=E(e^{y})=
\left \{
E\left[1 \right ]
+\frac{t^2}{2n\sigma^2} E\left[ (x-\mu)^2 \right ]
\right \}^{n}$
$E(1)$은 1입니다.
$M_{Y}(t)=E(e^{y})=
\left \{
1
+\frac{t^2}{2n\sigma^2} E\left[ (x-\mu)^2 \right ]
\right \}^{n}$
$E\left[(x-\mu)^2 \right]$ 는 모분산이므로 $\sigma^2$입니다.
$M_{Y}(t)=E(e^{y})=
\left \{
1
+\frac{t^2}{2n\sigma^2} \sigma^2
\right \}^{n}$
$\sigma^2$을 약분합니다.
$M_{Y}(t)=E(e^{y})=
\left \{
1
+\frac{t^2}{2n}
\right \}^{n}$
표본의 크기 n을 무한대로 보냅시다.
$M_{Y}(t)=E(e^{y})=\lim_{n\rightarrow \infty }
\left \{
1
+\frac{t^2}{2n}
\right \}^{n}$
자연로그의 극한의 성질을 이용하여 극한값을 구하면 아래와 같습니다.
$M_{Y}(t)=E(e^{y})=\lim_{n\rightarrow \infty }
\left \{
1
+\frac{t^2}{2n}
\right \}^{n}=e^{\frac{t^2}{2}}$
정규분포에서 평균에 0, 표준편차는 1인 적률생성함수와 동일합니다. 즉 표준정규분포의 적률생성함수와 동일한 것입니다.
이 증명에서는 어색한 부분이 없어보입니다. 그런데 결과를 생각해보면, Y의 적률생성함수를 구한 것인데 Y에서 n이 무한대입니다.
$Y=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$
두 증명 모두 무한으로 보내는 부분에서 억지스러운 면애 있습니다. 위에서도 언급했지만 완벽하게 정규분포가 되는 것이 아니라 형태가 가까워지는 것으로 이해해야합니다.
#강의 영상
'@ 필수과목 > 손으로 푸는 통계' 카테고리의 다른 글
[손으로 푸는 통계] 18. 정규분포함수 유도하기 (방법2. 이항분포 이용 1/2) (5) | 2018.04.12 |
---|---|
[손으로 푸는 통계] 17. 이항분포의 평균과 분산 (5) | 2018.04.12 |
[손으로 푸는 통계] 16. 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 2/2) (16) | 2018.03.25 |
[손으로 푸는 통계] 15. 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 1/2) (13) | 2018.03.25 |
[손으로 푸는 통계] 13. 중심극한정리 증명 (#2. 정규분포의 적률생성함수) (0) | 2018.03.24 |
[손으로 푸는 통계] 12. 중심극한정리 증명 (#1. 확률분포가 같을 조건) (6) | 2018.03.24 |
[손으로 푸는 통계] 11. 적률생성함수 (중심극한정리를 위한 재료 #2) (5) | 2018.03.24 |
[손으로 푸는 통계] 10. 테일러 급수 유도하기 (중심극한정리 재료 #1) (6) | 2018.03.24 |
댓글