크기가 n인 표본을 모집단에서 뽑는다고 합시다. 만약 복원추출로 뽑는다면 아래 성질이 성립합니다.
표본 평균의 평균 = 모평균
표본 평균의 분산 = 모분산/n
비복원 추출에서도 성립할까요? 수학적으로 유도하기 전에 복원추출과 비복원추출이 '확률변수' 관점에서 어떤 차이가 있는지 생각해봅시다. 복원추출은 하나의 표본을 뽑을 때, 원소들의 중복을 허용합니다. 크기가 n인 표본을 뽑을 때, n개의 원소를 뽑을 때마다 복원하는 것입니다. 따라서 표본의 원소를 뽑는 사건들은 서로 '독립'입니다. 반면에 비복원추출은 표본의 원소들을 뽑을 때 복원하지 않으므로 중복이 허용되지 않습니다. 예를들어 한 원소로 1이 뽑히면 다른 원소로는 뽑힐 수가 없습니다. 따라서 비복원추출로 뽑을 때, 표본의 원소들을 뽑는 사건은 서로 '종속'입니다.
복원추출 : 표본의 원소를 뽑는 사건들이 '독립'
비복원추출 : 표본의 원소를 뽑는 사건들이 '종속'
비복원추출이라고 가정하고 표본평균의 평균과 분산을 유도해봅시다.
1. 표본평균의 평균(비복원추출)
표본평균의 평균은 아래와 같이 정의됩니다.
$E[\bar{X}]=E\left [ \sum_{i=1}^{n}\frac{X_{i}}{n} \right ]$
시그마를 풀어서 쓰면 아래와 같습니다.
$E[\bar{X}]=E\left [ \sum_{i=1}^{n} \frac{ X_{1}+\cdots+X_{n}}{n} \right ]$
n은 상수이므로 밖으로 꺼내겠습니다.
$E[\bar{X}]=\frac{1}{n}E\left [ X_{1}+\cdots+X_{n} \right ]$
X1은 표본의 첫번째 원소를 의미하는 '확률변수'입니다. 표본을 무한정 뽑는다고 가정할 때, 각 표본의 첫번째 원소들을 모아놓은 변수입니다. Xn은 표본의 n번째 원소를 의미하는 '확률변수'입니다. 비복원추출의 경우 X1부터 Xn까지의 각 확률변수들은 서로 '종속'입니다. 서로 종속인 변수의 합의 기댓값을 구할 때, 아래와 같은 분리가 가능할까요?
$E[\bar{X}]=\frac{1}{n}\left \{ E\left [ X_{1}\right ]+\cdots+E\left [ X_{n}\right ] \right \}$
가능합니다.
간단한 예시를 통해 알아봅시다. 상자에 1,2,3,4가 적힌 공이 있습니다. 이 상자에서 크기가 2인 표본을 비복원추출로 뽑아봅시다. 첫번째 뽑힌 공을 $X_{1}$, 두번째 뽑힌 공을 $X_{2}$라고 하겠습니다. $_{4}P_{2}$개의 경우가 있습니다. $_{4}P_{2}$ 는 12입니다.
$X_{1}$ $X_{2}$
1 2
2 1
1 3
3 1
1 4
4 1
2 3
3 2
2 4
4 2
3 4
4 3
$X_{1}$과 $X_{2}$ 를 각각 살펴봅시다.
$X_{1}=\left \{ 1,2,1,3,1,4,2,3,2,4,3,4 \right \}$
$X_{2}=\left \{ 2,1,3,1,4,1,3,2,4,2,4,3 \right \}$
크기 순서대로 나열해봅시다.
$X_{1}=\left \{ 1,1,1,2,2,2,3,3,3,4,4,4 \right \}$
$X_{2}=\left \{ 1,1,1,2,2,2,3,3,3,4,4,4 \right \}$
모집단의 분포와 동일하다는 것을 알 수 있습니다. 따라서 각각의 변수는 모집단의 확률변수와 같습니다.
$X_{1}$부터 $X_{n}$ 까지의 확률변수는 각각 모집단의 확률변수와 같으므로 모평균을 μ라고 놓고 아래와 같이 변형합시다.
$E\left [ \bar{X} \right ]=\frac{1}{n}\left \{ n\mu \right \}$
계산 결과는 아래와 같습니다.
$E\left [ \bar{X} \right ]=\mu$
비복원추출일 때도, 표본평균의 평균은 모평균과 같습니다 .
2. 표본평균의 분산(비복원추출)
표본평균의 분산은 아래와 같이 정의됩니다.
$V\left [ \bar{X} \right ]=E\left [ \left ( \bar{X}-\mu \right )^2 \right ]$
시그마 식으로 쓰면 아래와 같습니다 .
$V\left [ \bar{X} \right ]=E\left [ \left (\frac{\sum_{i=1}^{n}X_{i} }{n}-\mu \right )^2 \right ]$
통분하겠습니다.
$V\left [ \bar{X} \right ]=E\left [ \left (\frac{\sum_{i=1}^{n}X_{i}-n\mu }{n} \right )^2 \right ]$
이번에는 $n\mu$ 를 시그마 안으로 넣어주겠습니다.
$V\left [ \bar{X} \right ]=E\left [ \left (\frac{\sum_{i=1}^{n}\left ( X_{i}-\mu \right ) }{n} \right )^2 \right ]$
상수를 괄호 밖으로 꺼내겠습니다.
$V\left [ \bar{X} \right ]=\frac{1}{n^2}E\left [ \left ( \sum_{i=1}^{n}\left ( X_{i}-\mu \right ) \right )^2 \right ]$
시그마를 풀어서 써주겠습니다.
$V\left [ \bar{X} \right ]=\frac{1}{n^2}E\left [ \left ( \left ( X_{1}-\mu \right ) + \left ( X_{2}-\mu \right )
+\cdots + \left ( X_{n}-\mu \right ) \right )^2 \right ]$
전개를 해봅시다.
$V\left [ \bar{X} \right ]=\frac{1}{n^2}E\left [ \left ( X_{1}-\mu \right )^2+\left ( X_{2}-\mu \right )^2+\cdots+\left ( X_{n}-\mu \right )^2+\left ( X_{1}-\mu \right )\left ( X_{2}-\mu \right )+\left ( X_{1}-\mu \right )\left ( X_{3}-\mu \right )+\cdots \right ]$
둘로 분리해보겠습니다.
$V\left [ \bar{X} \right ]=\frac{1}{n^2}\left \{
E\left [ \left ( X_{1}-\mu \right )^2+\left ( X_{2}-\mu \right )^2+\cdots+\left ( X_{n}-\mu \right )^2 \right ]
+
E\left [ \left ( X_{1}-\mu \right )\left ( X_{2}-\mu \right )+\left ( X_{1}-\mu \right )\left ( X_{3}-\mu \right )+\cdots \right ]
\right \}$
더 분리해서 쓰겠습니다.
$V\left [ \bar{X} \right ]=\frac{1}{n^2}\left \{
E\left [ \left ( X_{1}-\mu \right )^2 \right ]+E\left [ \left ( X_{2}-\mu \right )^2 \right ]+\cdots+
E\left [ \left ( X_{n}-\mu \right )^2 \right ]
+
E\left [ \left ( X_{1}-\mu \right )\left ( X_{2}-\mu \right ) \right ]+E\left [ \left ( X_{1}-\mu \right )\left ( X_{3}-\mu \right ) \right ]+\cdots
\right \}$
제곱항의 기댓값들은 모분산이므로 아래와 같이 바꿔쓸 수 있습니다
$V\left [ \bar{X} \right ]=\frac{1}{n^2}\left \{
n\sigma^2
+
E\left [ \left ( X_{1}-\mu \right )\left ( X_{2}-\mu \right ) \right ]+E\left [ \left ( X_{1}-\mu \right )\left ( X_{3}-\mu \right ) \right ]+\cdots
\right \}$
두 변수가 독립일 때 아래식 좌변의 기댓값을 우변과 같이 변형할 수 있고, 우변은 0이 됩니다.
$E[ \left ( X_{1}-\mu \right )\left ( X_{2}-\mu \right )]=E[ \left ( X_{1}-\mu \right )]E[ \left ( X_{2}-\mu \right )]$
그런데 비복원추출의 경우 우변이 0이 되지 않습니다. 위 수식은 공분산의 정의와 같습니다.
$E[ \left ( X_{1}-\mu \right )\left ( X_{2}-\mu \right )]=Cov[X_{1},X_{2}]$
비복원 추출에서 공분산은 아래와 같이 유도됩니다. N은 모분산의 크기입니다. (유도 예정)
$E[ \left ( X_{1}-\mu \right )\left ( X_{2}-\mu \right )]=Cov[X_{1},X_{2}]=-\frac{\sigma^2}{N-1}$
표본평균의 분산을 유도하던 식에 대입하면 아래와 같습니다. (n 2)는 조합입니다.
$V[\bar{X}]=\frac{1}{n^2}\left [ n\sigma^2-2\begin{pmatrix}
n\\2
\end{pmatrix}\frac{\sigma^2}{N-1} \right ]$
조합식을 풀어줍시다.
$V[\bar{X}]=\frac{1}{n^2}\left [ n\sigma^2-n(n-1)\frac{\sigma^2}{N-1} \right ]$
n으로 묶어줍시다.
$V[\bar{X}]=\frac{1}{n^2}n\left [ \sigma^2-(n-1)\frac{\sigma^2}{N-1} \right ]$
n을 약분합니다.
$V[\bar{X}]=\frac{1}{n}\left [ \sigma^2-(n-1)\frac{\sigma^2}{N-1} \right ]$
시그마 제곱으로 묶고 밖으로 꺼내줍니다.
$V[\bar{X}]=\frac{\sigma^2}{n}\left [ 1-\frac{n-1}{N-1} \right ]$
비복원추출인 경우의 표본평균의 분산이 유도되었습니다. 모집단의 크기 N이 아주 커진다면, 비복원추출일지라도 아래 등식으로 근사시킬 수 있겠네요.
$V[\bar{X}]=\frac{\sigma^2}{n}$
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
정규분포를 따르는 확률변수의 합의 분포 (0) | 2023.01.14 |
---|---|
평균이 좋은 대푯값이 아닌 경우 (0) | 2023.01.12 |
표본의 크기 결정 방법 수식 설명 및 유도 (0) | 2023.01.11 |
민감도, 특이도, 양성예측도, 음성예측도 외우는 법 (0) | 2022.12.27 |
표본평균의 분포는 정말 정규분포가 될 수 있을까 (2) p 값 비교 (0) | 2022.09.16 |
표본평균의 분포는 정말 정규분포가 될 수 있을까 (1) 그래프 비교 (0) | 2022.09.16 |
t검정에서 표준편차가 p값에 주는 영향 (0) | 2022.09.05 |
t검정 대신 상관분석을 쓸 수 있다고? (0) | 2022.08.21 |
댓글