본문 바로가기
@ 통계 교양/통계 Tips

이항분포를 따르는 두 확률변수의 합의 분포

by bigpicture 2020. 4. 17.
반응형

이항분포를 따르는 두 확률변수의 합의 분포

 

이항분포를 따르는 두 확률변수 X와 Y가 있다고 합시다. 

 

각 확률변수가 따르는 이항분포는 아래와 같습니다. 

 

 

 

이때 두 확률변수의 합은 어떤 분포를 따를까요??

 

각 확률분포함수를 아래와 같이 놓겠습니다.

 

 

 

발생확률이 달라지는 경우 두 확률변수의 합의 분포가 달라집니다. 지금은 발생확률이 동일하다고 놓고 진행하고, 발생확률이 다른 경우는 뒤에서 다시 이야기하겠습니다. 

 

 

유도방법은 두가지가 있습니다. 한 방법은 간단하지만 직관적으로는 받아들이기 어려운 방법이고, 다른 하나는 복잡하지만 직관적으로 받아들일 수 있는 방법입니다. 두 방법 모두 알아봅시다. 

 

1) 특성함수 이용

 

먼저 특성함수를 이용하여 유도하겠습니다. 이번 글에서는 특성함수를 바로 적용할 것입니다. 특성함수에 대한 설명이 궁금하신 분들은 다음 링크를 참고해주세요. (https://hsm-edu.tistory.com/882)

 

이항분포의 특성함수는 아래와 같이 정의됩니다. x의 확률분포에 적용해보겠습니다. 

 

 

아래와 같이 변형합시다. 

 

 

이항정리를 이용하면 아래와 같이 완전제곱식으로 변형할 수 있습니다.

 

 

확률변수 Y의 특성함수도 같은 방법으로 구할 수 있습니다. 

 

 

두 확률변수의 합의 특성함수는 아래와 같이 정의됩니다. 

 

 

아래와 같이 전개할 수 있습니다. 

 

 

여기서 한가지 조건을 추가하겠습니다. 두 변수가 '독립'이라는 조건입니다. 독립조건 하에서 아래 등식이 성립합니다. 

 

 

위에서 구한 각 확률변수의 특성함수를 대입합니다. 

 

 

 

한가지 가정을 더 하겠습니다. 두 확률변수의 발생확률이 p로 동일하다는 것입니다. 따라서 아래와 같이 변형됩니다. 

 

 

식을 하나로 합칠 수 있습니다. 

 

 

위 특성함수는 B(m+n,p)를 따르는 확률변수의 특성함수입니다. 그렇다면 X+Y의 분포는 B(m+n,p) 라고 할 수 있을까요? 

 

특성함수는 '역'이 성립합니다. 어떤 함수A의 특성함수가 B이면, 특성함수가 B인 함수는 A가 됩니다. (증명 -> https://hsm-edu.tistory.com/24)

 

따라서 이항분포를 따르는 두 확률변수의 합 X+Y의 분포는 B(m+n,p)인 이항분포가 됩니다. 

 

두 확률변수가 이항분포를 따른다면 두 확률분포의 합은 이항분포를 따릅니다. 단, 아래 두가지 조건을 만족해야 합니다.

 

1) 두 확률분포는 서로 독립

2) 두 확률분포의 발생확률이 같음. 

 

수학적으로 유도했으니 받아들일 수는 있는데 직관적으로 이해가 되지는 않습니다. 이번에는 직관적으로 이해할 수 있는 방법으로 유도해보겠습니다. 

 

2) 

확률분포를 직접 정의

 

이항분포를 따르는 두 확률변수 X와 Y의 합을 새로운 확률변수 Z라고 합시다. 

 

두 확률변수는 독립이라고 가정하고, 발생확률은 p라고 놓겠습니다. 각 시행횟수는 m외와 n회 입니다. 

 

따라서 Z의 시행횟수는 m+n회입니다. 확률변수 Z가 z번 발생할 확률은 아래와 같이 정의할 수 있습니다. 

 

 

수식을 간단히 설명드리겠습니다. 예를 들어 Z가 3인 확률은 어떻게 계산될까요. 아래와 같은 상황이 발생할 확률의 합일 것입니다.

 

X=0 이고 Y=3

X=1 이고 Y=2

X=2 이고 Y=1

X=3 이고 Y=0

 

위와 같은 경우를 일반화하여 수식으로 표현한 것입니다. 

 

 

각 확률변수의 이항분포함수를 이용하여 표현하면 아래와 같이 변형됩니다. 

 

 

아래와 같이 계산이 가능합니다. 

 

 

 

시그마와 상관없는 항은 밖으로 꺼내겠습니다. 

 

 

 

빨간 부분만 떼어놓고 보면 아래 등식이 성립합니다.

 

 

Vandermonde's identity 라고 합니다. 여러 증명방법이 있는데, 조합의 원리를 이용하면 직관적으로 이해가 가능합니다. 상자에 빨간공 5개와 파란공 3개가 있다고 합시다. 이 상자에서 3개의 공을 꺼내는 경우의 수는 5C3입니다. 발생하는 경우는 아래와 같습니다.  

 

 

빨간공3개, 파란공0개

빨간공2개, 파란공1개

빨간공1개, 파란공2개

빨간공0개, 파란공3개

 

 

각 경우의 수를 구하고 합한 값이 8C3일 것입니다. 조합식으로 표현하면 아래와 같습니다. 

 

$\binom{5}{3}\binom{3}{0}+\binom{5}{2}\binom{3}{1}+\binom{5}{1}\binom{3}{2}+\binom{5}{0}\binom{3}{3}=\binom{8}{3}$

 

시그마 식으로 표현하면 아래와 같습니다.

 

$\sum_{k=0}^{3}\binom{5}{3-k}\binom{3}{k}=\binom{8}{3}$

 

이 상황을 일반화한 것입니다. 빨간공이 m개, 파란공이 n개 들어 있는 바구니에서 공을 z개 뽑는다면 아래 등식이 성립합니다. 

 

 

따라서 우리가 위에서 유도하던 식은 아래와 같이 변형됩니다. 

 

 

B(m+n,p) 인 이항분포입니다. 

 

 

3) 결론

 

오늘의 결론입니다. 

 

서로 독립인 두 확률변수 X와 Y가 아래의 분포를 따를 때,

 

X~B(n,p)

Y~B(m,p)

 

X+Y의 분포는 B(n+m,p)를 따른다. 

 

반응형

댓글