본문 바로가기
@ 통계 교양/통계 Tips

음이항분포의 정의는 왜 여러가지일까? (+파스칼분포)

by bigpicture 2020. 6. 10.
반응형

음이항분포의 정의는 왜 여러가지일까?

구독자 한 분이 이런 질문을 주셨습니다. 배웠던 음이항 분포의 정의가 제 설명과 다르고, 둘을 어떻게 연결해야할지 궁금하다는 것이었습니다. 배우는 과목에서는 파스칼분포라고 불린다고 하셨습니다. 랜덤프로세스 얘기도 하신걸 보니 통신을 공부하시는 것 같습니다. 전기전자공학과에서 배우는 통신시스템(통신공학) 이라는 과목에 랜덤프로세스가 등장합니다. 

 

제 설명과 구독자분이 배운 음이항분포가 다른 이유는 음이항 분포의 정의가 여러가지이기 때문입니다. 무려 6종의 정의가 가능합니다. 

 

음이항 분포는 베르누이시행을 n번 반복하는 상황에서 정의됩니다. 베르누이시행을 n번 했을 때, 성공 횟수를 k 실패횟수를 r이라고 놓겠습니다. 이때 아래 등식이 성립합니다.

 

n=r+k

 

하나를 변수로, 하나를 상수로 놓을 경우 아래와 같이 여섯가지 분포를 만들 수가 있습니다. (변수;상수)형태로 놓겠습니다. 

 

① f(n;r) : 실패가 r번 발생할 때까지 전체 발생횟수가 n회일 확률. 

② f(n;k) : 성공이 k번 발생할 때까지 전체 발생횟수가 n회일 확률.

③ f(r;n) : 전체 시행횟수가 n일 때까지, 실패횟수가 r회일 확률.

④ f(k;n) : 전체 시행횟수가 n회이 때까지, 성공이 k회일 확률. 

⑤ f(r;k) : 성공이 k번 발생할 때까지 실패횟수가 r회일 확률.

⑥ f(k;r) : 실패가 r번 발생할 때까지, 성공이 k회일 확률.

 

눈치채신 분들도 있겠지만, 3,4,번은 이항분포입니다. 이항분포와 겹치므로 제외하겠습니다. 아래 네개의 정의가 남습니다. 

 

① f(n;r) : 실패가 r번 발생할 때까지 전체 발생횟수가 n회일 확률. 

② f(n;k) : 성공이 k번 발생할 때까지 전체 발생횟수가 n회일 확률.

⑤ f(r;k) : 성공이 k번 발생할 때까지 실패횟수가 r회일 확률.

⑥ f(k;r) : 실패가 r번 발생할 때까지, 성공이 k회일 확률.

 

1,2번은 같은 분포입니다. r과 k라는 용어의 차이만 있을 뿐 분포의 형태는 같습니다. 5,6번도 마찬가지입니다. 

 

헷갈리실 분들을 위해 이 부분을 더 설명하겠습니다. 아래 두 분포를 봅시다.

 

성공이 k번 발생할 때까지, 실패횟수가 r회일 확률(k가 변수)

실패가 r번 발생할 때까지, 성공횟수가 k회일 확률(r이 변수)

 

분포함수를 만들어보면, 변수의 기호만 다르지 분포함수 형태가 동일합니다. 같은 분포라는 것입니다. 

 

따라서 음이항분포는 아래 두가지 형태로 나뉩니다. 

 

1) 성공이 k번 발생할 때까지, 전체 발생횟수가 n회일 확률 (n이 변수)

2) 성공이 k번 발생할 때까지, 실패횟수가 r회일 확률 (r이 변수)

 

전체 발생횟수를 변수로 놓느냐, 성공횟수를 변수로 놓느냐의 차이입니다. 

 

첫번째 정의가 구독자분께서 배우신 '파스칼 분포'이구요. 두번째 정의가 제가 '손으로 푸는 확률분포'에서 설명했던 정의에서 성공과 실패의 위치를 바꾼 것입니다. 비교를 쉽게 하기 위해 상수를 성공횟수로 통일했습니다. 

 

결과부터 말씀드리면, 위 두 정의는 서로 x축 방향으로 평행이동한 관계입니다. 먼저 직관적으로 설명드리고, 수식으로도 설명드리겠습니다.

 

위 두 정의를 이용한 한가지 사례를 봅시다.

 

1) 성공이 3번 발생할 때까지, 전체 발생횟수가 5회일 확률

2) 성공이 3번 발생할 때까지, 실패횟수가 2회일 확률

 

1번의 사례를 보시면, 성공이 3번 발생할 때까지 전체 발생횟수가 5회이려면 실패는 몇회여야 할까요? 2회여야 합니다. 따라서 위 두 결과가 같습니다. 첫번째 정의의 분포함수를 f1(x)라고 놓고, 두번째 정의의 분포함수를 f2(x)라고 놓는다면 아래 등식이 성립하는 것입니다.

 

f1(5)=f2(2)

 

일반회 시키면 아래와 같습니다. 

 

f1(x+k)=f2(x)

 

수식으로도 이해해봅시다. 두 정의의 분포함수는 아래와 같습니다. 

 

 

 

 

조합의 성질 nCr=nCn-r 을 이용하면, 첫번째 수식은 아래와 같이 변형할 수 있습니다. 

 

 

n=k+r 이므로 n 자리에 k+r 를 넣어봅시다. 

 

 

수식이 동일해졌습니다. 따라서 아래 등식이 성립합니다. 

 
 

이번에는 평균과 분산을 비교해봅시다. 두번째 정의에서의 평균은 아래와 같습니다. 

 

 

 

첫번째 정의에서는 그래프 개형은 동일하고, 위치만 k만큼 x축 방향으로 이동한 것이므로 평균에 k를 더해주면 됩니다. 

 

 

 

분산은 동일합니다. 

 

 

반응형

댓글