본문 바로가기
반응형

@ 필수과목/손으로 푸는 확률분포55

[손으로 푸는 확률분포] 푸아송분포 (5) 분산 (5) 분산 푸아송 분포의 분산을 구해봅시다. 푸아송 분포함수는 아래와 같습니다. 푸아송분포의 분산은 아래와 같이 구합니다. x가 1부터 시작해도 결과가 같습니다. x를 약분합니다. 아래와 같이 변형합니다. 람다를 꺼냈습니다. x-1을 n으로 치환합니다. 전개합니다. 빨간 부분은 푸아송분포의 평균입니다. 파랑부분은 푸아송분포함수값의 총 합이므로 1입니다. 계산하면 아래와 같습니다. 2019. 12. 1.
[손으로 푸는 확률분포] 푸아송분포 (4) 평균 (4-1) 통계량 - 평균 푸아송분포는 λ 라고 가정하고 유도한 분포이므로, 평균은 당연히 λ 겠지만 확률분포의 평균을 구하는 수식으로도 구해보겠습니다. 푸아송분포 평균을 구할 때 테일러급수가 사용되므로, 먼저 테일러급수를 알아봅시다. f(x)의 테일러급수는 아래와 같습니다. a가 0일 때는 매클로린 급수라고 합니다. 이번에는 e^x의 매클로린 급수를 구해봅시다. x 자리에 λ를 대입합시다. 위 식을 증명에 사용할 것입니다. 1번식이라고 하겠습니다. 이제 푸아송 분포의 평균을 구해봅시다. 푸아송 분포함수는 아래와 같습니다. 푸아송분포의 평균은 아래와 같이 구합니다. x에 0을 넣으면 전체 항이 0이 되므로, x를 1부터 시작해도 됩니다. 아래와 같이 변형합니다. x-1을 n으로 치환하겠습니다. 빨간 식을.. 2019. 11. 29.
[손으로 푸는 확률분포] 푸아송분포 (3) 예시 (3) 예시 아래와 같은 푸아송 분포를 유도했습니다. 예시를 통해 위 식을 어떻게 사용하는지 알아봅시다. 증명에도 사용했던 길냥이 예시로 가봅시다. 하루동안 돌다니며 길냥이를 마주치는 평균 횟수가 3회라고 합시다. 오늘 하루 동안 길냥이를 1번 마주칠 확률은 얼마일까요? 위 경우는 람다가 3인 푸아송분포가 됩니다. 길냥이를 한번 마주칠 확률은 x에 1을 넣어서 구하면 됩니다. 2019. 11. 26.
[손으로 푸는 확률분포] 푸아송분포 (2-3) 두 증명 결과가 같은 이유 (2-3) 두 증명 결과가 같은 이유 두가지 방법으로 푸아송분포를 유도했습니다. 이항분포를 이용하여 유도한 결과는 아래와 같습니다. 미분방정식을 세워서 유도한 결과는 아래와 같습니다. λ 와 ks를 비교할겁니다. 의미가 같다는 것을 보이겠습니다. λ는 이항분포 B(n,p)의 평균입니다. 어떤 시간 동안의 시행횟수를 n, 사건 발생확률을 p라고 놓았을 때의 평균입니다. 이번에는 ks를 봅시다. s는 어떤 단위 시간을 의미합니다. 길냥이 예제에서는 '하루'라는 시간입니다. 시간 s 안에 Δt 라는 '사건이 최대 1번 일어나는 짧은 시간'을 잡은 것입니다. Δt 동안 사건이 1번 발생할 확률을 아래와 같이 정의했었습니다. 위 식을 k에 대해 정리하면 아래와 같습니다. 양변에 s를 곱합시다. 전체시간 s를 사건.. 2019. 11. 15.
[손으로 푸는 확률분포] 푸아송분포 (2-2) 미분방정식으로 유도 ② 유도 (2-2) 미분방정식으로 유도 ② 유도 지난시간에 세개의 식을 유도했습니다. 본격적으로 푸아송분포를 유도합시다. 길냥이 예제를 이어서 사용하겠습니다. 아래와 같은 확률을 정의해봅시다. 이 확률은 t+Δt 라는 시간동안 길냥이를 x번 만날 확률입니다. 이 확률은 아래와 같이 다른 두 확률의 곱으로 표현할 수 있습니다. t+Δt 라는 시간동안 길냥이를 x번 만날 확률은 t라는 시간동안 x번 만나고 이후 Δt라는 시간동안 0번 만날 확률과 t라는 시간동안 x-1번 만나고 이후 Δt라는 시간동안 1번 만날 확률의 합과 같습니다. 1,2번식(맨 위 빨간식)을 대입하여 정리합시다. 전개하겠습니다. 이항하여 아래와 같이 정리합시다. Δt로 양변을 나눠줍시다. Δt를 0으로 보내면 아래와 같은 미분방정식이 됩니다. 이.. 2019. 11. 7.
[손으로 푸는 확률분포] 푸아송분포 (2-2) 미분방정식으로 유도 ① 준비 (2-2) 미분방정식으로 유도 ① 준비 지난시간에는 이산확률분포를 이용하여 포아송분포를 유도했는데요. 이번에는 미분방정식을 세워서 포아송분포를 유도해보겠습니다. 푸아송분포 첫번째 시간에 소개한 예시를 떠올려봅시다. 24시간 동안 길냥이를 만날 확률분포를 포아송분포의 예로 들었습니다. 길냥이를 만나는 사건이 최대 1번 일어날 수 있을 만큼 작은 시간을 Δt 라고 놓읍시다. Δt 라는 시간 동안 길냥이를 만날 사건이 1번 일어날 확률을 아래와 같이 놓겠습니다. 이 확률은 Δt에 비례할 것입니다. Δt가 길 수록 길냥이를 만날 확률이 높아질 것이기 때문입니다. 따라서 아래와 같이 놓을 수 있습니다. 비례상수를 k라고 합시다. 이때, Δt 동안 길냥이를 만나지 않을 확률은 아래와 같습니다. 전체확률이 1이므로 .. 2019. 11. 5.
[손으로 푸는 확률분포] 푸아송분포 (2-1) 이항분포로 부터 유도 (2-1) 이항분포로 부터 유도 이항분포 함수는 아래와 같습니다. 푸아송분포는 n과 p를 각각 다루지 않고, 이항분포의 평균인 np를 다룹니다. 이 값을 λ(람다)라고 놓습니다. 아래와 같이 변형합시다. 이항분포 수식의 p 자리에 위 식을 넣겠습니다. 조합 식을 팩토리얼로 전개합시다. 위 식의 빨간항을 아래와 같이 나눠서 써줍시다. 팩토리얼 식을 아래와 같이 풀어 써줍니다. 파란 부분끼리 약분해줍니다. x팩토리얼과, n의 x승의 자리를 바꿔줍니다. 위 식의 파란 부분을 아래와 같이 변형합시다 . 이번에는 아래 식을 봅시다. 몇개의 인수가 곱해져있는 걸가요? n!를 (n-x)!로 나눈 것인데, n!의 인수는 n개 입니다. (n-x)!의 인수는 (n-x)개입니다. n개 에서 (n-x)개를 약분하면, x개가 .. 2019. 10. 28.
[손으로 푸는 확률분포] 푸아송분포 (1) 소개 (1) 소개 푸아송 분포에 붙은 '푸아송'은 사람의 이름입니다. 시메옹 푸아송의 이름을 따서 만들었습니다. 시메옹 푸아송이 발견했기 때문입니다. 시메옹 푸아송은 1791년 프랑스에서 태어났습니다. 그의 직업은 공학자, 수학자, 물리학자였습니다. 기계나 재료를 전공한 분들이라면 반드시 들어보았을 푸아송비(poisson's ratio)도 이분이 만들었습니다. 에펠탑에 이름이 새겨진 72명의 과학자중 한명이라고 합니다. 푸아송분포는 이항분포의 특수한 경우로 생각할 수 있습니다. 이항분포에서 시행횟수가 무수히 많아지고, 발생확률은 아주 작은 경우입니다. 한가지 의문이 듭니다. 그럼 그냥 이항분포로 계산하면 되지, 왜 굳이 푸아송분포가 필요한거야? 이 의문을 해결해봅시다. 거리를 돌아다니다가 길냥이를 본적이 있을.. 2019. 9. 14.
[손으로 푸는 확률분포] 음이항분포 (6) 이름의 유래 (6) 이름의 유래 음이항분포에서 '음'은 양수/음수에서의 '음'입니다. 영어로는 negative 입니다. 왜 이런 이름이 붙었는지 알아봅시다. 이항분포 함수는 아래와 같이 생겼습니다. 앞에 조합형태로 곱해져 있는 값을 '이항계수'라고 부릅니다. 한편 음이항분포 함수는 아래와 같은 모양입니다. 음이항분포의 계수를 변형해보겠습니다. 먼저 펙토리얼 형태로 써봅시다. 분자에서 (r-1)!를 약분하면 아래와 같습니다. 우변 분자의 인수 개수가 x개입니다. 따라서 아래와 같이 변형할 수 있습니다. -1을 x개를 두번 곱해준 것과 같습니다. 결과적으로 1을 곱한 것이라 수식에 변화는 없습니다. 이번에는 양변에 (-r-x)! 을 곱해줍시다. 음수의 팩토리얼이라 직관적으로 완전히 받아들여지지는 않지만, 수식계산을 할 .. 2019. 9. 14.
[손으로 푸는 확률분포] 음이항분포 (5) 그래프 5) 그래프 음이항분포는 r번의 실패(사건 미발생)가 나오기까지 성공(사건발생)이 x번 발생할 확률분포입니다. 음이항분포의 분포함수, 평균, 분산은 아래와 같습니다. r이 커질수록 평균과 분산은 커집니다. p가 커질 수록 평균과 분산이 커집니다. r이 커질 수록 평균이 커진다는 것은 r이 커질 수록 성공횟수 x가 높은 값에서 발생할 확률이 높아진다는 말입니다. 예를 들어서 r이 1이고 x가 10이라고 해봅시다. 이때는 성공이 10번 연속 발생하고, 마지막에 실패가 1번 발생해야 하는데 이 확률은 정말 작습니다. r이 10이고 x가 10이라면 확률이 더 높아질 것입니다. 또 반대로 r이 10인데 x가 1인 경우에도 확률이 희박해집니다. 물론 p의 영향을 받겠지만, r이 커지면 r이 작을때에 비해서 큰 값의.. 2019. 7. 19.
[손으로 푸는 확률분포] 음이항분포 (4-2) 분산 4-2) 통계량 - 분산 분산은 아래 수식을 이용하여 구할 수 있습니다. 평균은 이전 강의에서 계산한 결과를 넣어줍시다. 우리가 모르는 값은 평균의 제곱이기 때문에, 따로 떼어서 계산하겠습니다. p(x)에 음이항분포식을 적용해봅시다. x가 0일때는 값이 0이므로, x를 1부터 계산해도 됩니다. 이항분포 식을 풀어서 씁시다. x를 약분해줍니다. p하나를 꺼내고, 1-p와 r을 나누고 곱해서 아래와 같이 변형합니다. r+1=s 로, x-1=t 로 치환합니다. t+1을 전개합시다. 위 그림의 빨간부분을 조합식으로 바꿔봅시다. 위 수식의 파란부분은 실패횟수가 s이고, 성공횟수(변수)가 t인 음이항분포의 분포함수입니다. 따라서 왼쪽식은 음이항분포의 평균을 구하는 식이고, 오른쪽 식은 분포함수의 전체 합이므로 1이.. 2019. 7. 5.
[손으로 푸는 확률분포] 음이항분포 (4-1) 평균 4-1) 통계량 - 평균 음이항분포의 평균은 아래와 같이 정의됩니다. x를 1부터로 바꿔도 계산 결과가 동일하므로 바꿔줍니다. 조합을 아래와 같이 풀어서 써봅시다. x를 약분해줍니다. p를 하나 분리해서 시그마 기호 밖으로 꺼내줍니다. r을 분자분모에 곱합니다. 1을 곱하는 것이므로 수식에 영향을 주지 않습니다. x-1을 y로 치환합니다. 조합 기호를 이용하여 표현해줍니다. r을 k-1로 치환합니다. 아래와 같이 변형합니다. 1/(1-p)를 밖으로 꺼냈습니다. 빨간색 부부은 NB(k,p)의 총합입니다. 확률분포의 총 합이므로 값은 1입니다. 따라서 평균은 아래와 같습니다. 2019. 7. 5.
[손으로 푸는 확률분포] 음이항분포 (3) 유도 3) 일반화(유도) 어떤 사건이 발생할 확률을 p라고 합시다. r번의 실패가 나오기까지 발생한 성공이 k번일 확률 p(X=k)의 분포가 음이항분포입니다. p와 r은 사전에 정해지는 값입니다. 변수는 k입니다. 이를 아래와 같이 표현합니다. k는 변수이고, r과 p은 주어진 값이라는 의미입니다. 이제 이런 조건을 따르는 확률분포 p(X=k)를 정의합시다. k가 확률변수 x라는 의미입니다. 총 r번의 실패와 k번의 성공이므로 전체 시행은 r+k번이 됩니다. 아래와 같이 정리합시다. 기호로 나타내면 아래와 같습니다. NB는 Negative binomial distribution(NB)의 약어입니다. 2019. 7. 5.
[손으로 푸는 확률분포] 음이항분포 (2) 예시 2) 예시 어떤 농구선수의 자유투 성공률이 30%라고 해봅시다. 이 농구선수가 3번의 실패가 나오기까지 발생한 성공이 x번인 확률이 음이항분포입니다. x가 0일 때부터 구해봅시다. 성공 없이 실패만 세번 하면 됩니다. x가 1일 때는 어떨까요. 실패를 3번 할 동안 성공이 1번 나오면 됩니다. 마지막에 실패로 끝나는 것이므로 아래와 같은 경우들이 가능합니다. 실패/실패/성공/실패 실패/성공/실패/실패 성공/실패/실패/실패 위와 같은 경우가 발생할 확률을 구해봅시다. 이번에는 x가 2일 때 발생 가능한 경우를 구해봅시다. 실패/실패/성공/성공/실패 실패/성공/실패/성공/실패 .... 경우가 많아서 세기가 귀찮습니다. 규칙을 찾아야 합니다. 마지막에는 실패로 끝나야 하니까. 실패횟수에서 하나를 빼놓습니다. .. 2019. 7. 5.
[손으로 푸는 확률분포] 음이항분포 (1) 소개 1) 소개 (음이항분포는 여러가지로 정의된다!) 이미 배운 기하분포를 떠올려봅시다. 음이항분포는 기하분포의 확장버젼이라고 할 수 있습니다. 더 정확히 말하면 음이항분포의 여러 정의중 하나가, 기하분포의 확장버전입니다. 기하분포의 정의는 아래와 같습니다. 성공확률을 p라고 했을 때, x번째 시행에서 첫번째 성공이 나올 확률 p(x)의 분포 이 정의에서 첫번째를 k번째로 바꾸면 음이항분포가 됩니다. 성공확률을 p라고 했을 때, x번째 시행에서 k번째 성공이 나올 확률 p(x)의 분포. 위 음이항분포를 보면, 사전에 정의되어야할 값이 성공확률 p 말고 k도 있습니다. p와 k이 정해져야 확률분포함수가 정의된다는 말입니다. 음이항분포는 위의 방법 외에 정의하는 방법이 더 있습니다. 또한 위 방법은 일반적으로 사.. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (6) 이름의 유래 6) 기하분포 이름의 유래 문득 이름이 왜 '기하분포'인지 궁금해졌습니다. 자료들을 찾아보니 기하분포는 '기하수열'에서 온 말이라고 합니다. 기하수열은 다시 '기하평균'에서 온 말입니다. 기하평균(geometric mean) → 기하(등비)수열(Geometric sequence) → 기하분포(Geometric distribution) 기하(등비)수열과 기하평균에 기하라는 이름이 붙어있는데요. '기하(geometric)'는 어떤 의미인지 먼저 알아봅시다. 기하는 '선' '곡선' '도형'에 관련된 것을 의미합니다. 기하평균은 도형에서 발견한 평균입니다. 아래와 같은 사각형을 봅시다. 변의 길이가 a와 c인 직사각형이 있습니다. 넓이의 관점에서 이 길이의 평균은 얼마일까요. 넓이가 유지되도록 하는 b를 찾으면.. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (5) 그래프 5) 그래프 기하분포의 분포함수는 아래와 같습니다. 성공확률을 0.1,0.3,0.5,0.7,0.9 놓고 각각의 그래프를 그렸습니다. 성공확률이 높을 수록 감소하는 속도가 빠릅니다. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (4) 분산 4-2) 통계량 - 분산 기하분포의 분산은 아래와 같이 정의됩니다. 시그마를 전개해봅시다. 아래 식을 1번식이라고 하겠습니다. 양변에 (1-p)를 곱합시다. 1식에서 2식을 빼겠습니다. 이제 빨간색 부분을 시그마 형태로 다시 바꿔봅시다. 양변의 p는 약분하구요. 시그마 안쪽의 식을 인수분해합니다. 계산하면 아래와 같습니다. 전개해봅시다. 빨간부분은 평균을 구할때의 식에서 p가 빠진 형태와 동일합니다. 따라서 평균의 결과를 p로 나눠준 값과 동일합니다. 파란부분은 등비수열의 합으로 구할 수 있고, 마지막 항은 0으로 수렴합니다. 계산해봅시다. 이제 아래 식에 결과를 넣어봅시다. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (3~4) 유도, 평균 3) 일반화(유도) 어떤 사건이 발생할 확률이 p라고 합시다. 사건이 발생하지 않을 확률은 1-p 입니다. 성공과 실패로 봐도 됩니다. 이때 기하분포는 아래와 같습니다. 확률변수 x는 모든 자연수입니다. 기호로는 아래와 같이 나타냅니다. 4-1) 통계량 - 평균 미적분을 이용해서 유도하는 짧은 방법이 있긴 한데, 더 많은 분들이 이해할 수 있도록 길지만 미적분이 들어가지 않는 방법으로 유도하겠습니다. 기하분포의 평균은 아래와 같이 정의됩니다. 시그마를 전개해봅시다. 확률변수는 모든 자연수이기 때문에 극한이 등장합니다. 아래 식을 1번 식이라고 합시다. $E(X)=\lim_{n\rightarrow \infty}p\left \{ 1+2(1-p)+\cdots +(n-1)(1-p)^{n-2}+n(1-p)^{n-.. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (1~2) 소개, 예시 1) 소개 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 시행한 횟수를 확률변수 x로 할때의 확률분포입니다. 예를들어 확률변수가 4일 때의 확률은 "실패-실패-실패-성공" 인 경우의 확률입니다. 또 다른 정의도 있는데, 처음 성공이 나오기까지 실패한 횟수를 확률변수로 하는 경우도 있습니다. 이때는 확률변수 4의 확률이 "실패-실패-실패-실패-성공"의 확률이 됩니다. 본 글에서는 전자의 정의(성공이 나오기까지 시행한 횟수)를 따르겠습니다. 2) 예시 연애를 시작한 남녀가 결혼할 확률이 5%라고 가정합시다. x번째 사귄 이성과 결혼하게 될 확률분포가 기하분포입니다. 2019. 7. 4.
[손으로 푸는 확률분포] 이항분포 (3~5) 유도, 통계량, 그래프 3) 일반화(유도) 어떤 독립시행에서 특정 사건이 발생할 확률은 p입니다. 이 시행을 n번 했을 때, 사건이 발생한 횟수를 x라고 합시다. 이때의 확률분포가 이항분포이고 아래와 같습니다. 시행횟수가 n, 사건 발생활률이 p인 이항분포를 기호로 아래와 같이 나타냅니다. B는 binomial의 약자입니다. 4-1) 통계량 - 평균 이항분포의 평균은 아래와 같이 정의됩니다. x가 0일때는 값이 0이므로 아래와 같이 시그마의 시작을 1으로 바꿀 수 있습니다. 아래와 같이 변형합시다. p와 n은 시그마에 독립적이므로 아래와 같이 꺼내줄 수 있습니다. x는 약분됩니다. 이제 치환을 하겠습니다. n-1을 m로, x-1을 r로 치환합시다. 이번에는 n-1에서 x-1을 뺍시다. n-x가 나오고, 이 값은 m-r과 같습니.. 2019. 7. 4.
[손으로 푸는 확률분포] 이항분포 (1~2) 소개, 예시 1) 소개 베르누이 시행을 n번 했습니다. 각각의 시행은 독립시행입니다. 각 시행이 독립이라는 것은 베르누이 시행의 조건 중 하나입니다. 따라서 베르누이시행이라고 말하면 독립이라고 따로 언급할 필요는 없습니다. 이 시행에서 사건이 발생할 확률을 p라고 하고, 사건이 발행한 횟수를 확률변수 x로 할 때의 분포가 이항분포입니다. 2) 예시 어떤 농구선수의 자유투 성공률은 80%입니다. 공을 10번 던질 때, 자유투의 성공 횟수와 그 확률을 구해하면 아래와 같습니다. 자유투 성공횟수를 확률변수 x로 놓겠습니다. 예를 들어 자유투가 두번 성공할 확률을 구하면 아래와 같습니다. 2019. 7. 4.
[손으로 푸는 확률분포] 베르누이분포 (3~5) 유도, 통계량, 그래프 3) 일반화(유도) 어떤 시행의 결과가 성공, 혹은 실패라고 합시다. 성공할 확률은 p이고 실패할 확률은 1-p 또는 q입니다. 시행이 성공하면 1, 실패하면 0의 값을 갖습니다. 이때, 베르누이 분포는 아래와 같습니다. 또는 아래와 같이 쓸 수도 있습니다. 4) 통계량(평균,분산) 베르누이분포의 평균은 아래와 같이 계산합니다. 베르누이분포의 분산은 아래와 같이 계산합니다. 5) 그래프 베르누이분포의 그래프는 아래와 같습니다. 2019. 7. 4.
[손으로 푸는 확률분포] 베르누이분포 (1~2) 소개, 예시 1) 소개 베르누이 분포는 시행의 횟수가 1회이고, 시행의 결과가 오직 두 가지인 분포입니다. 시행의 두가지 결과를 보통 '성공' 과 '실패'라고 부릅니다. 시행횟수 : 1회 시행결과 : 성공 or 실패 성공은 1의 값을 실패는 0의 값을 갖습니다. 확률변수가 0과 1인 뿐인 것입니다. 이름만 거창하지 알고 나면 굉장히 단순한 확률분포입니다. 시행의 결과가 오직 두가지 뿐인 시행을 '베르누이 시행'이라고 합니다. 베르누이분포보다 베르누이시행이라는 말을 더 자주보게 될겁니다. 동전을 던지는 시행, 주사위를 던질 때 2가 나오는 시행 등이 베르누이시행입니다. 앞면/뒷면 또는 주사위눈이2/주사위눈이2가아님, 이렇게 두가지 결과만을 갖는 시행이기 때문입니다. 2) 예시 빨간공 7개와 검정공 3개가 들어있는 주머.. 2019. 5. 8.
[손으로 푸는 확률분포] 확률분포의 종류 (연속확률분포, 이산확률분포) 통계학에서 사용되는 다양한 확률분포들을 설명하는 강의입니다. 각 확률분포의 간단한 예시, 유도, 통계량 계산, 그래프 등의 내용을 다룰 것입니다. 확률분포는 크게 '이산확률분포'와 '연속확률분포'로 나뉩니다. 이산확률분포는 확률변수의 개수를 셀 수 있는 경우를 말합니다. 개수가 유한개로 한정되지는 않습니다. 자연수는 무한개이지만 이산확률변수에 속합니다. 순서대로 셀 수 있기 때문입니다. 연속확률분포는 확률변수가 셀 수 없는 경우의 분포를 말합니다. 이산확률분포 : 확률변수 개수를 셀 수 있음 연속확류분포 : 확률변수 개수를 셀 수 없음 1. 이산확률분포 종류 강의에서 다룰 이산확률분포는 아래와 같습니다. - 베르누이분포 - 이항분포 - 기하분포 - 음이항분포 - 포아송분포 - 초기하분포 - 다항분포 2... 2018. 12. 24.
반응형