본문 바로가기
반응형

통계213

[통계 오류의 이해] 1. 1종오류와 2종오류 오류관련한 질문이 많아서 강의를 따로 만들었습니다. 아래 목차로 진행할 예정입니다. 1. 1종오류와 2종오류 2. 1종오류는 어떻게 계산할까 3. 2종오류는 어떻게 계산할까 4. 1종오류와 2종오류의 관계 5. 위키피디아 예제 6. 2종오류는 어디에 쓸까 (검정력) 7. 어느 오류가 더 중요할까 1종오류와 2종오류는 가설검정에서 발생하는 오류입니다. 가설검정은 귀무가설과 대립가설을 정하고, 뽑은 표본평균의 발생확률을 이용하여 귀무가설의 기각여부를 결정하는 방법입니다. 이때 네가지 결과가 나올 수 있습니다. 귀무가설이 참, 기각 O 귀무가설이 참, 기각 X 귀무가설이 거짓, 기각 O 귀무가설이 거짓, 기각 X 표로 나타내면 아래와 같습니다. 귀무가설 참 귀무가설 거짓 기각X 옳은결정 2종오류(β) 기각O .. 2020. 10. 28.
[손으로 푸는 확률분포] 지수분포 (3) 예시 : 전자제품 고장확률 (3) 예시 : 전자제품 고장확률 지수분포에는 아래와 같은 예시들이 있습니다. - 전자 제품의 5년간 고장횟수가 평균 1회일 때, 1년 안에 고장날 확률 - 평균 대기시간은 10분인 어느 카페에 갔을 때, 기다리는 시간이 10분~20분 사이일 확률 우리는 위 예제에서 람다(λ) 를 구해야야합니다. 프아송분포에서 람다는 딘위시간동안의 평균 발생횟수였습니다. 위 상황에서 단위시간을 정하고 발생횟수를 구해야 합니다. 이번글에서는 첫번째 예제를 풀어보겠습니다. 단위시간은 우리가 원하는 대로 설정할 수 있습니다. 예를들어 단위시간을 1년으로 정해봅시다. 평균 5년에 1번 고장나는 것이므로, 1년에는 0.2번 고장난다고 할 수 있습니다. 따라서 람다(λ)는 0.2가 됩니다. 이때의 지수분포는 아래와 같습니다. 1년.. 2020. 10. 26.
[조건부확률의 이해] Law of iterated expection (조건부 평균의 평균에 관한 법칙) 조건부 평균의 성질 중 아래 성질을 유도해봅시다. E(E(X|Y))=E(X) Law of Iterated Expectations 라고 부릅니다. X와 Y는 확률변수입니다. 두 확률변수가 독립인 경우와 종속인 경우로 나눠서 이해해봅시다. 예시를 통해 이해해하고 일반화합시다. 1) 두 확률변수가 독립 X는 주사위를 던졌을 때 눈의 수를 변수로 하는 확률변수라고 합시다. Y는 동전을 던졌을 때, 앞면을 0, 뒷면을 1로 하는 확률변수라고 합시다. 먼저 E(X|Y) 를 구해봅시다. 하나의 값으로 나오지 않고, 이 평균 자체가 변수입니다. 왜냐하면 Y가 0일 때와 Y가 1일 때로 나눠지기 때문입니다. Y가 0이 나와도, 주사위 눈금에 영향을 주지 않기 때문에 E(X)와 같습니다. E(X|Y=0)=E(X) Y가 1.. 2020. 10. 12.
[조건부확률의 이해] 1. 조건부확률, 무엇을 공부할 것인가? 조건부 확률에 대해 공부하는 강의입니다. 주된 내용은 조건부 평균과 관련된 공식을 유도하는 것입니다. 제가 찾은 공식들은 아래와 같습니다. 이외 다른공식이 있다면, 알려주시면 추가하겠습니다. (1) E[a|Y ] = a (2) E[c(X)|X]=c(X) for any function c(X) (2) E[a(X)Y+b(X)|X]=a(X)E(Y|X)+b(X) (3) E(X|Y)=E(X) if X and Y are independent (4) E[E[X|Y ]] = E[X] (5) E(Y|X)=E[E(Y|X,Z)|X] (6) If E(Y|X)=E(Y) , Cov(X,Y)=0 (7) E[aX + bZ|Y ] = aE[X|Y ] + bE[Z|Y ] (8) E[X|Y ] ≥ 0 if X ≥ 0. (9) E[Xg(Y.. 2020. 10. 7.
mean vs average vs expected value (구분 가능?) mean vs average vs expected value (구분 가능?) 1. mean 아마 mean이 무엇이냐고 누군가 물어보면, 전체 합을 개수로 나눈 값이라고 답하실 것입니다. 그런데 mean 에는 세가지가 종류가 있습니다. Arithmetic mean, Geometric mean, Harmonic mean 입니다. 각각 산술평균, 기하평균, 조화평균이라고 부릅니다. 우리가 mean이라고 이야기할 때는 보통 '산술'평균의 의미로 사용합니다. 2. average average는 정의하기가 어려운 개념입니다. 위키피디아에 보면, average는 구어적으로 일련의 숫자들을 대표하는 하나의 숫자라고 되어있습니다. 우리는 average를 무엇으로 알고 있나요? 일련의 숫자들을 다 더한 뒤, 개수로 나눈 .. 2020. 9. 24.
[손으로 푸는 통계 ver1.0] 47. 표본분산의 분포 유도 (12) 감마함수의 등장 지난시간까지 n자유도 카이제곱분포의 짝수형과 홀수형을 더블팩토리얼형태로 유도하고, 팩토리얼 형태로 변형했습니다. 결과는 아래와 같습니다. 짝수형은 팩토리얼 형태로 변형할 수 있었지만, 홀수형은 불가능했습니다. 홀수형의 대괄호안 인수들이 자연수가 아니라 유리수이기 때문입니다. 팩토리얼은 자연수에서만 정의됩니다. 우리는 팩토리얼 개념을 자연수에서 유리수로 확장해야하는 상황입니다. 우리가 알고 있는 팩토리얼의 정의는 아래와 같습니다. 함수 형태로 만들어봅시다. 팩토리얼 함수를 아래와 같이 정의하겠습니다. 왜 f(n)=n! 으로 정의하지 않았냐는 의문이 드는 분도 계실겁니다. n이 자연수이기 때문에 f(n)=n! 으로 정의할 경우 함수값이 1! 부터 시작됩니다. 하지만 팩토리얼은 0! 부터 정의되어 있기 떄문에.. 2020. 8. 26.
통계분석 전에 상자수염그림을 그려봐야 하는 이유 그래프를 그려봐야 하는 이유는 여러가지가 있겠지만, 그래프를 그려봐야하는 중요한 이유중 하나는 '이상치'입니다. 아래 그래프를 봅시다. 이 그래프는 어떤 치수에 대한 측정 결과인데요. 같은 치수라고 보기에는 어려울 만큼 심하게 큰 값들이 존재합니다. 사람의 키로 예를 들면 3m, 5m 와 같은 결과가 포함된 것입니다. 이 값들은 왜 발생한 것일까요? 보통은 사람의 실수로 발생합니다. 이런 실수를 쉽게 걸러낼 수 있는 좋은 도구가 '상자 그림'입니다. 상자 수염그림이라고도 부르고 영어로는 boxplot 이라고 합니다. boxplot 을 그리면 이상치를 한눈에 볼 수 있습니다. 위 그래프에서 동그라미가 이상치입니다. 2020. 8. 25.
[손으로 푸는 통계 ver1.0] 46. 표본분산의 분포 유도 (11) 더블 팩토리얼 변형 지난시간까지 n자유도 카이제곱분포를 유도했습니다. n이 짝수인 경우와, 홀수인 경우를 따로 유도했습니다. n이 짝수인 경우 카이제곱분포 n이 홀수인 경우 카이제곱분포 오늘은 더블팩토리얼을 변형할건데요. 짝수형부터 변형해보겠습니다. 편하게 유도하기 위해 계수의 분모만 가져다가 유도하겠습니다. 1) 짝수형 변형 (자유도 n이 짝수) 짝수형 수식에서 계수의 분모는 아래와 같습니다. 더블팩토리얼을 전개합시다. 대괄호 안에 있는 인수 개수가 몇개일까요?? 2부터, 짝수 n까지 곱하면 2/n개 입니다. n에서 하나 앞인 n-2까지 곱한 것이므로, $\frac{n}{2}-1$ 개입니다. 몇개의 숫자를 넣어보면 쉽게 알 수 있습니다. n에 4를 넣어봅시다. 2 이므로, 1개입니다. n에 6을 넣어봅시다. 4x2 이므로.. 2020. 8. 16.
모비율의 추정 간단 설명 모비율 추정을 간단히 설명하겠습니다. 이론을 자세히 설명하는 강의는 아니라서 아래 두 내용은 다른 글로 설명하겠습니다. - 표본비율의 분포가 정규분포를 따르는 이유 - 신뢰구간 유도과정 모집단에서 모비율을 p라고 놓겠습니다. 예를들면 모집단이 서울시민이고 모비율은 의사의 비율인 것입니다. 우리는 p를 모른다고 가정하겠습니다. 이 p를 알아내기 위해 표본을 뽑을 것입니다. 크기가 n인 표본을 뽑았습니다. 표본의 의사비율을 p_hat1 이라고 놓겠습니다. 중심극한정리에 의해 표본비율들은 아래 분포를 따릅니다. p_hat1 은 아래 분포 상의 한 점입니다. p_hat~N(p,p(1-p)/n) 정규분포를 가정할 수 있는 조건은 n(p_hat1)≥10 과 n(1-p_hat1)≥10 을 동시에 만족하는 것입니다. .. 2020. 8. 4.
상한가와 하한가가 한 번씩 발생하면 이득일까 손해일까? 상한가와 하한가가 한 번씩 발생하면 이득일까 손해일까? 100원짜리 주식 한 주가 있습니다. 이 주식에 상한가와 하한가가 한번씩 발생한다는 것을 수식으로 표현하면 아래와 같습니다. 상한가는 주식가격이 30% 상승하는 것이고, 하한가는 주식 가격이 30% 하락하는 것입니다. 100x(1.3)x(0.7) 곱셈이기 때문에 순서는 상관없습니다. 오늘 상한가가 발생하고 내일 하한가가 발생하는 것과, 오늘 하한가가 발생하고 내일 상한가가 발생하는 것의 결과는 같습니다. 계산결과는 아래와 같습니다. 1x(1.3)x(0.7)=91 9% 하락입니다. 상한가와 하한가의 무게는 같지 않습니다. 하한가가 더 치명적입니다. 상한가가 10번, 하한가를 10번 발생하면 어떻게 될까요? 100*(1.3)^10*(0.7)^10 = 3.. 2020. 7. 25.
상관분석은 언제쓰는걸까 4. 상관분석은 언제쓰는걸까 우리는 a지난 세 강에 걸쳐서 아래 세가지 통게분석방법을 언제 사용하는지 알아보았습니다. '독립표본 t검정' '카이제곱 검정' '분산분석' 오늘은 상관분석을 언제 사용하는지 알아봅시다. 상관분석은 두 변수 사이에 상관관계를 알아볼 때 사용합니다. 더 정학히 말하면 '선형' 관계만을 확인할 수 있습니다. 상관분석을 하면 '상관계수'와 'p 값' 이 구해집니다. 상관계수 값이 1에 가까울 수록 두 변수의 관계는 직선에 가까워집니다. 두 변수로 산점도를 그렸을 때, 점이 완벽히 직선을 이루는 경우의 상관계수가 1입니다. p값은 상관계수가 0인지 아닌지 유의성을 판단합니다. 관계가 있다 혹은 없다를 판단하는 것이고, 관계의 강도는 상관계수로 판단합니다. 상관계수가 1에 가까울 수록 .. 2020. 7. 23.
분산분석은 언제쓰는걸까 3. 분산분석은 언제쓰는걸까 우리는 지난 두 강에 걸쳐서 '독립표본 t검정' 과 '카이제곱 검정'을 언제 사용하는지 알아보았습니다. 분산분석, 상관분석, 회귀분석, 비모수검정을 언제 하는지 정도만 더 알아본 뒤에 일반화 시키도록 하겠습니다. 오늘은 분산분석을 언제 하는지 알아봅시다. 더 정확히 말하면 일원분산분석입니다. 분산분석의 세분화에 관하여는 이후 글에서 설명하겠습니다. 분산분석은 세 집단 이상의 평균을 비교하는데 사용합니다. 예를들면 A반, B반, C반의 수학성적의 평균을 비교할 때 사용할 수 있습니다. 분산분석을 t검정의 확장판으로 생각하는 경우가 있는데, 분산분석은 t검정과는 원리가 다릅니다. 오히려 분산분석 이후에 하는 '사후분석'이 t검정의 확장판입니다. 분산분석은 '집단 간 분산'과 '집.. 2020. 7. 17.
[손으로 푸는 통계 ver1.0] 45. 표본분산의 분포 유도 (10) 카이제곱분포 점화식 풀이 지난시간까지 유도해본 n자유도 카이제곱분포의 분포함수는 아래와 같습니다. 문제는 상수 $C_{n}$ 이었는데요. 규칙이 보이지 않았습니다. 점화식 형태로도 표현한 결과는 아래와 같습니다. ... 이번에는 우리가 유도한 분포함수를 점화식에 대입해보았습니다. 아래와 같이 소거합시다. 적분과 상관없는 항은 밖으로 꺼내겠습니다. 적분합시다. 정리하면 아래와 같습니다. 자유도가 n인 카이제곱분포의 상수 $C_{n}$ 은 아래와 같이 표현됩니다. 우리가 풀 수 있는 형태의 점화식이 되었습니다. 점화식을 풀어보겠습니다. n 이 짝수인 경우와 홀수인 경우로 나뉩니다. 1) n이 홀수인 경우 ... double factorial 이라는 기호가 있습니다. !! 인데요. factorial은 1씩 빼서 곱하는 반면, doub.. 2020. 6. 30.
[손으로 푸는 통계 ver1.0] 44. 표본분산의 분포 유도 (9) 1~5자유도 카이제곱분포에서 규칙찾기, 점화식 세우기 이제 1,2,3,4,5 자유도 카이제곱 분포를 살펴보면서 규칙을 찾아봅시다. 지수함수와 멱함수에서는 규칙이 보입니다. 지수함수는 같은 형태가 유지되고 있고, 멱함수의 지수부분은 1/2 씩 더해지고 있습니다. 이 규칙이 계속 유지될 것이라는 것도 쉽게 보일 수 있습니다. 예를들어 5자유도 분포를 구할 때, 우리는 2자유도와 3자유도를 결합합니다. 지수항수는 항상 같은 형태로 남겨지고, 멱함수는 2자유도 전의 멱함수가 적분됩니다. 따라서 2자유도 증가할 때마다 차수가 1 증가하는 것이므로, 1자유도 증가시 차수가 1/2 증가하게 됩니다. 따라서 n자유도 카이제곱 분포는 아래와 같은 모양일 것으로 생각됩니다. 확률변수를 X로 놓겠습니다. 문제는 상수 $C_{n}$ 입니다. 규칙이 보이지 않았습니다. 점화식 형.. 2020. 6. 30.
[손으로 푸는 통계 ver1.0] 43. 표본분산의 분포 유도 (8) 3,4,5자유도 카이제곱분포 유도 지난시간까지 유도한 1,2 자유도의 카이제곱분포는 아래와 같습니다. 변수는 X에 아래첨자에 자유도가 추가된 형태로 놓겠습니다. 오늘은 3,4,5 자유도의 카이제곱분포를 유도하고 규칙을 찾아보도록 하겠습니다. 먼저 3자유도 카이제곱분포입니다. 3자유도 카이제곱분포 유도 1,2 자유도 카이제곱분포에 컨볼루션 적분을 적용하면 아래와 같은 수식이 됩니다. 분포함수를 대입하면 아래와 같습니다. 아래와 같이 지수형태의 식을 둘로 분리합시다. $ e^{-\frac{x_{1}}{2}}$ 를 소거합시다. 적분변수와 무관한 항은 밖으로 꺼냅시다. 적분합시다. 계산하면 아래와 같습니다. 4자유도 카이제곱분포 유도 이번에는 4자유도 카이제곱분포를 유도해봅시다. 2자유도 카이제곱분포 함수가 가장 간단하기 때문에 이 함수를 이용.. 2020. 6. 13.
ROC curve 직접 그려보기 ROC 곡선은 x축은 (1-specificity), y축은 sensitivity 인 곡선입니다. Receiver Operating Characteristic 의 약어입니다. 직역하면 수신자조작특성인데 신호탐지이론?에 나오는 용어라 와닿지 않네요. 통계학의 입장에서 '진단(diagnosis)'이라는 관점으로 ROC curve 를 설명드릴 것입니다. 한가지 예시를 통해 자세히 설명드리겠습니다. 체질량지수를 당뇨판정에 사용할 수 있을지 여부를 확인하고 싶습니다. 아래는 환자 10명의 체질량지수와 당뇨판정 여부에 대한 데이터입니다. 사실 10명은 너무 작은 크기이지만, 개념을 이해하는 것이 목적이므로 작게 설정했습니다. (bmi, 진단결과) 로 나타냈습니다. (33.6,Yes) (26.6,No) (28.1,No.. 2020. 6. 6.
세계 500대 부자 자산에도 파레토법칙이 적용될까?? 세계 500대 부자 자산에도 파레토법칙이 적용될까?? 20:80 법칙이라도고 하는 파레토법칙은 전체의 20%의 원인에 의해 전체의 80%결과가 나타나는 법칙을 말합니다. 상당히 많은 분야에 적용이 가능한 흥미로운 법칙입니다. 예를들면 "20%의 운전자가 80%의 교통위반을 한다" "20%의 범죄자가 80%의 범죄를 저지른다" "운동선수 20%가 상금80%를 받는다" 등이 있습니다. 이 법칙이 500대 부자의 재산에도 적용이 가능한지 궁금해졌습니다. 만약 적용이 가능하다면 500명 중 상위 20%가 전체 재산의 합의 80%를 가지고 있을 것입니다. 세계 500대 부자의 데이터는 블룸버그에서 제공하는 사이트에서 구할 수 있습니다. 블룸버그는 경제전문 뉴스를 제공하는 언론인데요. 세계에서 돈이 가장 많은 50.. 2020. 5. 14.
p값은 왜 ~보다 큰 쪽의 확률을 보고 판단하는 건가요??" p-value를 처음 접하는 분들은 아래 강의를 먼저 보고 오시기 바랍니다. [손으로 푸는 통계] 21. 통계적 가설 검정 감잡기 1 (귀무가설, 대립가설) [손으로 푸는 통계] 22. 통계적 가설 검정 감잡기 2 (1표본 Z검정) [손으로 푸는 통계] 23. 통계적 가설 검정 감잡기 3 (유의수준 α, 유의확률 p-value) 아마 많은 분들이 p-value를 익숙하게 사용하고 계실겁니다. 우리는 p-value를 정말 이해하고 사용하고 있을까요? 한 구독자분께서 주신 질문이 리트머스 시험지가 될 수 있습니다. "왜 보다 큰 쪽의 확률을 보고 판단하는 건가요??" 먼저 이 질문을 설명드리겠습니다. p-value를 구하는 과정을 생각해봅시다. 가장 간단한 1표본 t검정을 하는 상황이고, 단측검정을 할 것입.. 2020. 4. 25.
복원추출과 비복원추출에 대한 오해 복원추출과 비복원추출을 잘못 이해하는 경우가 있어서 그 내용을 다뤄보려고 합니다. 제가 그랬었거든요. 추출 방법에는 복원추출과 비복원추출이 있습니다. 아마 아래와 같은 정의를 보셨을 것입니다. 비복원추출 : 한번 뽑은 표본을 모집단에 다시 넣지 않고 다른 표본을 추출 복원추출 : 한번 뽑은 표본을 모집단에 다시 넣고 다른 표본을 추출 이 정의 때문에 오해가 발생합니다. 아래 네가지 추출방법 중에서 복원추출과 비복원추출을 구분해보면서, 맞게 이해하고 있는지 확인해봅시다. 크기가 3인 표본을 2개 뽑는 상황을 가정하겠습니다. 1) 모집단에서 원소 3개를 한번에 뽑고 표본 1로 놓음. 원소 3개를 다시 모집단에 돌려놓고, 다시 원소 3개를 한번에 뽑아서 표본 2로 놓음. 2) 모집단에서 원소 3개를 한번에 뽑.. 2020. 4. 15.
[손으로 푸는 통계 ver1.0] 34. 1~33강 요약 손으로 푸는 통계는 't검정의 원리'를 이해하는 강의입니다. t검정,분산분석,회귀분석 등 우리가 접하는 통계기법들의 근본 원리는 동일합니다. t검정을 이해하기 위해서는 꽤 많은 선행 내용이 필요했습니다. 33개의 강의를 진행했고, 곧 t검정이 등장합니다. 이번 강의에서는 지금까지 배운 내용을 요약해봅시다. 1. 평균, 편차, 분산, 표준편차 2. 자유도와 불편추정량 (왜 n-1로 나누나요?) 3. 표본평균의 평균이 모평균과 같은 이유 4. 표본분산의 기댓값이 모분산과 같은 이유 5. 표본평균의 분산이 모분산/n 인 이유(고등학생들 꼭 보세요) 6. E(XY)=E(X)E(Y) 의 성립조건과 증명 7. 크기가 1인 표본평균의 평균과 분산이 모집단과 같은 이유 증명 8. 1~7강 요약(세로영상) 9. 중심극한.. 2020. 2. 10.
표본추출에서 '임의화'를 제대로 했다는 착각 표본추출에서 '임의화'를 제대로 했다는 착각 표본을 추출할 때 중요한 것은 '임의화'입니다. 표본추출에 주관적 기호나 경험이 들어갈 경우, 모집단을 잘대표하는 표본이 아니라 한쪽으로 치우친 표본이 뽑힐 것입니다. 이 글에서는 임의화라고 착각할 수 있는 한가지 사례를 소개하려고 합니다. 우리가 신약개발을 하는 연구원이라고 생각해봅시다. 이 약의 효능을 알아보기 위해 동물실험을 진행하려고 합니다. 실험용 쥐를 대상으로 할 것인데요. 실험실에서 키우고 있는 1000마리의 쥐 중에서 50마리를 뽑으려고 합니다. 연구원이 직접 쥐를 보고 뽑게하면, 연구원의 기호가 개입될 수 있다고 판단했습니다. 이런 문제를 해결하기 위해 연구원의 눈을 가리고 쥐를 뽑기로 했습니다. 그렇게 50마리의 쥐를 뽑았고, '임의화'를 잘.. 2020. 2. 8.
통계 분야 논문 수, 한국은 몇위일까? 논문과 관련된 랭킹을 확인할 수 있는 사이트가 있습니다. 어떤 분야의 저널 순위나, 국가별 순위 등을 제공합니다. SJR이라는 사이트입니다. 링크는 아래와 같습니다. https://www.scimagojr.com/ 다양한 순위가 있는데, 오늘 알아볼 순위는 통계 분야의 한국 순위입니다. COUNTRY RANKS의 EXPLORE를 클릭합니다. 아래와 같은 화면이 나옵니다. 논문 숫자순위가 디폴트화면으로 나옵니다. 미국이 1위고, 한국은12위네요. 논문 수가 많다고 반드시 연구를 잘하고 있는 것은 아닙니다. 논문 별로 수준이 다르기 때문입니다. 좋은 저널(impact factor)에 논문이 게재되거나, 같은 이야기이지만 인용이 많이 된 논문이 많은 것이 더 의미가 있습니다. 이번에는 Citations를 클릭.. 2019. 11. 5.
중심극한정리 시뮬레이션해볼 수 있는 사이트 중심극한정리 시뮬레이션해볼 수 있는 사이트 중심극한정리는 모집단이 어떤 분포인지와 상관 없이 '표본의 크기'가 충분히 크다면 표본평균들의 분포가 정규분포를 따른다는 정리입니다. 자세한 설명은 아래 링크를 참조해주세요. 중심극한정리 설명(https://hsm-edu.tistory.com/21) 중심극한정리를 시뮬레이션해볼 수 있는 사이트를 소개해드리려고 합니다. 아래 링크로 들어가시면 됩니다. http://www.ltcconline.net/greenl/java/Statistics/clt/cltsimulation.html 링크로 들어가시면 아래와 같은 화면이 뜹니다. 먼저 모집단의 분포를 선택할 수 있습니다. 분포들의 모양은 아래와 같습니다. 왼쪽 위부터 uniform, Skewed Left, Skewed .. 2019. 8. 25.
[손으로 푸는 확률분포] 음이항분포 (4-2) 분산 4-2) 통계량 - 분산 분산은 아래 수식을 이용하여 구할 수 있습니다. 평균은 이전 강의에서 계산한 결과를 넣어줍시다. 우리가 모르는 값은 평균의 제곱이기 때문에, 따로 떼어서 계산하겠습니다. p(x)에 음이항분포식을 적용해봅시다. x가 0일때는 값이 0이므로, x를 1부터 계산해도 됩니다. 이항분포 식을 풀어서 씁시다. x를 약분해줍니다. p하나를 꺼내고, 1-p와 r을 나누고 곱해서 아래와 같이 변형합니다. r+1=s 로, x-1=t 로 치환합니다. t+1을 전개합시다. 위 그림의 빨간부분을 조합식으로 바꿔봅시다. 위 수식의 파란부분은 실패횟수가 s이고, 성공횟수(변수)가 t인 음이항분포의 분포함수입니다. 따라서 왼쪽식은 음이항분포의 평균을 구하는 식이고, 오른쪽 식은 분포함수의 전체 합이므로 1이.. 2019. 7. 5.
[손으로 푸는 확률분포] 음이항분포 (4-1) 평균 4-1) 통계량 - 평균 음이항분포의 평균은 아래와 같이 정의됩니다. x를 1부터로 바꿔도 계산 결과가 동일하므로 바꿔줍니다. 조합을 아래와 같이 풀어서 써봅시다. x를 약분해줍니다. p를 하나 분리해서 시그마 기호 밖으로 꺼내줍니다. r을 분자분모에 곱합니다. 1을 곱하는 것이므로 수식에 영향을 주지 않습니다. x-1을 y로 치환합니다. 조합 기호를 이용하여 표현해줍니다. r을 k-1로 치환합니다. 아래와 같이 변형합니다. 1/(1-p)를 밖으로 꺼냈습니다. 빨간색 부부은 NB(k,p)의 총합입니다. 확률분포의 총 합이므로 값은 1입니다. 따라서 평균은 아래와 같습니다. 2019. 7. 5.
[손으로 푸는 확률분포] 음이항분포 (1) 소개 1) 소개 (음이항분포는 여러가지로 정의된다!) 이미 배운 기하분포를 떠올려봅시다. 음이항분포는 기하분포의 확장버젼이라고 할 수 있습니다. 더 정확히 말하면 음이항분포의 여러 정의중 하나가, 기하분포의 확장버전입니다. 기하분포의 정의는 아래와 같습니다. 성공확률을 p라고 했을 때, x번째 시행에서 첫번째 성공이 나올 확률 p(x)의 분포 이 정의에서 첫번째를 k번째로 바꾸면 음이항분포가 됩니다. 성공확률을 p라고 했을 때, x번째 시행에서 k번째 성공이 나올 확률 p(x)의 분포. 위 음이항분포를 보면, 사전에 정의되어야할 값이 성공확률 p 말고 k도 있습니다. p와 k이 정해져야 확률분포함수가 정의된다는 말입니다. 음이항분포는 위의 방법 외에 정의하는 방법이 더 있습니다. 또한 위 방법은 일반적으로 사.. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (6) 이름의 유래 6) 기하분포 이름의 유래 문득 이름이 왜 '기하분포'인지 궁금해졌습니다. 자료들을 찾아보니 기하분포는 '기하수열'에서 온 말이라고 합니다. 기하수열은 다시 '기하평균'에서 온 말입니다. 기하평균(geometric mean) → 기하(등비)수열(Geometric sequence) → 기하분포(Geometric distribution) 기하(등비)수열과 기하평균에 기하라는 이름이 붙어있는데요. '기하(geometric)'는 어떤 의미인지 먼저 알아봅시다. 기하는 '선' '곡선' '도형'에 관련된 것을 의미합니다. 기하평균은 도형에서 발견한 평균입니다. 아래와 같은 사각형을 봅시다. 변의 길이가 a와 c인 직사각형이 있습니다. 넓이의 관점에서 이 길이의 평균은 얼마일까요. 넓이가 유지되도록 하는 b를 찾으면.. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (5) 그래프 5) 그래프 기하분포의 분포함수는 아래와 같습니다. 성공확률을 0.1,0.3,0.5,0.7,0.9 놓고 각각의 그래프를 그렸습니다. 성공확률이 높을 수록 감소하는 속도가 빠릅니다. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (4) 분산 4-2) 통계량 - 분산 기하분포의 분산은 아래와 같이 정의됩니다. 시그마를 전개해봅시다. 아래 식을 1번식이라고 하겠습니다. 양변에 (1-p)를 곱합시다. 1식에서 2식을 빼겠습니다. 이제 빨간색 부분을 시그마 형태로 다시 바꿔봅시다. 양변의 p는 약분하구요. 시그마 안쪽의 식을 인수분해합니다. 계산하면 아래와 같습니다. 전개해봅시다. 빨간부분은 평균을 구할때의 식에서 p가 빠진 형태와 동일합니다. 따라서 평균의 결과를 p로 나눠준 값과 동일합니다. 파란부분은 등비수열의 합으로 구할 수 있고, 마지막 항은 0으로 수렴합니다. 계산해봅시다. 이제 아래 식에 결과를 넣어봅시다. 2019. 7. 4.
[손으로 푸는 확률분포] 기하분포 (3~4) 유도, 평균 3) 일반화(유도) 어떤 사건이 발생할 확률이 p라고 합시다. 사건이 발생하지 않을 확률은 1-p 입니다. 성공과 실패로 봐도 됩니다. 이때 기하분포는 아래와 같습니다. 확률변수 x는 모든 자연수입니다. 기호로는 아래와 같이 나타냅니다. 4-1) 통계량 - 평균 미적분을 이용해서 유도하는 짧은 방법이 있긴 한데, 더 많은 분들이 이해할 수 있도록 길지만 미적분이 들어가지 않는 방법으로 유도하겠습니다. 기하분포의 평균은 아래와 같이 정의됩니다. 시그마를 전개해봅시다. 확률변수는 모든 자연수이기 때문에 극한이 등장합니다. 아래 식을 1번 식이라고 합시다. $E(X)=\lim_{n\rightarrow \infty}p\left \{ 1+2(1-p)+\cdots +(n-1)(1-p)^{n-2}+n(1-p)^{n-.. 2019. 7. 4.
반응형