반응형 분류 전체보기649 [손으로 푸는 확률분포] 지수분포 (6) 분산 (6) 분산 지수분포의 분산을 구해봅시다. 지수분포의 분산은 아래와 같이 구할 수 있습니다. 적분변수가 시간이므로 0부터 무한대 사이의 값을 갖습니다. E(T)는 지난 강의에서 구했습니다. 확률변수의 제곱의 평균항만 구하면 됩니다. 적분형태로 표현하면 아래와 같습니다. 지수분포 함수를 대입하면 아래와 같습니다. 부분적분을 적용합시다. 파란 항은 아래와 같이 변형할 수 있습니다. 파란항이 평균과 같으므로 아래와 같이 계산됩니다. 빨간항은 아래와 같이 계산됩니다. 분수형태로 변형합시다. 로피탈 정리를 이용하면 극한값이 0임을 알 수 있습니다. 결과를 V(T)식에 대입합시다. 이항분포의 분산은 아래와 같이 계산됩니다. 2020. 11. 23. [손으로 푸는 확률분포] 지수분포 (5) 평균 (5) 평균 지수분포의 평균을 구해봅시다. 지수분포의 평균은 아래와 같이 구할 수 있습니다. 적분변수가 시간이므로 0부터 무한대 사이의 값을 갖습니다. 지수분포 함수를 대입하면 아래와 같습니다. 부분적분을 적용합니다. 마지막 항도 적분해줍시다. 적분상수가 무한대인 경우는 아래와 같이 극한형태로 표현할 수 있습니다. 파란 부분의 극한은 0으로 수렴한다는 것을 쉽게 알 수 있습니다. 따라서 아래와 같이 정리할 수 있습니다. 빨간 부분의 극한이 문제인데요. 아래와 같이 분수형태로 나타내봅시다. 형태를 간단하게 하기 위해 람다를 분자에 곱하고 나눠줍니다. 빨간 limit 안의 부분은 아래와 같은 극한문제와 같습니다. 이제 아래 극한을 구하면 됩니다. 직관적으로는 0이라는 것을 알 수 있습니다. exponenti.. 2020. 11. 16. 표본의 크기 vs 표본의 개수 표본의 크기와 개수가 헷갈리신다는 분들이 많이 계셔서 이번 글에서 설명을 해보려고 합니다. 한가지 예시로 쉽게 이해할 수 있을 겁니다. 아래와 같은 모집단이 있다고 합시다. 모집단 = {a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z} 크기가 2인 표본 3개를 뽑아봅시다. 표본1 = {a,b} 표본2 = {e,r} 표본3 = {k,w} 표본의 크기는 표본의 원소의 개수입니다. 위 예시에서 각 표본은 2개의 원소를 갖습니다. 따라서 각 표본의 크기는 2입니다. 표본의 개수는, 원소 2개짜리가 한 표본이라고 했을때, 그런 표본의 수입니다. 이 예시로 이해가 안되시면, 다른 예시로 한번 더 설명해보겠습니다. 서울시 사람들의 연봉을 조사하기 위해 조사자 50명을 모집.. 2020. 11. 8. [손으로 푸는 확률분포] 지수분포 (4) 예시 : 카페 대기시간 (4) 예시 : 카페 대기시간 지수분포에는 아래와 같은 예시들이 있습니다. - 전자 제품의 5년간 고장횟수가 평균 1회일 때, 1년 안에 고장날 확률 - 평균 대기시간은 10분인 어느 카페에 갔을 때, 기다리는 시간이 10분~20분 사이일 확률 오늘은 두번째 예시입니다. 먼저 람다(λ) 를 구해야야합니다. 프아송분포에서 람다는 딘위시간동안의 평균 발생횟수였습니다. 첫번째 예시는 평균횟수가 드러나 있지만, 두번째 예시는 그렇지 않습니다. 위 정보를 이용하여 구할 있습니다. 대기시간이 10분이라는 것은 10분에 1명꼴로 주문을 한다고 할 수 있습니다. 10분간 평균 주문 횟수가 1회라는 것입니다. 단위시간을 1분으로 놓으면 평균 주문횟수는 0.1회가 됩니다. 따라서 람다는 0.1 입니다. 이때의 지수분포는 .. 2020. 11. 3. [통계 오류의 이해] 3. 2종오류는 어떻게 계산할까 2종오류를 계산해봅시다. 2종오류는 귀무가설이 거짓임에도 기각하지 않는 것을 의미합니다. 예제를 통해 이해해봅시다. 지난 예제에서 내용이 추가되었습니다. 스마트스토어에 팔기 위해 핸드폰 케이스를 개발했다고 합시다. 공장이 없어서 외주생산을 맡겼습니다. 핸드폰 케이스의 두께는 10mm 인데, 공장에서는 실제 생산 시 평균 10mm이고 표준편차는 0.2mm 라고 했습니다. 표준편차가 0.2정도면 괜찮다고 판단했습니다. 이를 확인하기 위해 50개의 샘플을 받았습니다. 두께를 측정해보니 평균이 10.1mm가 나왔습니다. 얼핏 보기에는 괜찮은 것 같은데, 공장의 주장이 사실인지 거짓인지 통계적으로 판단해보기로 했습니다. 지난 글에서 유의수준을 5%로 하여 통계적으로 판단했고, 공장이 거짓말을 했다는 결론이 났습니.. 2020. 10. 29. [통계 오류의 이해] 2. 1종오류는 어떻게 계산할까 1종오류는 유의수준(significant level)에 따라 정해집니다. 가설검정을 할 때 유의수준을 설정하게 되는데, 유의수준을 정한다는 것은 '1종오류를 얼마까지 감수할 것인가'를 정하는 것입니다. 유의수준이 무엇인지 먼저 알아봅시다. 예를 들어봅시다. 스마트스토어에 팔기 위해 핸드폰 케이스를 개발했다고 합시다. 공장이 없어서 외주생산을 맡겼습니다. 핸드폰 케이스의 두께는 10mm 인데, 공장에서는 실제 생산 시 평균 10mm이고 표준편차는 0.2mm 라고 했습니다. 표준편차가 0.2정도면 괜찮다고 판단했습니다. 이를 확인하기 위해 50개의 샘플을 받았습니다. 두께를 측정해보니 평균이 10.1mm가 나왔습니다. 얼핏 보기에는 괜찮은 것 같은데, 공장의 주장이 사실인지 거짓인지 통계적으로 판단해보기로 .. 2020. 10. 28. [통계 오류의 이해] 1. 1종오류와 2종오류 오류관련한 질문이 많아서 강의를 따로 만들었습니다. 아래 목차로 진행할 예정입니다. 1. 1종오류와 2종오류 2. 1종오류는 어떻게 계산할까 3. 2종오류는 어떻게 계산할까 4. 1종오류와 2종오류의 관계 5. 위키피디아 예제 6. 2종오류는 어디에 쓸까 (검정력) 7. 어느 오류가 더 중요할까 1종오류와 2종오류는 가설검정에서 발생하는 오류입니다. 가설검정은 귀무가설과 대립가설을 정하고, 뽑은 표본평균의 발생확률을 이용하여 귀무가설의 기각여부를 결정하는 방법입니다. 이때 네가지 결과가 나올 수 있습니다. 귀무가설이 참, 기각 O 귀무가설이 참, 기각 X 귀무가설이 거짓, 기각 O 귀무가설이 거짓, 기각 X 표로 나타내면 아래와 같습니다. 귀무가설 참 귀무가설 거짓 기각X 옳은결정 2종오류(β) 기각O .. 2020. 10. 28. [손으로 푸는 확률분포] 지수분포 (3) 예시 : 전자제품 고장확률 (3) 예시 : 전자제품 고장확률 지수분포에는 아래와 같은 예시들이 있습니다. - 전자 제품의 5년간 고장횟수가 평균 1회일 때, 1년 안에 고장날 확률 - 평균 대기시간은 10분인 어느 카페에 갔을 때, 기다리는 시간이 10분~20분 사이일 확률 우리는 위 예제에서 람다(λ) 를 구해야야합니다. 프아송분포에서 람다는 딘위시간동안의 평균 발생횟수였습니다. 위 상황에서 단위시간을 정하고 발생횟수를 구해야 합니다. 이번글에서는 첫번째 예제를 풀어보겠습니다. 단위시간은 우리가 원하는 대로 설정할 수 있습니다. 예를들어 단위시간을 1년으로 정해봅시다. 평균 5년에 1번 고장나는 것이므로, 1년에는 0.2번 고장난다고 할 수 있습니다. 따라서 람다(λ)는 0.2가 됩니다. 이때의 지수분포는 아래와 같습니다. 1년.. 2020. 10. 26. [조건부확률의 이해] Law of iterated expection (조건부 평균의 평균에 관한 법칙) 조건부 평균의 성질 중 아래 성질을 유도해봅시다. E(E(X|Y))=E(X) Law of Iterated Expectations 라고 부릅니다. X와 Y는 확률변수입니다. 두 확률변수가 독립인 경우와 종속인 경우로 나눠서 이해해봅시다. 예시를 통해 이해해하고 일반화합시다. 1) 두 확률변수가 독립 X는 주사위를 던졌을 때 눈의 수를 변수로 하는 확률변수라고 합시다. Y는 동전을 던졌을 때, 앞면을 0, 뒷면을 1로 하는 확률변수라고 합시다. 먼저 E(X|Y) 를 구해봅시다. 하나의 값으로 나오지 않고, 이 평균 자체가 변수입니다. 왜냐하면 Y가 0일 때와 Y가 1일 때로 나눠지기 때문입니다. Y가 0이 나와도, 주사위 눈금에 영향을 주지 않기 때문에 E(X)와 같습니다. E(X|Y=0)=E(X) Y가 1.. 2020. 10. 12. [조건부확률의 이해] 3. 조건부평균 맛보기 제목을 조건부평균 맛보기라고 붙인 이유는 이번 시간에 조건부평균을 유도할 것이 아니기 때문입니다. 조건부평균 유도를 시도하며, 개념을 확장할 필요성에 대해 이야기해볼 것입니다. 시난시간에 배운 첫번째 예제로 갑시다. 사건 X : 주사위를 던져서 3의 눈이 나옴 사건 Y : 주사위를 던져서 홀수의 눈이 나옴 위 예제에서 E(X|Y) 는 어떻게 구할까요?? 5분정도 시도해보시기 바랍니다. 저는 막막했습니다. 조건부확률도 이해했고, 기댓값도 이해했는데 여전히 막막했습니다. 그 이유를 밝혀봅시다. 먼저 E(X)를 이용하여 기댓값이 어떻게 구해지는지 리뷰해봅시다. X는 확률변수이고, 1,2,3을 갖는다고 합시다. 각각의 확률은 1/3로 놓겠습니다. 기대값은 아래와 같이 구합니다. E(X)=1x(1/3)+2x(1/.. 2020. 10. 8. [조건부확률의 이해] 2. 조건부확률이 무엇인가? 조건부확률은 하나의 사건이 이미 발생한 상황에서, 다른 사건이 발생할 확률입니다. 문자를 이용해 표현하면 사건 Y가 발생한 상황에서, 사건 X가 발생할 확률입니다. 수식으로 표현하면 아래와 같습니다. P(X|Y) : Y라는 사건이 발생했을 때, X라는 사건이 발생할 확률 예를들어 봅시다. 1) 주사위 예시 사건 X : 주사위를 던져서 3의 눈이 나옴 사건 Y : 주사위를 던져서 홀수의 눈이 나옴 P(X|Y)는 아래와 같이 정의됩니다. P(X|Y) = 홀수의 눈이 나온 것 까진 아는 상황, 이때 3의 눈이 나올 확률. 홀수의 눈 1,3,5 중에서 3이 나올 확률이므로, 1/3입니다. 사건 X와 Y의 교집합의 원소수를 사건 Y의 원소수로 나눠준 값과 동일합니다. 2) 성별과 직업 예시 방안에 남자 10명, .. 2020. 10. 7. [조건부확률의 이해] 1. 조건부확률, 무엇을 공부할 것인가? 조건부 확률에 대해 공부하는 강의입니다. 주된 내용은 조건부 평균과 관련된 공식을 유도하는 것입니다. 제가 찾은 공식들은 아래와 같습니다. 이외 다른공식이 있다면, 알려주시면 추가하겠습니다. (1) E[a|Y ] = a (2) E[c(X)|X]=c(X) for any function c(X) (2) E[a(X)Y+b(X)|X]=a(X)E(Y|X)+b(X) (3) E(X|Y)=E(X) if X and Y are independent (4) E[E[X|Y ]] = E[X] (5) E(Y|X)=E[E(Y|X,Z)|X] (6) If E(Y|X)=E(Y) , Cov(X,Y)=0 (7) E[aX + bZ|Y ] = aE[X|Y ] + bE[Z|Y ] (8) E[X|Y ] ≥ 0 if X ≥ 0. (9) E[Xg(Y.. 2020. 10. 7. [손으로 푸는 확률분포] 지수분포 (2) 유도 (2) 유도 오늘은 지수분포를 유도해봅시다. 먼저 길냥이 예제를 이용하여 유도 과정을 이해하고, 일반화시키도록 하겠습니다. 길냥이 예제를 가져오겠습니다. 하루동안 길냥이를 만날 평균 횟수가 3회 일 때, 하루 동안 길냥이를 x번 만날 확률은 아래와 같았습니다. 아래 분포는 프아송 분포입니다. 이때, 길냥이를 마주칠 때까지 걸리는 기간이 5일 이하일 확률을 구해봅시다. 지수분포함수를 f(t)라고 하면, 길냥이를 마주칠 때까지 걸리는 기간이 5일 이하일 확률은 아래와 같이 표현할 수 있습니다. 위 값은 두가지 방법으로 구할 수 있습니다. 먼저 첫번째 방법입니다. 아래 확률들을 더하는 것입니다. 1일차에 길냥이 만날 확률 1일차에 길냥이 만나지 않고, 2일차에 만날 확률 1,2일차에 길냥이 만나지 않고, 3일.. 2020. 10. 1. [손으로 푸는 확률분포] 지수분포 (1) 소개 (1) 소개 지수분포는 프아송분포에서 유도된 분포입니다. 아래와 같은 프아송분포가 있다고 합시다. 프아송분포에서 λ 는 단위 시간당 사건의 평균발생횟수였습니다. 프아송분포 강의에서 예로 들었던 길냥이 예제를 가져오겠습니다. 하루동안 길냥이를 만날 평균 횟수가 3회 일 때, 하루 동안 길냥이를 x번 만날 확률이 프아송분포입니다. 이 프아송분포가 성립하는 상황에서 아래 질문이 이어질 수 있습니다. 길냥이를 마주칠 때가지 걸리는 기간이 T일 이하일 확률이 얼마일까? 일반화 시키면 아래와 같은 질문입니다. 단위시간당 사건의 발생 횟수 평균이 λ 일 때, 사건이 처음 발생할 때 까지 걸리는 시간이 T단위시간 이하일 확률이 얼마일까? 그 확률이 아래 면적이 되도록 하는 함수 f(t)가 지수분포입니다. 수식으로 표현.. 2020. 10. 1. 표본추출방법 총정리 표본추출방법 총정리 표본추출 방법은 크게 두가지로 나뉩니다. 확률추출법과 비확률추출법입니다. 확률추출법은 객관적이고 수학적인 방식이고, 비확률추출법은 조사자의 주관이 개입된 방식입니다. 확률추출법에는 아래 7가지가 있습니다. 1. 단순임의추출법 (simple random sampling) - 난수를 발생시켜 표본추출 2. 계통추출법 (systematic sampling) - 간격 k를 정하고, k보다 작은 번호에서 출발함. k간격으로 표본을 추출함. 3. 층화임의추출법 (stratified random sampling) - 모집단을 여러 층(ex. 성별, 나이 등)으로 나눈 뒤, 각 층에 단순임의추출법 적용 - 성별(남,녀)과 나이(10,20,30,40대)로 나눈 경우, 총 2x4=8 개의 층이 생성됨 .. 2020. 9. 29. 확률에 왜 질량과 밀도라는 말이 붙어있나 (확률밀도함수, 확률질량함수) 아래 목차로 설명하겠습니다. 1. 확률밀도함수와 확률질량함수 2. 질량과 밀도 (3,2,1차원) 3. 비교 확률밀도함수(PDF, probability density function)와 확률질량함수(PMF, probability mass function)라는 이름에는 확률과는 거리가 먼 용어들이 붙어있습니다. '질량(mass)'과 '밀도(density)'라는 단어인데요. 물리시간에나 나올 법한 단어들입니다. 아마 대부분의 분들이 "밀도에는 뭔가를 곱해야 질량이 되는거니까. 함수값 그 자체가 확률인 경우를 '질량', 함수값에 뭔가를 곱해서 넓이를 구하는 경우를 '밀도'라고 놓았구나" 라는 애매하지만 모르는 것은 아닌 상태일거라 생각합니다. 질량과 밀도의 관계가, 확률질량함수와 확률밀도함수의 관계로 어떻게 연.. 2020. 9. 27. mean vs average vs expected value (구분 가능?) mean vs average vs expected value (구분 가능?) 1. mean 아마 mean이 무엇이냐고 누군가 물어보면, 전체 합을 개수로 나눈 값이라고 답하실 것입니다. 그런데 mean 에는 세가지가 종류가 있습니다. Arithmetic mean, Geometric mean, Harmonic mean 입니다. 각각 산술평균, 기하평균, 조화평균이라고 부릅니다. 우리가 mean이라고 이야기할 때는 보통 '산술'평균의 의미로 사용합니다. 2. average average는 정의하기가 어려운 개념입니다. 위키피디아에 보면, average는 구어적으로 일련의 숫자들을 대표하는 하나의 숫자라고 되어있습니다. 우리는 average를 무엇으로 알고 있나요? 일련의 숫자들을 다 더한 뒤, 개수로 나눈 .. 2020. 9. 24. IBM에서 제공하는 무료 데이터사이언스 강의 사이트 IBM에서 제공하는 무료 데이터사이언스 강의 사이트 이런저런 검색을 하다가 괜찮은 강의 사이트를 발견하게 되었습니다. cognitiveclass 라는 사이트인데요. 데이터사이언스 관련된 강의들을 제공합니다. 찾아보니 IBM에서 운영하고 있었습니다. 아래 주소로 들어가시면 됩니다. https://cognitiveclass.ai/ 회원가입을 해야 강의들을 이용할 수 있고 모든 강의는 무료입니다. 무료인데 퀄리티가 상당합니다. 상단 탭에 보시면 learning path 와 course 탭이 있습니다. course 가 '과목'에 해당되구요. learning path 는 course 를 묶어서 만든 커리큘럼입니다. course에 먼저 들어가봅시다. 20200921 기준 94개의 course 가 업로드되어 있습니다.. 2020. 9. 21. [분할표와 ROC curve의 이해] 6. ROC curve 그려보기 우리가 풀고 있는 문제는 아래와 같습니다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 진단 기준이 되는 k값 몇으로 해야할까요? k를 바꿔가면서 민감도와 특이도를 구했고, 결과는 아래와 같습니다. k 범위 환자 양성/정상 양성 환자 음성/정상 음성 민감도 특이도 k 2020. 9. 15. [분할표와 ROC curve의 이해] 5. 민감도와 특이도의 trade-off 관계 지난시간에 k값을 바꿔가며 민감도와 특이도를 구했습니다. 민감도도 높고 특이도도 높은 k값을 선정해야하는데요. 민감도와 특이도는 서로 trade-off 관계가 있었습니다. 하나가 높아지면 다른 하나가 낮아집니다. 이런 경우에는 어떤 k값으로 정해야 할까요? 해결 방법은 아래와 같습니다. 민감도와 특이도가 동일하게 중요하다는 가정을 하고 둘의 합을 최대로 만드는 k값을 찾으면 됩니다. 아래 수식에서 response 를 최대로 하는 k값을 구하는 것입니다. sensitivity + specificity = response 또는 어느 한쪽이 더 중요하다고 판단되면, 가중치를 줄 수도 있습니다. 둘의 중요도를 6:4로 설정하였습니다. sensitivity*0.6 + specificity*0.4 = respons.. 2020. 9. 14. [분할표와 ROC curve의 이해] 4. 최적의 진단기준은 어떻게 정할까? 우리는 지금까지 분할표, 민감도, 특이도에 대해서 배웠습니다. 이제 다시 첫시간의 문제로 돌아가서 k를 구하는 방법을 고민해봅시다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 진단 기준이 되는 k값 몇으로 해야할까요? 최적의 k를 구하는 방법은 간단합니다. 먼저 환자와 정상인의 k수치를 크기 순서대로 배열합시다. 3.3(정상) 3.. 2020. 9. 8. [분할표와 ROC curve의 이해] 3. 민감도와 특이도 지난시간에 만든 분할표는 아래와 같습니다. 환자 정상 합계 양성 TP FP TP+FP 음성 FN TN FN+TN 합계 TP+FN FP+TN TP+FP+FN+TN 이 분할표를 이용하여 아래와 같은 다양한 지표들을 계산할 수 있습니다. - Sensitivity(민감도) - Specificity(특이도) - Positive Predictive Value(양성예측도) - Negative Predictive Value(음성예측도) - Positive Likelihood Ratio(양의 가능도비) - Negative Likelihood Ratio(음의 가능도비) - Odds Ratio(오즈비) - Relative Risk(상대위험도) - Accuraycy(정확도) - Prevalence(유병률) - ROC curv.. 2020. 9. 8. [ 분할표와 ROC curve의 이해] 2. 분할표 용어정리 지난시간에 만든 분할표는 아래와 같습니다. 환자 정상 합계 양성 환자를 환자로 진단 정상을 환자로 진단 음성 환자를 정상으로 진단 정상을 정상으로 진단 합계 오늘은 분할표의 용어를 정리해봅시다. 분할표 각 셀의 용어를 일반화시키는 것입니다. 환자를 환자로 진단하는 것을 TP 라고 합니다. True Positive 라는 뜻인데요. 양성으로 진단했고 그것이 참이라는 말입니다. 실제 양성인 사람을 양성으로 진단했다는 뜻입니다. 환자를 정상으로 진단하는 것은 무엇일까요? False Negative 입니다. 음성으로 진단했는데 그것이 거짓인 것입니다. FN 이라고 합니다. 정상인을 정상인으로 진단하는 것은 True Negative 입니다. TN 입니다. 정상인을 환자로 진단하는 것은 False Positive 입.. 2020. 9. 8. [ 분할표와 ROC curve의 이해] 1. 진단키트와 분할표 한가지 실제 문제 상황을 가정하고, 이 문제를 해결하면서 분할표와 ROC curve를 이해해보겠습니다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 병을 판정하는 기준을 k값 몇으로 해야할까요? 우리가 풀어야할 문제입니다. 먼저 아무 k값이나 하나 정해봅시다. 7로 정해보겠습니다. 7이라는 기준으로 진단을 해봅시다. k값이 7보다 .. 2020. 9. 7. 표본의 크기를 계산하는 검정력분석 (G power 소프트웨어) 표본의 크기를 계산하는 검정력분석 (G power 소프트웨어) 검정력분석(power analysis)는 표본의 크기를 결정할 때 주로 사용합니다. 검정력을 이용하여 표본의 크기를 결정하는 것입니다. 검정력은 1-β 입니다. β는 2종오류입니다. 2종오류는 귀무가설이 거짓임에도 귀무가설을 기각시키지 않을 확률입니다. 검정력이 커진다는 것은 2종오류가 작아지는 것을 의미합니다. 검정력 분석은 일정 값 이상의 검정력을 확보할 수 있는 표본의 크기를 구하는 것입니다. 이미 조사가 진행된 후라면, 현재 가지고 있는 자료들의 검정력을 구하는 것을 뜻하기도 합니다. 검정력분석을 해주는 무료 소프트웨어가 있습니다. G power라는 소프트웨어입니다. 독일의 한 대학에서 개발하여 배포한 소프트웨어입니다. 아래 링크에서 .. 2020. 8. 27. 반복측정 분산분석에서의 표본수 선정 반복측정 분산분석에서의 표본수 선정 연구 대상의 표본수를 결정할 때, G Power라는 소프트웨어가 주로 사용됩니다. 독일의 뒤셀도르프 대학에서 개발하여 무료로 배포하였습니다. G Power 소프트웨어를 이용한 반복측정디자인의 표본수 산출에 대한 좋은 논문이 있어 공유합니다. 반복측정자료는 아래와 같은 자료를 말합니다. (논문 내용에서 발췌) 1) 동일한 개체를 대상으로 시간의 진행에 따라 여러번 측정하는 연구 2) 동일한 개체에서 각각 다른 치료를 받게 한 후 측정하는 연구 3) 동일한 개체에서 몸의 다른 부분에서 측정한 연구 4) 각각의 사례군(case)과 대조군(control)에서 개체를 개별적으로 짝짓기한 연구(individual matched study) 중앙대학교 마취통증의학과 강현님이 쓰신 .. 2020. 8. 26. [손으로 푸는 통계 ver1.0] 47. 표본분산의 분포 유도 (12) 감마함수의 등장 지난시간까지 n자유도 카이제곱분포의 짝수형과 홀수형을 더블팩토리얼형태로 유도하고, 팩토리얼 형태로 변형했습니다. 결과는 아래와 같습니다. 짝수형은 팩토리얼 형태로 변형할 수 있었지만, 홀수형은 불가능했습니다. 홀수형의 대괄호안 인수들이 자연수가 아니라 유리수이기 때문입니다. 팩토리얼은 자연수에서만 정의됩니다. 우리는 팩토리얼 개념을 자연수에서 유리수로 확장해야하는 상황입니다. 우리가 알고 있는 팩토리얼의 정의는 아래와 같습니다. 함수 형태로 만들어봅시다. 팩토리얼 함수를 아래와 같이 정의하겠습니다. 왜 f(n)=n! 으로 정의하지 않았냐는 의문이 드는 분도 계실겁니다. n이 자연수이기 때문에 f(n)=n! 으로 정의할 경우 함수값이 1! 부터 시작됩니다. 하지만 팩토리얼은 0! 부터 정의되어 있기 떄문에.. 2020. 8. 26. 통계분석 전에 상자수염그림을 그려봐야 하는 이유 그래프를 그려봐야 하는 이유는 여러가지가 있겠지만, 그래프를 그려봐야하는 중요한 이유중 하나는 '이상치'입니다. 아래 그래프를 봅시다. 이 그래프는 어떤 치수에 대한 측정 결과인데요. 같은 치수라고 보기에는 어려울 만큼 심하게 큰 값들이 존재합니다. 사람의 키로 예를 들면 3m, 5m 와 같은 결과가 포함된 것입니다. 이 값들은 왜 발생한 것일까요? 보통은 사람의 실수로 발생합니다. 이런 실수를 쉽게 걸러낼 수 있는 좋은 도구가 '상자 그림'입니다. 상자 수염그림이라고도 부르고 영어로는 boxplot 이라고 합니다. boxplot 을 그리면 이상치를 한눈에 볼 수 있습니다. 위 그래프에서 동그라미가 이상치입니다. 2020. 8. 25. [손으로 푸는 통계 ver1.0] 46. 표본분산의 분포 유도 (11) 더블 팩토리얼 변형 지난시간까지 n자유도 카이제곱분포를 유도했습니다. n이 짝수인 경우와, 홀수인 경우를 따로 유도했습니다. n이 짝수인 경우 카이제곱분포 n이 홀수인 경우 카이제곱분포 오늘은 더블팩토리얼을 변형할건데요. 짝수형부터 변형해보겠습니다. 편하게 유도하기 위해 계수의 분모만 가져다가 유도하겠습니다. 1) 짝수형 변형 (자유도 n이 짝수) 짝수형 수식에서 계수의 분모는 아래와 같습니다. 더블팩토리얼을 전개합시다. 대괄호 안에 있는 인수 개수가 몇개일까요?? 2부터, 짝수 n까지 곱하면 2/n개 입니다. n에서 하나 앞인 n-2까지 곱한 것이므로, n2−1 개입니다. 몇개의 숫자를 넣어보면 쉽게 알 수 있습니다. n에 4를 넣어봅시다. 2 이므로, 1개입니다. n에 6을 넣어봅시다. 4x2 이므로.. 2020. 8. 16. 모비율의 추정 간단 설명 모비율 추정을 간단히 설명하겠습니다. 이론을 자세히 설명하는 강의는 아니라서 아래 두 내용은 다른 글로 설명하겠습니다. - 표본비율의 분포가 정규분포를 따르는 이유 - 신뢰구간 유도과정 모집단에서 모비율을 p라고 놓겠습니다. 예를들면 모집단이 서울시민이고 모비율은 의사의 비율인 것입니다. 우리는 p를 모른다고 가정하겠습니다. 이 p를 알아내기 위해 표본을 뽑을 것입니다. 크기가 n인 표본을 뽑았습니다. 표본의 의사비율을 p_hat1 이라고 놓겠습니다. 중심극한정리에 의해 표본비율들은 아래 분포를 따릅니다. p_hat1 은 아래 분포 상의 한 점입니다. p_hat~N(p,p(1-p)/n) 정규분포를 가정할 수 있는 조건은 n(p_hat1)≥10 과 n(1-p_hat1)≥10 을 동시에 만족하는 것입니다. .. 2020. 8. 4. 이전 1 ··· 13 14 15 16 17 18 19 ··· 22 다음 반응형