본문 바로가기
반응형

분류 전체보기648

[통계 기호의 이해] 3. E[X] 는 함수가 아닙니다 기댓값 기호 E[X]E[X]를 함수로 오해하시는 경우가 있습니다. 먼저 아래 질문에 답해보면서 오해하고 있는건 아닌지 확인해봅시다. Q) 확률변수 X의 확률 밀도함수를 f(x)f(x) 라고 한다면, 확률변수 X의 기댓값은 아래와 같이 계산됩니다. E[X]=xf(x)dxE[X]=xf(x)dx 이때, 확률변수 3X의 기댓값을 아래와 같이 계산하는게 맞나요? E[3X]=3xf(3x)dxE[3X]=3xf(3x)dx 정답은 '틀렸다' 입니다. 위와 같은 계산이 왜 틀렸는지 지금부터 알아봅시다. E[X]E[X] 는 함수가 아니라 'X의 기댓값'을 기호로 나타낸 것입니다. X의 기댓값이라는 말을 매번 쓰기 귀찮으니 E[X]E[X] 로 표현하기로 한 것입니다. X의 기댓값이 구해지는 과정을 .. 2022. 9. 30.
모집단 표본추출 그림 2표본 ppt 2022. 9. 29.
[통계 적률의 이해] 16. 특성함수가 항상 존재하는 이유 적률생성함수가 존재하지 않는 경우에는 특성함수를 사용할 수 있습니다. 특성함수는 모든 확률분포에 대해 존재하기 때문입니다. 오늘은 정말 그러한지를 증명해봅시다. 먼저 특성함수가 존재한다는 의미가 무엇인지 짚고 넘어가겠습니다. 특성함수가 존재한다는 것은 t에 대한 특성함수 값이 유한하다는 의미입니다. 확률변수 X의 확률밀도함수가 f(x) 일 때, 특성함수는 아래와 같이 정의됩니다. φX(t)=E[eitx]=eitXf(x)dxφX(t)=E[eitx]=eitXf(x)dx 양변에 절댓값을 씌워줍시다. |φX(t)|=|eitXf(x)dx||φX(t)|=eitXf(x)dx .. 2022. 9. 23.
[통계 적률의 이해] 15. 특성함수 적률생성함수가 존재하지 않는 확률분포들이 있다는 것을 배웠습니다. 자주 사용되는 t분포도 적률생성함수가 없었습니다. 적률생성함수와 같은 역할을 하면서, 모든 확률분포에서 존재하는 함수가 발견되었습니다. 이 함수가 특성함수입니다. 특성함수는 적률생섬함수의 t 대신 it 를 넣은 함수입니다. 아래와 같이 정의됩니다. 그리스어 phi 를 기호로 사용합니다. φX(t)=E[eitX]=eitxf(x)dxφX(t)=E[eitX]=eitxf(x)dx 여기서 φφ 는 그리스어인데 fi 또는 fie 로 발음합니다. 적률생성함수는 아래와 같이 정의됐었습니다. $M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\i.. 2022. 9. 23.
[통계 기호의 이해] 2. P[X≤x] 형태의 부등식에 익숙해져야 하는 이유 우리는 지난시간에 아래 기호의 의미를 배웠습니다. P[X=x]P[X=x] 이 기호는 확률변수 X가 어떤 값 x일 확률을 나타냅니다. 대문자 X는 확률 변수를 나타내구요. 소문자 x는 발생한 값을 나타냅니다. 그런데 이 표현은 모든 확률변수에 적용될 수 없습니다. 이 표현은 이산확률변수에만 적용 가능한 표현방법입니다. 연속확률변수는 x라는 값이 확률을 갖지 않습니다. 연속확률변수에서 각 값이 발생할 확률은 항상 0입니다. 연속확률변수는 확률 대신 확률 밀도 값을 갖습니다. 확률 밀도 값은 어떤 구간에 대해 적분했을 때 확률이 되는 값입니다. 표준 정규 분포를 예로 들겠습니다. 아래 그림을 봅시다. 표준정규분포 함수입니다. 표준정규분포의 함수값은 확률이 아닌 확률밀도입니다. 이 분포를 따르는 확률변수를 X라고 한다.. 2022. 9. 18.
통계 가설검정 관련 그림들 (표준정규분포) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #임계값 설정(기각역) margin=qnorm(0.95) #축 및 값 추가, pos=c(0,0) 으로 설정해야 축과 그래프 사이 간격 없어짐 axis(1,at=c(-4,0,4), pos=c(0,0), label=c("",0,""),cex.axis=1) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #95% 신뢰구간 z_value1=qnorm(0.025) z_value2=qnorm(0.975) #축 및 값 .. 2022. 9. 17.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (2) p 값 비교 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할지 비교하는 표를 만들었습니다. 모집단이 1:1000인 경우 표본크기가 3이어도 잘 일치합니다. 놀랍네요. 표본 크기보다 오히려 모집단 크기에 영향을 많이 받는 모습입니다. 모집단이 적당히 크기만 하면 표본 크기는 크게 신경을 쓰지 않아도 될만큼 잘 일치합니다. library(dplyr) #1.모집단 설정 #ppltn=c(1,2,3,4,5,6,7,8,9,10) #ppltn=1:1000 #ppltn=rnorm(10) ppltn=rnorm(1000) m=mean(ppltn) s=sd(ppltn) #2. 표본 크기 설정 size=c(3,30,50,100,1000,3000) #3. 비교 p값 설정(우측꼬리기준으로) p=0.05.. 2022. 9. 16.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (1) 그래프 비교 과연 중심극한정리도 실제로 작동할까요? 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할까? 라는 궁금증이 생겼습니다. 이번시간에는 그래프를 그려보며 눈으로 비교하고, 다음 시간에는 p값을 구해서 비교해보겠습니다. 테스트에 사용할 모집단은 아래와 같습니다. ppltn=c(1,2,3,4,5,6,7,8,9,10) 1부터 10까지의 자연수입니다. 정규분포와는 거리가 멉니다. 먼저 크기가 3인 표본을 50000번 추출하여 히스토그램을 그리고 정규분포와 비교하였습니다. 전체적인 모양은 비슷합니다. 크기를 10으로 늘려보았습니다. 모양이 상당히 비슷합니다. 최댓값도 비슷합니다. 표본분산의 분포와 카이제곱분포를 비교할 때는 최댓값이 많이 달랐는데 표본평균의 분포에서는 잘 일치합니.. 2022. 9. 16.
[통계 적률의 이해] 14. 적률생성함수가 없는 분포도 있다 모든 확률분포에서 적률생성함수가 항상 존재하는 것은 아닙니다. 적률생성함수가 존재하지 않는 확률분포 도 있습니다. 오늘은 적률생성함수가 존재하지 않는 확률분포를 한가지 알아봅시다. 아래와 같은 확률분포인데요. Cauchy 분포의 일종입니다. f(x)=1π1x2+1f(x)=1π1x2+1 Cauchy 분포의 일반형은 아래와 같습니다. f(x;x0,γ)=1πγ[1+(xx0γ)2]f(x;x0,γ)=1πγ[1+(xx0γ)2] 위에서 소개한 분포는 Cauchy 분포에서 x0x0 이 0이고, γγ가 1인 경우입니다. 지금부터 아래 분포의 적률생성함수를 구해봅시다. $f(x)=\frac{1.. 2022. 9. 12.
[통계 적률의 이해] 13. 적률생성함수가 같으면 같은 분포일까 두 확률변수의 확률분포가 같으면, 적률생성함수는 확률분포를 적분하여 구하는 것이므로 적률생성함수도 당연히 같습니다. 반대로 두 확률변수의 적률생성함수가 같다고 합시다. 이때 두 확률변수의 확률분포는 같다고 할 수 있을까요? 대답은 yes 입니다. 어떻게 그럴 수 있는지 수학적으로 유도해 봅시다. 두 확률변수 X와 Y의 적률생성함수가 같다면 아래 등식이 성립합니다. etxf(x)dx=etyf(y)dyetxf(x)dx=etyf(y)dy 좌변과 우변의 변수를 z로 바꿔줍시다. 어차피 모든 구간에서 적분되는 것이므로 z로 바꿔도 결과가 같습니다. $\int_{-\infty}^{\infty} e^{tz}f_{X}(z)dz=\int_{-\infty}.. 2022. 9. 12.
[통계 기호의 이해] 1. P[X=x] 의 의미, 왜 대문자 소문자를 쓰나 통계와 관련된 책이나 자료들을 보면 P[X=x] 라는 기호를 많이 보게됩니다. 대문자 X와 소문자 x가 둘다 포함되어 있어서 헷갈려하시는 경우가 있어서 이 기호에 대해 설명하려고 합니다. X라는 확률변수가 있다고 합시다. 이 확률변수의 발생확률 아래와 같이 나타내 봅시다. P[X]P[X] X가 3일 확률을 나타내봅시다. P[3]P[3] 이렇게만 놓고 보면, 어떤 확률변수가 3일 확률인지를 알 수가 없습니다. 아래와 같이 표현하는 것이 더 알아보기 편합니다. P[X=3]P[X=3] 위 식에서 X는 확률변수를 나타내구요. 3은 발생한 값을 나타냅니다. X의 확률함수를 p(x)p(x)라고 놓는다면 아래와 같이 나타낼 수 있습니다. P[X=3]=p(3)P[X=3]=p(3) 좌변의 P는 확률이라는 뜻이구요. 우변의 p는 함수의 이름입니다. 헷갈리.. 2022. 9. 9.
[통계 Q&A] 표본을 하나만 뽑았는데 어떻게 분포를 가정할 수 있나요? (중심극한정리) Q) 표본을 하나만 뽑았는데 어떻게 분포를 가정할 수 있나요? A) 표본을 뽑지 않아도 분포는 가정할 수 있습니다. 정말 자주 받는 질문입니다. 많은 분들이 헷갈려 하시는 내용이고 왜 헷갈려하시는지 이해가 됩니다. 헷갈리는 상황을 먼저 설명하겠습니다. 모집단의 평균이 μμ라고 알려져 있는데요. 사실인지 확인하기 위해 표본을 뽑아 통계검정을 하려고 합니다. 크기가 n인 표본을 뽑았구요. 표본의 평균은 ˉX1¯X1, 분산은 s2s2입니다. 이때 표본의 크기 n이 충분히 크면 중심극한정리를 적용할 수 있습니다. 표본의 크기 n이 충분히 크면 표본평균의 분포가 아래 분포를 따른다는 것이 중심극한정리입니다. $\bar{X} \sim N\left (\mu,\frac{\sigma^2}{n} \ri.. 2022. 9. 7.
t검정에서 표준편차가 p값에 주는 영향 서로 독립인 두 집단의 평균을 비교하는 독립표본 t검정을 한다고 합시다. 평균의 차이가 클수록 p값이 작아져서 두 집단 평균 차이가 유의하게 나올 것입니다. 하지만 p값에 영향을 주는 것은 표준편차도 있습니다. t통계량을 통해 쉽게 확인할 수 있습니다. 이분산인 경우의 t통계량은 아래와 같습니다. T=ˉX1ˉX2s21N1+s22N2T=¯X1¯X2s21N1+s22N2 각 집단의 표준편차가 작아지면 t값의 절댓값이 커지게 되고, p값은 작아지게 됩니다. 이 대목에서 왜 p 값이 작아지는지 이해가 되지 않는 분들을 위해서 부연설명을 드리겠습니다. t값의 절댓값이 커진다는 것은 분포 상에서 더 극단적인 쪽으로 t값이.. 2022. 9. 5.
통계 가설검정 관련 그림들 (정규분포) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #임계값 설정(기각역) margin=qnorm(0.95) #축 및 값 추가, pos=c(0,0) 으로 설정해야 축과 그래프 사이 간격 없어짐 axis(1,at=c(-4,0,4), pos=c(0,0), label=c("",expression(mu),""),cex.axis=1.5) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #임계값 설정(기각역) margin=qnorm(0.95) #축 및 값 추가, pos.. 2022. 9. 1.
반복측정 분산분석(Repeated Measure ANOVA) 예시 모음 분산분석은 셋 이상 집단의 평균을 비교할 때 사용하는 분석방법입니다. 종속변수와 독립변수의 개수에 따라 여러 방법으로 나뉩니다. 반복측정 분산분석(Repeated Measure ANOVA)는 집단들이 대응되어 있는 경우에 사용합니다. 같은 대상에 대해 여러가지 처리를 하고 처리 결과들을 비교하는 것입니다. 귀무가설은 아래와 같습니다. H0:μ1=μ2=μ3=...H0:μ1=μ2=μ3=... 예시 1) 세가지 라면 맛 비교 30명을 대상으로 세가지 라면을 먹이고 각 라면 맛의 점수를 0~100 으로 매기게 하였다. 라면 맛 점수 사이에는 차이가 있는가? 독립변수 : 라면 종류 종속변수 : 맛 점수 예시 2) 세가지 약의 효과 비교 피험자 30명을 모집하고 A약을 먹이고 한달 뒤 효과를 측정, 다시 .. 2022. 8. 25.
[통계 Q&A] 다항분포 문제를 비복원추출로 풀어주세요 Q) 다항분포 문제를 비복원추출로 풀어주세요 A) 질문자님께서 말씀하신 다항분포 문제는 아래와 같습니다. 상자가 있습니다. 상자 안에는 100개의 공이 들어있는데요. 빨간공이 20개, 파란공이 30개, 노란공이 50개 들어있습니다. 이 상자에서 복원추출로 공을 10번 뽑을 때, 빨간공이 5개, 파란공이 2개, 노란공이 3개 나올 확률을 구해봅시다. 복원추출로 풀면 정답은 아래와 같습니다. P(x,y,z; n; 0.2,0.3,0.5)=n!x!y!z!0.2x0.3y0.5zP(x,y,z; n; 0.2,0.3,0.5)=n!x!y!z!0.2x0.3y0.5z P(5,2,3; n; 0.2,0.3,0.5)=10!5!2!3!0.250.320.53P(5,2,3; n; 0.2,0.3,0.5)=10!5!2!3!0.250.320.53 비복원추출인 경우를 계산해봅시다... 2022. 8. 22.
모집단 표본추출 그림 ppt 모집단에서 표본을 추출하는 그림 ppt 파일입니다. 2022. 8. 21.
t검정 대신 상관분석을 쓸 수 있다고? t 검정 대신 상관분석을 사용할 수 있다는 흥미로운 사실을 한가지 예시를 통해 보여드리겠습니다. 아래와 같이 남자와 여자 각 30명의 키 데이터가 있습니다. 지면 관계상 12명 씩만 나타냈습니다. t검정 먼저 남녀 키를 비교하는 t검정을 해봅시다. 위 데이터의 경우 이분산가정과 등분산가정 결과가 같았습니다. R로 수행한 t-test 결과는 아래와 같습니다. p값만 보면 됩니다. 0.2683이 나옵니다. 상관분석 위 데이터를 이용하여 상관분석을 하려면 어떻게 해야할까요. 남자와 여자의 상관관계를 보는 것은 불가능합니다. 서로 대응되어 있지 않기 때문입니다. 독립변수~종속변수 관계가 필요합니다. 독립변수와 종속변수를 아래와 같이 설정할 경우 상관분석이 가능해집니다. 독립변수 : 성별 종속변수 : 키 성별과 .. 2022. 8. 21.
[통계 연습용 데이터] 남자 30명/여자 30명 키 데이터 (엑셀) 남자 30명과 여자 30명의 키 데이터 입니다. 각 집단을 정규분포로 가정하였습니다. 정규분포의 평균과 표준편차를 입력하면 해당 정규분포에서 임의 추출되도록 하였습니다. 랜덤으로 추출된 값을 복사하고 값만 붙여넣기 하여 사용하시면 됩니다. 엑셀 데이터는 아래와 같습니다. 함수 설명 엑셀에는 정규분포에서 랜덤으로 추출하는 함수가 없습니다. 따라서 여러 함수를 조합하여 정규분포에서 랜덤추출하는 상황을 구현해야합니다. 구현 방법을 설명하겠습니다. 엑셀에는 표준정규분포의 역누적분포함수가 있습니다. 0~1 사이의 확률값을 입력하면 표준정규분포의 확률변수 값을 출력합니다. 예를 들어 확률 0.5를 입력하면 0이 출력됩니다. 표준정규분포의 역누적분포함수는 아래와 같습니다. norm.s.inv( ) 입력값으로 0~1 .. 2022. 8. 21.
[통계 Q&A] 유의 수준이 5%일때, 양측검정이면 유의수준이 2.5% 인가요? Q) 유의 수준이 5%일때, 양측검정이면 유의수준이 2.5% 인가요? A) 아닙니다. 양측검정이어도 유의수준은 5% 입니다. 모집단에서 표본을 하나 뽑는 상황을 가정합시다. 모집단의 평균은 μμ이고 분산은 σ2σ2 입니다. 크기가 50인 표본을 하나 뽑았습니다. 방금 뽑은 표본의 평균을 ˉX1¯X1이라고 놓겠습니다. 표본의 크기가 50인 표본들은 아래 분포를 따릅니다 . ˉXN(μ,σ250)¯XN(μ,σ250) 표본을 뽑지 않아도 알 수 있는 사실입니다. 수학적으로 유도되었고 이를 중심극한정리라고 부릅니다. 표본평균 ˉX1¯X1 은 이 분포 위의 한 점입니다. 그림으로 나타내면 아래와 같습니다. 모집.. 2022. 8. 21.
[통계 Q&A] 표본표준편차와 표본평균의 표준편차는 다른것인가? Q) 표본표준편차와 표본평균의 표준편차는 다른것인가? A) 네 다릅니다. 모집단에서 표본을 뽑는 상황을 가정해봅시다. 평균이 μμ이고 분산이 σ2σ2인 모집단에서 표본을 뽑았습니다. 이 표본을 표본 1이라고 합시다. 표본의 원소는 (1,2,3) 이 뽑혔습니다. 그림으로 나타내면 아래와 같습니다. 표본표준편차 표본1의 평균을 구해보면 아래와 같습니다. E[X1]=1+2+33=2E[X1]=1+2+33=2 표본1의 분산은 아래와 같이 구합니다. 분산은 표본 원소의 제곱의 평균 빼기 평균의 제곱을 계산하면 됩니다. V[X1]=1+4+9322=23V[X1]=1+4+9322=23 표본1의 표준편차는 분산에 루트를 씌워서 구하면 됩니다. $\sigma[X_{1}]=\sqrt{\frac{.. 2022. 8. 21.
[통계 적률의 이해] 12. 정규분포의 첨도는 왜 3인가 우리는 10강에서 정규분포의 중심적률생성함수를 구했습니다. 아래와 같습니다. Mxμ(t)=eσ2t22Mxμ(t)=eσ2t22 11강에서는 정규분포의 중심적률생성함수로 구한 2,3차 중심적률을 이용하여 정규분포의 왜도를 구했습니다. 지난시간에 구한 2,3차 중심적률과 왜도는 아래와 같습니다. μ2=σ2μ2=σ2 μ3=0μ3=0 γ1=μ3(μ2)32=0γ1=μ3(μ2)32=0 오늘은 정규분포의 중심적률함수를 이용해서 정규분포의 첨도를 계산해보려고 합니다. 첨도를 중심적률로 나타내면 아래와 같습니다. κ=μ4μ22κ=μ4μ22 4차 중심적률을 .. 2022. 8. 7.
[손으로 푸는 t검정] 1. 강의 소개 안녕하세요 통계의 본질입니다. 본 강의의 제목은 「손으로 푸는 t검정」 입니다. t검정의 원리를 수학적으로 이해해보는 강의입니다. t검정의 모든 과정을 수식으로 써가며 이해하는 것이 목적입니다. 선수 과목은 「손으로 푸는 통계」입니다. 여러분이 통계검정의 원리를 이해하고 있다고 가정하고 진행합니다. t 검정은 두 집단의 평균을 비교할 때 사용하는 통계분석입니다. 쉽게 생각할 수 있는 예시는 두 반의 수학점수 평균비교입니다. 이 예시의 독립변수와 종속변수를 알아봅시다. 독립변수는 반의 종류입니다. 반의 종류는 범주형 변수 입니다. 종속변수는 수학 점수이고 수치형 변수 입니다. 아래와 같이 정리할 수 있습니다. 독립변수 개수 종속변수 개수 독립변수 종류 종속변수 종류 t검정 1개 1개 범주형 수치형 t검정은.. 2022. 7. 31.
이산 vs 연속확률변수 (2) 원소 개수 지난시간에 다룬 이산확률변수와 연속확률변수는 정의는 아래와 같습니다. 이산확률변수 : 원소나열법으로 나타낼 수 있는 확률변수 연속확률변수 : 실수 구간으로 정의되는 확률변수 오늘은 이산확률변수와 연속확률변수의 원소 개수 이야기를 해보려고 합니다. 연속확률변수의 원소 개수는 무한합니다. 어느 두 실수를 잡더라도 그 사이 실수를 정의할 수 있습니다. 따라서 실수 구간으로 정의된 연속확률변수의 원소수는 항상 무한합니다. 이산확률변수의 원소개수를 알아봅시다. 동전을 던져서 앞면이 나온 횟수, 주사위를 던져서 나온 눈의 값 등이 이산확률변수입니다. 이들은 원소 개수가 유한합니다. 이산확률변수의 원소 개수는 항상 유한할까요? 어떤 이산 확률변수가 자연수 전체 집합이고 각 원소에 대응되는 확률이 아래와 같다고 합시다.. 2022. 7. 31.
이산 vs 연속확률변수 (1) 구별 방법 이산확률변수와 연속확률변수를 구별해보라고 물어보면 애매하게 대답하는 경우가 있습니다. "이산확률변수는 서로 떨어져 있는 변수고, 연속확률변수는 연속적인 변수다." 아주 틀린 말은 아니지만 두 변수를 더 정확하게 구분하는 방법이 있습니다. 바로 '셀 수 있는가' 입니다. 이산확률변수 : 셀 수 있는 확률변수 연속확률변수 : 셀 수 없는 확률변수 이산확률변수는 셀 수 있는 변수이고 연속확률변수는 셀 수 없는 변수입니다. 셀 수 있다와 없다를 '유한'과 '무한'으로 이해하시는 경우가 있습니다. 셀 수 있는지 여부는 유한과 무한을 이야기하는 것이 아닙니다. 셀 수 있다라는 것은 '번호를 붙여서 셀 수 있다'를 말합니다. 아래 집합을 봅시다. {1,2,3,4,5,....} 개수가 무한하지만 하나,둘,셋 번호를 붙.. 2022. 7. 28.
중심극한정리가 헷갈리시는 분들을 위한 극단적인 예시 중심극한정리는 아래와 같은 정리입니다. "모집단의 분포와 상관 없이 표본의 크기가 커지면 표본평균의 분포가 정규분포에 가까워져 간다." 표본의 크기가 충분히 크면 표본평균의 분포를 정규분포로 근사시킬 수 있다는 것입니다. 충분히 큰 표본의 크기를 보통 30으로 놓습니다. 중심극한정리를 헷갈려하시는 분들이 많아서 아주 극단적인 상황을 통해 설명을 하려고 합니다. 일부러 극단적인 상황을 선택했습니다. 극단적인 상황의 예시가 제대로 이해하지 못한 분들에게 리트머스 종이가 될 수 있기 때문입니다. 이게 된다고? 라는 생각이 드시는 분들은 중심극한정리를 제대로 이해하지 못하고 계셨던 것입니다. 이번 기회에 제대로 이해해 봅시다. 아래와 같은 모집단이 있다고 합시다. 모집단 = {1} 원소가 1 하나뿐인 모집단입니.. 2022. 7. 28.
통계적 유의차가 있다고 의미있는 차이일까 두 집단의 평균을 비교하기 위해 t검정을 했고 p값이 0.001이 나왔다고 합시다. p값이 0.05보다 작으므로 두 집단의 평균이 다르다고 판단할 것입니다. 하지만 통계적 유의차가 있다고 정말 의미있는 차이일지는 생각을 해봐야 합니다. 통계적 유의차가 있는 것과 실제로 의미있는 차이인 것은 별개의 문제입니다. 아래 사례를 통해 알아봅시다. 두 모집단 A와 B가 있습니다. 변수는 키(height)라고 합시다. 집단 A의 평균 키는 180, 집단 B의 평균 키는 180.01이라고 합시다. 각 집단에서 크기가 n인 표본을 뽑았습니다. 집단 A의 표본평균과 표본분산은 ˉXA¯XA, sAsA 이고 집단 B의 표본평균과 표본분산은 ˉXB, sB 라고 합시다. 그림으.. 2022. 7. 22.
[손으로 푸는 통계 ver1.0] 101. 종강 및 이후계획 이로써 손으로 푸는 통계 강의가 완료되었습니다. 통계 기초부터 Z검정까지의 내용을 다뤘습니다. 제가 통계 공부를 시작하게 된 이유는 호기심 때문이었습니다. 회사에 와서 t검정을 갑자기 사용하게 되었고 어느 순간 t검정 사용에 익숙해져 있었습니다. 하지만 정작 t검정이 어떤 절차로 진행되는지 그 원리는 전혀 모른채 사용했습니다. 엑셀이나 SPSS에서 버튼 몇개를 클릭하거나 R이나 파이썬에서 간단한 코드를 입력하면 결과를 쉽게 출력할 수 있었습니다. 결과에서는 p값만 보면 됐습니다. 0.05보다 작으면 '유의차가 있다'고 판단했고 제 지식은 거기까지였습니다. 그러다 문득 t검정이 어떤 원리로 수행되는지 궁금했습니다. 그렇게 손으로푸는 통계라는 강의를 시작하게 되었습니다. 제가 궁금한 내용을 공부하기 위해 시.. 2022. 7. 22.
[손으로 푸는 통계 ver1.0] 100. 전체내용 요약 손으로 푸는 통계라는 강의를 한마디로 요약하면 '통계검정에 필요한 기초 이론들과 Z검정의 수학적이해' 라고 할 수 있습니다. 지금까지 다뤘던 전체 내용을 표로 정리해보았습니다. Z검정을 이해하는 과정에서 기초적이면서 중요한 내용들이 자연스럽게 등장했는데요. 1강에서는 평균, 편차, 분산 표준편차를 다뤘구요. 표본의 분산을 구하는 과정에서 자연스럽게 불편추정량이 등장합니다. 그래서 2강에서는 불편추정량이 무엇인지를 다뤘습니다. 3강부터 7강까지는 표본통계량과 모수의 관계를 다뤘습니다. 우리가 가설검정을 하려면 표본평균의 분포를 가정해야하기 때문에 표본평균의 분포를 정규분포로 가정하게 해주는 중심극한 정리를 9강 부터 14강까지 다뤘습니다. 이어서 정규분포를 15강 부터 20강에 걸쳐서 유도를 했습니다. 2.. 2022. 7. 22.
[손으로 푸는 통계 ver1.0] 99. t 분포의 등장배경 (고셋과 스튜던트) 96~98강에서 Z검정에 모분산 대신 표본분산을 사용할 수 있는지 시뮬레이션을 통해 알아보았습니다. 표본의 크기가 30 이상인 경우 아래의 Z통계량에서 모표준편차 σ대신 표본표준편차 s를 사용해도 된다고 알려져 있는데, 정말 그런지 확인해본 것입니다. Z=ˉXmuσn 모집단의 분포는 정규분포와 균등분포 두 가지로 설정하였습니다. 모분산을 사용하여 계산한 p값과 표본분산을 사용하여 계산한 p값의 차이가 10% 이하가 되게 하는 표본크기를 구했습니다. 정규분포 모집단의 경우는 638, 균등분포 모집단의 경우는 1279 이었습니다. 95% 신뢰구간에서 계산된 것이고 99%로 신뢰도를 높이면 표본크기는 더 커질 것입니다. 현실.. 2022. 7. 22.
반응형