본문 바로가기
반응형

전체 글645

[통계 적률의 이해] 15. 특성함수 적률생성함수가 존재하지 않는 확률분포들이 있다는 것을 배웠습니다. 자주 사용되는 t분포도 적률생성함수가 없었습니다. 적률생성함수와 같은 역할을 하면서, 모든 확률분포에서 존재하는 함수가 발견되었습니다. 이 함수가 특성함수입니다. 특성함수는 적률생섬함수의 t 대신 it 를 넣은 함수입니다. 아래와 같이 정의됩니다. 그리스어 phi 를 기호로 사용합니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=\int_{-\infty}^{\infty}e^{itx}f(x)dx$ 여기서 $\varphi $ 는 그리스어인데 fi 또는 fie 로 발음합니다. 적률생성함수는 아래와 같이 정의됐었습니다. $M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\i.. 2022. 9. 23.
[통계 기호의 이해] 2. P[X≤x] 형태의 부등식에 익숙해져야 하는 이유 우리는 지난시간에 아래 기호의 의미를 배웠습니다. $P[X=x]$ 이 기호는 확률변수 X가 어떤 값 x일 확률을 나타냅니다. 대문자 X는 확률 변수를 나타내구요. 소문자 x는 발생한 값을 나타냅니다. 그런데 이 표현은 모든 확률변수에 적용될 수 없습니다. 이 표현은 이산확률변수에만 적용 가능한 표현방법입니다. 연속확률변수는 x라는 값이 확률을 갖지 않습니다. 연속확률변수에서 각 값이 발생할 확률은 항상 0입니다. 연속확률변수는 확률 대신 확률 밀도 값을 갖습니다. 확률 밀도 값은 어떤 구간에 대해 적분했을 때 확률이 되는 값입니다. 표준 정규 분포를 예로 들겠습니다. 아래 그림을 봅시다. 표준정규분포 함수입니다. 표준정규분포의 함수값은 확률이 아닌 확률밀도입니다. 이 분포를 따르는 확률변수를 X라고 한다.. 2022. 9. 18.
통계 가설검정 관련 그림들 (표준정규분포) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #임계값 설정(기각역) margin=qnorm(0.95) #축 및 값 추가, pos=c(0,0) 으로 설정해야 축과 그래프 사이 간격 없어짐 axis(1,at=c(-4,0,4), pos=c(0,0), label=c("",0,""),cex.axis=1) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #95% 신뢰구간 z_value1=qnorm(0.025) z_value2=qnorm(0.975) #축 및 값 .. 2022. 9. 17.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (2) p 값 비교 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할지 비교하는 표를 만들었습니다. 모집단이 1:1000인 경우 표본크기가 3이어도 잘 일치합니다. 놀랍네요. 표본 크기보다 오히려 모집단 크기에 영향을 많이 받는 모습입니다. 모집단이 적당히 크기만 하면 표본 크기는 크게 신경을 쓰지 않아도 될만큼 잘 일치합니다. library(dplyr) #1.모집단 설정 #ppltn=c(1,2,3,4,5,6,7,8,9,10) #ppltn=1:1000 #ppltn=rnorm(10) ppltn=rnorm(1000) m=mean(ppltn) s=sd(ppltn) #2. 표본 크기 설정 size=c(3,30,50,100,1000,3000) #3. 비교 p값 설정(우측꼬리기준으로) p=0.05.. 2022. 9. 16.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (1) 그래프 비교 과연 중심극한정리도 실제로 작동할까요? 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할까? 라는 궁금증이 생겼습니다. 이번시간에는 그래프를 그려보며 눈으로 비교하고, 다음 시간에는 p값을 구해서 비교해보겠습니다. 테스트에 사용할 모집단은 아래와 같습니다. ppltn=c(1,2,3,4,5,6,7,8,9,10) 1부터 10까지의 자연수입니다. 정규분포와는 거리가 멉니다. 먼저 크기가 3인 표본을 50000번 추출하여 히스토그램을 그리고 정규분포와 비교하였습니다. 전체적인 모양은 비슷합니다. 크기를 10으로 늘려보았습니다. 모양이 상당히 비슷합니다. 최댓값도 비슷합니다. 표본분산의 분포와 카이제곱분포를 비교할 때는 최댓값이 많이 달랐는데 표본평균의 분포에서는 잘 일치합니.. 2022. 9. 16.
[통계 적률의 이해] 14. 적률생성함수가 없는 분포도 있다 모든 확률분포에서 적률생성함수가 항상 존재하는 것은 아닙니다. 적률생성함수가 존재하지 않는 확률분포 도 있습니다. 오늘은 적률생성함수가 존재하지 않는 확률분포를 한가지 알아봅시다. 아래와 같은 확률분포인데요. Cauchy 분포의 일종입니다. $f(x)=\frac{1}{\pi}\frac{1}{x^2+1}$ Cauchy 분포의 일반형은 아래와 같습니다. $f(x;x_{0},\gamma)=\frac{1}{\pi \gamma \left [ 1+\left ( \frac{x-x_{0}}{\gamma} \right )^2 \right ]}$ 위에서 소개한 분포는 Cauchy 분포에서 $x_{0}$ 이 0이고, $\gamma$가 1인 경우입니다. 지금부터 아래 분포의 적률생성함수를 구해봅시다. $f(x)=\frac{1.. 2022. 9. 12.
[통계 적률의 이해] 13. 적률생성함수가 같으면 같은 분포일까 두 확률변수의 확률분포가 같으면, 적률생성함수는 확률분포를 적분하여 구하는 것이므로 적률생성함수도 당연히 같습니다. 반대로 두 확률변수의 적률생성함수가 같다고 합시다. 이때 두 확률변수의 확률분포는 같다고 할 수 있을까요? 대답은 yes 입니다. 어떻게 그럴 수 있는지 수학적으로 유도해 봅시다. 두 확률변수 X와 Y의 적률생성함수가 같다면 아래 등식이 성립합니다. $\int_{-\infty}^{\infty} e^{tx}f(x)dx=\int_{-\infty}^{\infty} e^{ty}f(y)dy$ 좌변과 우변의 변수를 z로 바꿔줍시다. 어차피 모든 구간에서 적분되는 것이므로 z로 바꿔도 결과가 같습니다. $\int_{-\infty}^{\infty} e^{tz}f_{X}(z)dz=\int_{-\infty}.. 2022. 9. 12.
[통계 기호의 이해] 1. P[X=x] 의 의미, 왜 대문자 소문자를 쓰나 통계와 관련된 책이나 자료들을 보면 P[X=x] 라는 기호를 많이 보게됩니다. 대문자 X와 소문자 x가 둘다 포함되어 있어서 헷갈려하시는 경우가 있어서 이 기호에 대해 설명하려고 합니다. X라는 확률변수가 있다고 합시다. 이 확률변수의 발생확률 아래와 같이 나타내 봅시다. $P[X]$ X가 3일 확률을 나타내봅시다. $P[3]$ 이렇게만 놓고 보면, 어떤 확률변수가 3일 확률인지를 알 수가 없습니다. 아래와 같이 표현하는 것이 더 알아보기 편합니다. $P[X=3]$ 위 식에서 X는 확률변수를 나타내구요. 3은 발생한 값을 나타냅니다. X의 확률함수를 $p(x)$라고 놓는다면 아래와 같이 나타낼 수 있습니다. $P[X=3]=p(3)$ 좌변의 P는 확률이라는 뜻이구요. 우변의 p는 함수의 이름입니다. 헷갈리.. 2022. 9. 9.
[통계 Q&A] 표본을 하나만 뽑았는데 어떻게 분포를 가정할 수 있나요? (중심극한정리) Q) 표본을 하나만 뽑았는데 어떻게 분포를 가정할 수 있나요? A) 표본을 뽑지 않아도 분포는 가정할 수 있습니다. 정말 자주 받는 질문입니다. 많은 분들이 헷갈려 하시는 내용이고 왜 헷갈려하시는지 이해가 됩니다. 헷갈리는 상황을 먼저 설명하겠습니다. 모집단의 평균이 $\mu$라고 알려져 있는데요. 사실인지 확인하기 위해 표본을 뽑아 통계검정을 하려고 합니다. 크기가 n인 표본을 뽑았구요. 표본의 평균은 $\bar{X}_{1}$, 분산은 $s^2$입니다. 이때 표본의 크기 n이 충분히 크면 중심극한정리를 적용할 수 있습니다. 표본의 크기 n이 충분히 크면 표본평균의 분포가 아래 분포를 따른다는 것이 중심극한정리입니다. $\bar{X} \sim N\left (\mu,\frac{\sigma^2}{n} \ri.. 2022. 9. 7.
t검정에서 표준편차가 p값에 주는 영향 서로 독립인 두 집단의 평균을 비교하는 독립표본 t검정을 한다고 합시다. 평균의 차이가 클수록 p값이 작아져서 두 집단 평균 차이가 유의하게 나올 것입니다. 하지만 p값에 영향을 주는 것은 표준편차도 있습니다. t통계량을 통해 쉽게 확인할 수 있습니다. 이분산인 경우의 t통계량은 아래와 같습니다. $T=\frac{\bar{X}_{1}-\bar{X}_{2}}{\sqrt{ \frac{s_{1}^{2}}{N_{1}}+\frac{s_{2}^{2}}{N_{2}} }}$ 각 집단의 표준편차가 작아지면 t값의 절댓값이 커지게 되고, p값은 작아지게 됩니다. 이 대목에서 왜 p 값이 작아지는지 이해가 되지 않는 분들을 위해서 부연설명을 드리겠습니다. t값의 절댓값이 커진다는 것은 분포 상에서 더 극단적인 쪽으로 t값이.. 2022. 9. 5.
통계 가설검정 관련 그림들 (정규분포) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #임계값 설정(기각역) margin=qnorm(0.95) #축 및 값 추가, pos=c(0,0) 으로 설정해야 축과 그래프 사이 간격 없어짐 axis(1,at=c(-4,0,4), pos=c(0,0), label=c("",expression(mu),""),cex.axis=1.5) #위 그래프의 R 소스코드 #표준정규분포 그래프 x=seq(-4,4,by=0.01) y=dnorm(x) plot(x,y,type="l",ann=FALSE,axes=FALSE) #임계값 설정(기각역) margin=qnorm(0.95) #축 및 값 추가, pos.. 2022. 9. 1.
반복측정 분산분석(Repeated Measure ANOVA) 예시 모음 분산분석은 셋 이상 집단의 평균을 비교할 때 사용하는 분석방법입니다. 종속변수와 독립변수의 개수에 따라 여러 방법으로 나뉩니다. 반복측정 분산분석(Repeated Measure ANOVA)는 집단들이 대응되어 있는 경우에 사용합니다. 같은 대상에 대해 여러가지 처리를 하고 처리 결과들을 비교하는 것입니다. 귀무가설은 아래와 같습니다. $H_{0}:\mu_{1}=\mu_{2}=\mu_{3}=...$ 예시 1) 세가지 라면 맛 비교 30명을 대상으로 세가지 라면을 먹이고 각 라면 맛의 점수를 0~100 으로 매기게 하였다. 라면 맛 점수 사이에는 차이가 있는가? 독립변수 : 라면 종류 종속변수 : 맛 점수 예시 2) 세가지 약의 효과 비교 피험자 30명을 모집하고 A약을 먹이고 한달 뒤 효과를 측정, 다시 .. 2022. 8. 25.
[통계 Q&A] 다항분포 문제를 비복원추출로 풀어주세요 Q) 다항분포 문제를 비복원추출로 풀어주세요 A) 질문자님께서 말씀하신 다항분포 문제는 아래와 같습니다. 상자가 있습니다. 상자 안에는 100개의 공이 들어있는데요. 빨간공이 20개, 파란공이 30개, 노란공이 50개 들어있습니다. 이 상자에서 복원추출로 공을 10번 뽑을 때, 빨간공이 5개, 파란공이 2개, 노란공이 3개 나올 확률을 구해봅시다. 복원추출로 풀면 정답은 아래와 같습니다. $P\left( x,y,z; \ n ; \ 0.2,0.3,0.5 \right)=\frac{n!}{x!y!z!}0.2^x 0.3^y 0.5^z$ $P\left( 5,2,3; \ n ; \ 0.2,0.3,0.5 \right)=\frac{10!}{5!2!3!}0.2^5 0.3^2 0.5^3$ 비복원추출인 경우를 계산해봅시다... 2022. 8. 22.
모집단 표본추출 그림 ppt 모집단에서 표본을 추출하는 그림 ppt 파일입니다. 2022. 8. 21.
t검정 대신 상관분석을 쓸 수 있다고? t 검정 대신 상관분석을 사용할 수 있다는 흥미로운 사실을 한가지 예시를 통해 보여드리겠습니다. 아래와 같이 남자와 여자 각 30명의 키 데이터가 있습니다. 지면 관계상 12명 씩만 나타냈습니다. t검정 먼저 남녀 키를 비교하는 t검정을 해봅시다. 위 데이터의 경우 이분산가정과 등분산가정 결과가 같았습니다. R로 수행한 t-test 결과는 아래와 같습니다. p값만 보면 됩니다. 0.2683이 나옵니다. 상관분석 위 데이터를 이용하여 상관분석을 하려면 어떻게 해야할까요. 남자와 여자의 상관관계를 보는 것은 불가능합니다. 서로 대응되어 있지 않기 때문입니다. 독립변수~종속변수 관계가 필요합니다. 독립변수와 종속변수를 아래와 같이 설정할 경우 상관분석이 가능해집니다. 독립변수 : 성별 종속변수 : 키 성별과 .. 2022. 8. 21.
반응형