본문 바로가기
반응형

통계213

[손으로 푸는 확률분포] 이항분포 (3~5) 유도, 통계량, 그래프 3) 일반화(유도) 어떤 독립시행에서 특정 사건이 발생할 확률은 p입니다. 이 시행을 n번 했을 때, 사건이 발생한 횟수를 x라고 합시다. 이때의 확률분포가 이항분포이고 아래와 같습니다. 시행횟수가 n, 사건 발생활률이 p인 이항분포를 기호로 아래와 같이 나타냅니다. B는 binomial의 약자입니다. 4-1) 통계량 - 평균 이항분포의 평균은 아래와 같이 정의됩니다. x가 0일때는 값이 0이므로 아래와 같이 시그마의 시작을 1으로 바꿀 수 있습니다. 아래와 같이 변형합시다. p와 n은 시그마에 독립적이므로 아래와 같이 꺼내줄 수 있습니다. x는 약분됩니다. 이제 치환을 하겠습니다. n-1을 m로, x-1을 r로 치환합시다. 이번에는 n-1에서 x-1을 뺍시다. n-x가 나오고, 이 값은 m-r과 같습니.. 2019. 7. 4.
[손으로 푸는 확률분포] 베르누이분포 (3~5) 유도, 통계량, 그래프 3) 일반화(유도) 어떤 시행의 결과가 성공, 혹은 실패라고 합시다. 성공할 확률은 p이고 실패할 확률은 1-p 또는 q입니다. 시행이 성공하면 1, 실패하면 0의 값을 갖습니다. 이때, 베르누이 분포는 아래와 같습니다. 또는 아래와 같이 쓸 수도 있습니다. 4) 통계량(평균,분산) 베르누이분포의 평균은 아래와 같이 계산합니다. 베르누이분포의 분산은 아래와 같이 계산합니다. 5) 그래프 베르누이분포의 그래프는 아래와 같습니다. 2019. 7. 4.
샘플사이즈 계산해주는 프로그램 무료 다운로드 (파워분석) G power 프로그램 여기서 다운 http://www.gpower.hhu.de/ 여기는 다운안받고 온라인에서 가능 https://www.stat.ubc.ca/~rollin/stats/ssize/b2.html 2019. 6. 25.
R, SPSS 등 통계 무료강의 사이트(통계청) R, SPSS 등 통계 무료강의 사이트(통계청) 통계청에서 운영하는 '통계 교육원'이라는 교육기관이 있습니다. 통계청 소속 공무원, 통계분야 공무원, 일반인들을 대상으로 현장강의와 인터넷강의를 제공합니다. (통계교육원 링크 : https://sti.kostat.go.kr/coresti/site/main.do) 현장교육은 '집합교육'이라고 부르는데 유료입니다. 정해진 날짜에 교육이 이뤄지기 때문에 일정표를 보고 원하는 날짜에 신청하면 됩니다 . 온라인 교육(e러닝)은 무료입니다. 공부원 교육들도 있는데 일반인이 들을만한 강의는 R, SPSS, 빅데이터 등이 있습니다. 이러닝 강의방식은 아래 그림과 같습니다. 파워포인트 화면을 띄워놓고 강사가 설명합니다. 국가에서 무료제공하는 강의들이 다 너무 노잼이라 걱정.. 2019. 2. 7.
정규성검정 KS test (2) Nikolai Smirnov KS 테스트를 개발한 분의 이야기를 이어서 하겠습니다. 지난시간에는 Andrey Kolmogorov 이야기를 했었는데요. 오늘은 Nikolai Smirnov에 대해 말씀드리겠습니다. 이분에 대한 자료는 많이 없어서 내용이 짧습니다. 스미르노프는 1900년에 러시아 모스크바에서 태어났습니다. 콜모고로프처럼 러시아 사람입니다. 1938년에 박사학위를 땄습니다. 당시 했던 연구가 앞으로 이어질 비모수 검정 연구의 기초가 됐다고 합니다. 1938년에 Steklov Institute of Mathematics 의 연구원이 됩니다. 수학에 특화된 국가연구소라고 합니다. 우리나라의 고등과학원 정도가 될겁니다. 1957년에 수리통계학 분야 책임자가 됩니다. 스미르노프는 수리통계학 분야 비모수 기법의 창시자중 한명입니다.. 2018. 11. 26.
정규성검정 KS test (1) Andrey Kolmogorov 드디어 정규성검정에 대한 공부가 시작되었습니다. Q-Q plot도 정규성 검정으로 사용되기는 하지만 정성적인 방법이므로, 정량적인 방법은 이번 강의부터 설명하는 것입니다. 제가 앞으로 설명드릴 정량적인 방법은 아래의 다섯가지입니다. 1. Kolmogorov-Smirnov test (KS test) 2. Lilliefors test (LF test) 3. Cramer-von Mises test (CVM test) 4. Anderson-Darling test (AD test) 5. Shapiro-Wilk test (SW test) 앞으로는 약어(abbreviation)를 사용하도록 하겠습니다. KS 검정을 먼저 공부할 것인데요. 검정의 원리를 설명하기 전에 검정 방법을 만든 사람들에 대한 소개를 하려고 합니.. 2018. 11. 24.
분위수(Quantile)를 구하는 9가지 방법(#10. Type8 방법) 통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. Type8 계산 방법 분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q8(p)를 타입8의 방법으로 구한 분위수라.. 2018. 11. 1.
5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 5. 분위수(Quantile)를 구하는 9가지 방법(#5. 순서통계 보충설명) 지난시간까지 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봤습니다. 순서통계에 대한 설명이 부족한 것 같아서 오늘은 그 원리를 설명드리겠습니다. 분위수 중 하나를 예를들어볼게요. 무수히 많은 분위수를 정의할 수 있지만, 가장 자주 쓰는 사분위수를 예로 들겠습니다. 나머지 분위수들도 동일한 원리로 계산됩니다. 10개의 수를 생성했습니다. 24,28,37,43,46,47,59,67,75,77 사분위수 계산에서 얻어야 하는 결과는 아래와 같습니다. 0% : 0사분위수 25% : 1사분위수 50% : 2사분위수 75% : 3사분위수 100% : 4사분위수 일반적 정의에서 사분위수는 1,2,3사분위수 3개입.. 2018. 10. 18.
Z검정의 한계(정규성,t,비모수검정의 출현+디시전트리) 지금까지 우리는 Z검정에대해 공부했습니다. Z검정은 아무때나 사용할 수 있는 검정방법은 아닙니다. Z검정을 하기 위해서는 두 가지 조건이 필요합니다. 1) 모집단의 분산을 알고 있음 2) 중심극한정리를 적용할 수 있을 만큼 표본의 크기가 충분히 큼(or 모집단이 정규분포를 따름) 2)번은 표본평균의 분포를 정규분포로 가정하기 위한 조건입니다. 이제 이런 질문이 생깁니다. 표본의 크기가 충분히 크다는게 어느정도지? 모집단의 분산을 모를 때는? 표본의 크기가 충분히 크기 않을 때는? 일단 첫번째 질문에 먼저 답하겠습니다. 일반적으로, 경험적으로 표본의 크기가 30개 이상이면 중심극한정리를 만족한다고 가정합니다. 나머지 세 질문이 매우 중요한데요. 이런 질문들이 여러 검정 방법들을 탄생시켰습니다. 오늘은 그 .. 2018. 6. 2.
[손으로 푸는 통계] 26. 1표본 Z검정 예제 1표본 Z검정 예제를 하나 풀어봅시다. A회사 K젤리라는 예제입니다. A제과회사에서는 K젤리라는 인기상품을 팔고 있습니다. A회사는 K젤리 무게의 평균과 표준편차를 아래와 같다고 주장하고 있습니다. $75g \pm 5g$ A회사의 경쟁사인 B사에서는 A사가 K젤리의 무게를 부풀렸다고 생각합니다. B회사에서는 이를 통계적으로 입증하기 위해 K젤리 100개를 구매했습니다. 모집단에서 크기가 100인 표본을 뽑은 것입니다. 포장을 뜯어 100개의 K젤리 무게의 표본평균과 표본표준편차를 계산했더니 아래와 같았습니다. $\bar{X}_{1}=68.5$ $\sigma{1}=2$ 귀무가설과 대립가설을 세워봅시다. 귀무가설은 K젤리의 무게 평균이 70g 이라는 것입니다. 대립가설은 우리의 주장이 담긴 것으로 '70g보.. 2018. 5. 31.
[손으로 푸는 통계] 25. 통계적 가설검정 감잡기 5 (1종오류 vs 2종오류) 통계적 가설검정은 귀무가설과 대립가설을 세우고 p값에 따라 기각 여부를 결정하는 것을 말합니다. 통계적 가설검정에는 아래와 같은 네 가지 상황이 발생할 수 있습니다. 1. 귀무가설이 참 → 채택 2. 귀무가설이 참 → 기각 (1종 오류, α 오류) 3. 귀무가설이 거짓 → 채택 (2종 오류, β 오류) 4. 귀무가설이 거짓 → 기각 쉽게 이해하기 위해 아래와 같은 표를 만들어 봅시다. 통계적 가설검정은 확률이 개입되기 때문에 항상 옳은 결정을 내릴 수 없습니다. 실제로 귀무가설이 참인데 기각할 수도 있고, 귀무가설이 거짓인데 채택할 수도 있습니다. 이러한 잘못된 선택을 오류라고 합니다. 귀무가설이 참인데도 기각하는 오류를 1종오류 또는 α 오류라고 합니다. 귀무가설이 거짓인데도 기각을 하지 않는 오류를 .. 2018. 5. 21.
[손으로 푸는 통계] 24. 통계적 가설 검정 감잡기 4 (양측검정 vs 단측검정) 우리는 지난시간까지 아래 내용을 배운 상태입니다. - 귀무가설, 대립가설 - 가설검정 원리 - 유의수준 ($\alpha$) - 유의확률 (p-value) 이번시간에는 기각역, 양측검정, 단측검정을 배워봅시다. 지난시간에 사용한 예시를 가져옵시다. 모집단이 하나 있는데, 평균이 $\mu$라고 알려져 있습니다. 우리는 이 주장에 반대하는 상황입니다. Z검정을 하기 위해 귀무가설과 대립가설을 아래와 같이 세웠습니다. 귀무가설 : $E[\bar{X}]=\mu$ (기존의 주장) 대립가설 : $E[\bar{X}] \neq \mu$ (기존의 주장에 반대하는 우리의 주장) 이 모집단에서 표본을 하나 뽑아서 평균을 구했습니다. 우리가 뽑은 표본의 평균을 $\bar{X}_{1}$ 라고 합시다. $\bar{X}_{1}$ 보.. 2018. 5. 19.
[손으로 푸는 통계] 23. 통계적 가설 검정 감잡기 3 (유의수준 α, 유의확률 p-value) 오늘은 가설검정에서 사용되는 중요한 개념인 유의수준과 유의확률에 대해 배워볼 것입니다. 그 전에 지난 시간에 배운 내용을 간단히 복습하고 오늘 내용을 배워봅시다. 어떤 사람이 모집단의 평균이 $\mu$ 라고 주장하고 있습니다. 우리는 아니라고 생각합니다. 이를 밝혀내기 위해 두 가지 가설을 세웠습니다. 귀무가설 : $E[\bar{X}]=\mu$ (기존의 주장) 대립가설 : $E[\bar{X}] \neq \mu$ (기존의 주장에 반대하는 우리의 주장) 기존의 주장이 맞다고 가정하고 진행하겠습니다. 평균이 $\mu$인 모집단에서 크기가 n인 표본평균 분포함수를 정의했습니다. 표본을 뽑지 않아도 분포함수를 정의할 수 있다는 것을 이미 배웠습니다. 아래와 같습니다. $\bar{X} \sim N \left ( \.. 2018. 5. 16.
[손으로 푸는 통계] 21. 통계적 가설 검정 감잡기 1 (귀무가설, 대립가설) 지난시간까지 배운 내용은 아래와 같습니다. - 통계량 (평균,분산,표준편차) - 모집단의 통계량과 표본의 통계량 사이의 관계 - 중심극한정리 - 정규분포 유도 기본 내용에 대한 정리가 어느정도 끝났습니다. 이번시간부터는 통계적 가설검정에 대해 배워봅시다. t검정, 분산분석, 회귀분석 등 대부분의 통계분석 방법의 기본 원리는 '통계적 가설검정'입니다. 통계적 가설검정 가설검정은 어떤 가설을 세우고 그 가설이 맞는지 틀린지를 시험하는 것입니다. 통계적 가설검정에서는 통계 이론과 확률을 이용하여 가설을 검정합니다. 가설검정은 영어로 hypothesis test 입니다. 어떤 가설을 세울까 통계적 가설검정에서는 주로 어떤 가설을 세울까요? 통계량을 이용하여 가설을 세웁니다. 우리가 배운 통계량은 평균, 분산이 .. 2018. 5. 10.
[손으로 푸는 통계] 20. 정규분포를 유도하며 알게 된 것들 고등학교에서 정규분포를 처음 배울 때 함수의 수식부터 배웠떤 기억이 있습니다. 이어서 정규분포의 성질들을 배웠습니다. 정규분포의 모양ㅇ느 종을 엎어놓은 모양이고, 표준편차가 작아질 수록 얇고 높아진다 등을 배웠습니다. 그 당시 정규분포의 유도과정이 궁금했었는데 왜 선생님에게 질문을 하지 않았었는지는 기억이 안납니다. 나름대로 내렸던 결론은 유도과정이 없고 여러 현상에서 발견되는 분포들을 수학적으로 fitting 하여 찾아냈을 것이라 생각했었습니다. 졸업 후 한참이 지난 20대 후반에 취미로 통계공부를 시작했고, 정규분포의 유도과정이 있다는 것을 알았습니다. 제가 찾은 방법은 두 가지였고 지난시간까지 두 방법 모두 다뤘습니다. 두 방법은 아래와 같습니다. 방법1. 과녁 맞추기를 이용한 유도 방법2. 이항분.. 2018. 4. 14.
[손으로 푸는 통계] 19. 정규분포함수 유도하기 (방법2. 이항분포 이용 2/2) 이항분포를 이용하여 정규분포를 유도하고 있습니다. 지난시간에 유도한 내용을 간단히 요약합시다. 이항분포를 $f(r)$에서 $g(r)=\ln f(r)$ 로 놓고 $g(r)$을 구하였습니다. 이를 1번 식이라고 하였습니다. $\begin{align} g(r)&=n\ln n-r\ln r- (n-r)\ln (n-r) \\ &+\frac{1}{2}\ln( n)-\frac{1}{2}\ln(r)-\frac{1}{2}\ln(2\pi ) -\frac{1}{2}\ln((n-r)) \\ &+r\ln p +(n-r)\ln q \end{align}$ (1번식) $g(r)$의 미분을 구했습니다. 2번 식이라고 하였습니다. $\begin{align} g'(r)&=-\ln r+\ln (n-r) \\ &-\frac{1}{2r} -\f.. 2018. 4. 12.
[손으로 푸는 통계] 18. 정규분포함수 유도하기 (방법2. 이항분포 이용 1/2) 정규분포 함수를 유도하는 방법은 두가지가 있고 아래와 같습니다. 1) 과녁 맞추기를 이용한 유도 2) 이항분포를 이용한 유도 15,16강에서 1번 방법으로 정규분포를 유도하였습니다. 이번 강의부터 2번 방법으로 정규분포를 유도하겠습니다. 내용이 많아서 이번강의와 다음강의 둘로 나눠서 설명하겠습니다. 이항분포를 정규분포로 근사시키는 방법을 통해 정규분포를 유도하겠습니다. 이항분포 $B(n,p)$의 확률질량함수는 아래와 같습니다. $f(r)=_{n}C_{r}p^rq^{n-r}$ 확률변수를 r로 놓았습니다. 위 식에서 조합으로 표현된 부분을 팩토리얼 형태로 바꿔줍시다. $f(r)=\frac{n!}{r!(n-r)!}p^rq^{n-r}$ 양변에 자연로그를 취해줍니다. $\ln f(r)=\ln n!-\ln r! -.. 2018. 4. 12.
[손으로 푸는 통계] 17. 이항분포의 평균과 분산 정규분포의 두가지 유도방법을 공부하고 있습니다. 두가지 유도방법은 아래와 같습니다. 1) 과녁 맞추기를 이용한 유도 2) 이항분포를 이용한 유도 지난시간까지 1번인 과녁 맞추기를 이용한 유도를 공부해보았습니다. 이제 2번인 이항분포를 이용하여 정규분포를 유도할 차례입니다. 이항분포를 이용하여 정규분포를 유도할 때 이항분포의 평균과 분산이 사용됩니다. 이번시간에는 이항분포의 평균과 분산을 구해봅시다. 이항분포는 $B(n,p)$ 라고 나타냅니다. B는 binomial distribution 의 첫글자를 딴 것입니다. n은 시행횟수이고 p는 특정 사건이 발생할 확률입니다. 동전던지기를 동전을 100번 던질 때 앞면이 나오는 횟수의 확률분포는 $B(100,0.5)$ 입니다. 이항분포 $B(n,p)$ 를 식으로 .. 2018. 4. 12.
[손으로 푸는 통계] 16. 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 2/2) 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 2/2) 정규분포 함수 유도 두번째 시간입니다. 지난 시간에 정규분포 함수의 형태를 찾았고 아래와 같습니다. $f(x)=Ae^{\frac{C}{2}x^2}$ A의 부호 판별 오늘은 계수를 구해보겠습니다. 먼저 A의 부호를 판별해봅시다. $f(x)$는 확률밀도함수이기 때문에 음수값을 가질 수 없습니다. 따라서 항상 양수여야 합니다. $e^{\frac{C}{2}x^2}$ 는 항상 양수이므로, A도 항상 양수입니다. $A>0$ C의 부호 판별 $f(x)=Ae^{\frac{C}{2}x^2}$에서 만약 C가 양수라면 x가 커질 수록 $f(x)$는 한없이 커집니다. x가 커질 수록 전체 값은 작아지는 것이 초기에 설정한 조건이었습니다. x가 커질 수록 전체 값.. 2018. 3. 25.
[손으로 푸는 통계] 15. 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 1/2) 정규분포 함수 유도 (방법1. 과녁맞추기를 이용한 유도 1/2) 지난 세 강에 걸쳐서 표본의 크기 n이 충분히 클 때 표본평균의 분포가 정규분포를 따른다는 것을 유도했습니다. 정규분포는 당연히 알고 있다는 듯 사용했지만, 우리는 정규분포가 어디에서 왔는지 모릅니다. 정규분포함수는 고등학교 확률과 통계시간에 처음 배웠던걸로 기억합니다. 고등학교 시절 정규분포를 접했을 때, 도데체 이 함수가 어디서 온 것인지 궁금했었습니다. 정규분포가 우리 주변에 여러곳에서 발견된다는 이야기를 듣고, 이와 비슷한 모양의 함수를 찾은 것인가 생각하기도 했습니다. 언젠가 꼭 이유를 밝혀보고 싶다는 생각을 갖고 있었는데요. 우연히 통계 유튜브와 블로그를 시작하게 됐고, 결국 궁금증을 해결할 수 있었습니다. 제가 찾은 정규분포 유.. 2018. 3. 25.
[손으로 푸는 통계] 14. 중심극한정리 증명 (#3. 표본평균의 적률생성함수) 중심극한정리 증명 (#3. 표본평균의 적률생성함수) 중심극한정리 증명의 마지막 시간입니다. 첫 시간에는 두 확률변수의 확률분포가 같을 조건을 배웠습니다. 두 확률변수의 적률생성함수가 같다면, 두 확률변수의 확률분포가 같았습니다. 두번째 시간에는 정규분포의 적률생성함수를 유도했습니다. 정규분포의 적률생성함수는 아래와 같습니다. $M_{X}(t)=E(e^{tx})=e^{ \mu t+\frac{+ \sigma^2 t^2 }{2} }$ 이번 시간에는 표본평균의 적률생성함수를 유도할 것입니다. 유도된 적률생성함수가 정규분포의 적률생성함수와 같다면, 표본평균의 분포와 정규분포가 같다고 할 수 있습니다. 표본평균의 분포가 정규분포를 따른다는 것을 보일 수 있는 것입니다. 목차 1. 표본평균의 적률생성함수 유도 2. .. 2018. 3. 24.
[손으로 푸는 통계] 13. 중심극한정리 증명 (#2. 정규분포의 적률생성함수) 중심극한정리 증명 (#2. 정규분포의 적률생성함수) 지난시간에 두 확률변수의 확률분포가 같을 조건을 배웠습니다. 두 확률변수의 적률생성함수가 같다면 두 확률변수의 확률분포가 같았습니다. 두 확률분포의 적률생성함수가 같음 → 두 확률변수의 확률분포가 같음. 이 원리를 이용하여 중심극한정리를 증명할 수 있습니다. 표본의 크기가 무한히 커질 때 표본평균의 적률생성함수를 구하고, 이를 정규분포의 적률생성함수와 비교합니다. 두 적률생성함수가 같다는 것을 보이면, 표본평균의 분포가 정규분포라는 것을 보일 수 있습니다. 이번글에서는 정규분포의 적률생성함수를 유도해보겠습니다. 다음 글에서 표본평균의 적률생성함수를 유도하고 둘을 비교할 것입니다. 정규분포의 적률생성함수 유도 정규분포를 따르는 확률변수 X가 있다고 합시다.. 2018. 3. 24.
[손으로 푸는 통계] 12. 중심극한정리 증명 (#1. 확률분포가 같을 조건) 중심극한정리 증명 (#1. 확률분포가 같을 조건) 지난시간까지 중심극한정리 유도에 사용되는 두가지 재료를 공부해봤습니다. 두 가지 재료는 아래와 같습니다. - 테일러 급수 - 적률생성함수 중심극한정리는 표본의 크기가 커짐에 따라 '표본 평균'들의 분포가 정규분포에 가까워져 간다는 정리입니다. 표본의 크기가 충분히 클 경우 표본평균의 분포를 정규분포로 가정하는데 사용되는 정리입니다. t검정을 비롯하여 모수적 통계방법들의 기반이 되는 정리입니다. 중심극한정리를 유도하는 절차는 아래와 같습니다. #1. 두 확률변수의 적률생성함수가 같다면, 두 확률변수의 분포가 동일함을 보임 #2. 정규분포를 따르는 확률변수의 적률생성함수를 유도함 #3. 표본평균의 적률생성함수를 유도함, 정규분포를 따르는 확률변수의 적률생서함.. 2018. 3. 24.
[손으로 푸는 통계] 10. 테일러 급수 유도하기 (중심극한정리 재료 #1) 중심극한정리를 증명하는 과정에서 테일러급수가 사용됩니다. 오늘은 테일러급수를 유도해보도록 하겠습니다. 테일러급수 설명 테일러급수는 브룩 테일러(Brook Taylor)가 1715년에 처음 소개했습니다. 테일러급수는 무한급수입니다. 어떤 함수를 다항함수로 만들어진 무한급수로 바꿔줍니다. 어떤 함수 $f(x)$에 테일러급수를 적용하면 아래와 같습니다. $f(x)=f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f''(a)}{2!}(x-a)^{2}+\frac{f'''(a)}{3!}(x-a)^{3}+...$ 임의의 점 a에서의 미분값을 이용해서 함수 값을 계산할 수 있게 해줍니다. a근처에서의 함수값을 구할 경우 고차항(H.O.T)들의 크기가 아주 작아지기 때문에, 고차항들을 날려버리고 함수의 근사값.. 2018. 3. 24.
[손으로 푸는 통계] 9. 중심극한정리 설명 중심극한정리란 무엇인가 이번 강의에서는 중심극한정리가 무엇인지 설명드리도록 하겠습니다. 수학적인 증명은 이후에 할거구요. 오늘은 개념만 설명드리는 것입니다. 모집단에서 크기가 n인 표본을 뽑았습니다. 이런 표본을 무수히 많이 뽑으면 표본평균들의 평균은 모평균과 같아지고, 표본평균들의 분산은 모분산/n과 같아집니다. 여기까지는 앞에서 증명한 내용입니다. $E(\bar{X})=\mu$ $V(\bar{X})=\frac{\sigma^2}{n}$ 우리는 표본을 무수히 많이 뽑았기 때문에 표본평균들을 가지고 확률분포 그래프를 그릴 수가 있습니다. 이때 표본의 크기 n을 키우면, 표본평균들의 분포가 정규분포에 가까워져 갑니다. 표본 평균의 분포 → 표본의 크기 n 증가 → 정규분포 이러한 사실이 '중심극한 정리' 입.. 2018. 3. 24.
[손으로 푸는 통계] 8. 1~7강 요약(세로영상) 1~7강까지 내용을 요약해봅시다. 먼저 1강에서는 대표적인 통계량인 평균, 분산, 표준편차에 대해 배웠습니다. 2강에서는 표본분산을 계산할 때 왜 n-1로 나누는 것인지를 배웠는데요. 이는 표본분산을 불편추정량으로 만들기 위함이었습니다. 불편추정량이 무엇을 의미하는지, 자유도는 무엇인지 공부했습니다. 3강에서는 표본평균의 평균이 모평균과 같다는 것을 유도했습니다. 표본평균의 평균이 모평균과 같기 때문에 표본평균은 불편추정량입니다. 4강에서는 표본분산의 평균이 모분산과 같다는 것을 유도했습니다. 따라서 표본분산도 불편추정량입니다. 5강에서는 표본평균의 분산이 모분산을 n으로 나눈 것과 같음을 유도했습니다. 이 내용은 고등학교에서도 배운 내용이지만, 유도하지는 않았었습니다. 6강에서는 두 변수가 독립인 경우.. 2018. 3. 24.
[손으로 푸는 통계] 7. 크기가 1인 표본평균의 평균과 분산이 모집단과 같은 이유 증명 3강에서 표본평균의 평균을 계산했던 수식을 가져와봅시다. $E(\bar{X})=E\left ( \frac{\sum_{i=1}^{n}x_{i}}{n}\right )$ $\frac{1}{n}$ 은 상수이므로 밖으로 꺼냅시다. $E(\bar{X})=\frac{1}{n} E\left ( \sum_{i=1}^{n}x_{i} \right )$ 우변의 괄호 안 수식을 풀어서 쓰면 아래와 같습니다. $E(\bar{X})=\frac{1}{n} E\left ( x_{1}+x_{2}+...+x_{n} \right )$ 여기서 우변의 각 항들이 표본들의 n번째 원소를 나타내는 변수입니다. 각 항을 크기가 1인 표본으로 생각할 수 있습니다. 크기가 1인 표본에서는 표본과 표본평균이 같기 때문에, 크기가 1인 표본평균이라는 변수.. 2018. 3. 24.
[손으로 푸는 통계] 6. E(XY)=E(X)E(Y) 의 성립조건과 증명 5강(표본평균의 분산이 모분산/n 인 이유)에서 수식을 유도할 때, 아래 등식을 사용했습니다. $E(XY)=E(X)E(Y)$ 두 변수 X,Y가 독립일 경우 등식이 성립합니다. 두 변수가 독립이라는 것은 한 변수의 발생 여부가 다른 변수에 영향을 주지 않는 것을 의미합니다. 오늘은 두 변수가 독립인 경우 왜 위 등식이 성립하는지 증명해보도록 하겠습니다. 먼저 간단한 예시로 성립한다는 것을 보여드리고, 일반화하도록 하겠습니다. 예시 서로 독립인 변수 X,Y가 있다고 합시다. X와 Y의 원소는 아래와 같습니다. $X=\left [ 1,2,3 \right ]$ $Y=\left [ 5,6 \right ]$ 이때 XY가 가질 수 있는 원소는 아래의 6가지입니다. $XY=\left [ 1\times5,2\times .. 2018. 3. 23.
[손으로 푸는 통계] 5. 표본평균의 분산이 모분산/n 인 이유(고등학생들 꼭 보세요) 우리는 지난 두개의 글에서 표본평균의 평균이 모평균과 같다는 것과, 표본분산의 평균이 모분산과 같다는 것을 보였습니다. $E(\bar{X})=\mu$ $E(S^{2})=\sigma^{2}$ 표본분산의 평균이 모분산과 같다는 것을 보일 때, 아래 성질을 사용했습니다. $V(\bar{X})=\frac{\sigma^2}{n}$ 이 성질은 고등학교에서 확률과 통계 시간에도 배우는 내용입니다. 증명은 하지 않았던 것으로 기억합니다. 주사위 던지기나, 동전 던지기 등의 간단한 예시로 위 등식이 성립하는 한가지 사례를 보였을겁니다. 오늘은 위 등식이 성립한다는 것을 증명해봅시다. 증명 방법1 표본평균의 분산은 아래와 같이 계산됩니다. 분산이 편차의 제곱의 평균이기 때문입니다. $V(\bar{X})=E\left [ \.. 2018. 3. 23.
[손으로 푸는 통계] 4. 표본분산의 기댓값이 모분산과 같은 이유 지난 글에서 표본평균의 기댓값은 모평균과 같다는 것을 보였습니다. 오늘은 표본분산의 평균이 모분산과 같다는 것을 증명해봅시다. 표본에서 구한 어떤 통계량의 기댓값이 모수와 같을 때 이 통계량을 불편추정량이라고 합시다. 표본평균은 불편추정량이구요. 표본분산은 n으로 나눠서 계산하면 모분산과 달라고, 모분산과 같게 해주려고 n-1 로 나눠서 계산합니다. 이 내용은 2강에서 설명했습니다. 표본분산의 평균이란? 모집단이 하나 있다고 가정합시다. 모집단의 평균을 $\mu$, 분산을 $\sigma^2$이라고 놓겠습니다. 이 모집단에서 크기가 n인 표본을 뽑아서 분산을 구했습니다. 표본을 또 뽑고 분산을 구합니다. 표본을 또 뽑고 분산을 구합니다. 이렇게 무수히 많은 표본을 뽑아 분산을 구합니다. 이제 우리에게는 무.. 2018. 3. 23.
반응형