반응형 전체 글647 모집단 표본추출 그림 ppt 모집단에서 표본을 추출하는 그림 ppt 파일입니다. 2022. 8. 21. t검정 대신 상관분석을 쓸 수 있다고? t 검정 대신 상관분석을 사용할 수 있다는 흥미로운 사실을 한가지 예시를 통해 보여드리겠습니다. 아래와 같이 남자와 여자 각 30명의 키 데이터가 있습니다. 지면 관계상 12명 씩만 나타냈습니다. t검정 먼저 남녀 키를 비교하는 t검정을 해봅시다. 위 데이터의 경우 이분산가정과 등분산가정 결과가 같았습니다. R로 수행한 t-test 결과는 아래와 같습니다. p값만 보면 됩니다. 0.2683이 나옵니다. 상관분석 위 데이터를 이용하여 상관분석을 하려면 어떻게 해야할까요. 남자와 여자의 상관관계를 보는 것은 불가능합니다. 서로 대응되어 있지 않기 때문입니다. 독립변수~종속변수 관계가 필요합니다. 독립변수와 종속변수를 아래와 같이 설정할 경우 상관분석이 가능해집니다. 독립변수 : 성별 종속변수 : 키 성별과 .. 2022. 8. 21. [통계 연습용 데이터] 남자 30명/여자 30명 키 데이터 (엑셀) 남자 30명과 여자 30명의 키 데이터 입니다. 각 집단을 정규분포로 가정하였습니다. 정규분포의 평균과 표준편차를 입력하면 해당 정규분포에서 임의 추출되도록 하였습니다. 랜덤으로 추출된 값을 복사하고 값만 붙여넣기 하여 사용하시면 됩니다. 엑셀 데이터는 아래와 같습니다. 함수 설명 엑셀에는 정규분포에서 랜덤으로 추출하는 함수가 없습니다. 따라서 여러 함수를 조합하여 정규분포에서 랜덤추출하는 상황을 구현해야합니다. 구현 방법을 설명하겠습니다. 엑셀에는 표준정규분포의 역누적분포함수가 있습니다. 0~1 사이의 확률값을 입력하면 표준정규분포의 확률변수 값을 출력합니다. 예를 들어 확률 0.5를 입력하면 0이 출력됩니다. 표준정규분포의 역누적분포함수는 아래와 같습니다. norm.s.inv( ) 입력값으로 0~1 .. 2022. 8. 21. [통계 Q&A] 유의 수준이 5%일때, 양측검정이면 유의수준이 2.5% 인가요? Q) 유의 수준이 5%일때, 양측검정이면 유의수준이 2.5% 인가요? A) 아닙니다. 양측검정이어도 유의수준은 5% 입니다. 모집단에서 표본을 하나 뽑는 상황을 가정합시다. 모집단의 평균은 $\mu$이고 분산은 $\sigma^2$ 입니다. 크기가 50인 표본을 하나 뽑았습니다. 방금 뽑은 표본의 평균을 $\bar{X}_{1}$이라고 놓겠습니다. 표본의 크기가 50인 표본들은 아래 분포를 따릅니다 . $\bar{X} \sim N \left ( \mu, \frac{\sigma^2}{50} \right )$ 표본을 뽑지 않아도 알 수 있는 사실입니다. 수학적으로 유도되었고 이를 중심극한정리라고 부릅니다. 표본평균 $\bar{X}_{1}$ 은 이 분포 위의 한 점입니다. 그림으로 나타내면 아래와 같습니다. 모집.. 2022. 8. 21. [통계 Q&A] 표본표준편차와 표본평균의 표준편차는 다른것인가? Q) 표본표준편차와 표본평균의 표준편차는 다른것인가? A) 네 다릅니다. 모집단에서 표본을 뽑는 상황을 가정해봅시다. 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 표본을 뽑았습니다. 이 표본을 표본 1이라고 합시다. 표본의 원소는 (1,2,3) 이 뽑혔습니다. 그림으로 나타내면 아래와 같습니다. 표본표준편차 표본1의 평균을 구해보면 아래와 같습니다. $E[X_{1}]=\frac{1+2+3}{3}=2$ 표본1의 분산은 아래와 같이 구합니다. 분산은 표본 원소의 제곱의 평균 빼기 평균의 제곱을 계산하면 됩니다. $V[X_{1}]=\frac{1+4+9}{3}-2^2=\frac{2}{3}$ 표본1의 표준편차는 분산에 루트를 씌워서 구하면 됩니다. $\sigma[X_{1}]=\sqrt{\frac{.. 2022. 8. 21. [통계 적률의 이해] 12. 정규분포의 첨도는 왜 3인가 우리는 10강에서 정규분포의 중심적률생성함수를 구했습니다. 아래와 같습니다. $M_{x-\mu}(t)=e^{\frac{\sigma^{2}t^{2}}{2}}$ 11강에서는 정규분포의 중심적률생성함수로 구한 2,3차 중심적률을 이용하여 정규분포의 왜도를 구했습니다. 지난시간에 구한 2,3차 중심적률과 왜도는 아래와 같습니다. $\mu_{2}=\sigma^{2}$ $\mu_{3}=0$ $\gamma_{1}=\frac{\mu_{3}}{\left ( \mu_{2} \right )^{\frac{3}{2}}}=0$ 오늘은 정규분포의 중심적률함수를 이용해서 정규분포의 첨도를 계산해보려고 합니다. 첨도를 중심적률로 나타내면 아래와 같습니다. $\kappa=\frac{\mu_{4}}{\mu_{2}^2}$ 4차 중심적률을 .. 2022. 8. 7. [손으로 푸는 t검정] 1. 강의 소개 안녕하세요 통계의 본질입니다. 본 강의의 제목은 「손으로 푸는 t검정」 입니다. t검정의 원리를 수학적으로 이해해보는 강의입니다. t검정의 모든 과정을 수식으로 써가며 이해하는 것이 목적입니다. 선수 과목은 「손으로 푸는 통계」입니다. 여러분이 통계검정의 원리를 이해하고 있다고 가정하고 진행합니다. t 검정은 두 집단의 평균을 비교할 때 사용하는 통계분석입니다. 쉽게 생각할 수 있는 예시는 두 반의 수학점수 평균비교입니다. 이 예시의 독립변수와 종속변수를 알아봅시다. 독립변수는 반의 종류입니다. 반의 종류는 범주형 변수 입니다. 종속변수는 수학 점수이고 수치형 변수 입니다. 아래와 같이 정리할 수 있습니다. 독립변수 개수 종속변수 개수 독립변수 종류 종속변수 종류 t검정 1개 1개 범주형 수치형 t검정은.. 2022. 7. 31. 이산 vs 연속확률변수 (2) 원소 개수 지난시간에 다룬 이산확률변수와 연속확률변수는 정의는 아래와 같습니다. 이산확률변수 : 원소나열법으로 나타낼 수 있는 확률변수 연속확률변수 : 실수 구간으로 정의되는 확률변수 오늘은 이산확률변수와 연속확률변수의 원소 개수 이야기를 해보려고 합니다. 연속확률변수의 원소 개수는 무한합니다. 어느 두 실수를 잡더라도 그 사이 실수를 정의할 수 있습니다. 따라서 실수 구간으로 정의된 연속확률변수의 원소수는 항상 무한합니다. 이산확률변수의 원소개수를 알아봅시다. 동전을 던져서 앞면이 나온 횟수, 주사위를 던져서 나온 눈의 값 등이 이산확률변수입니다. 이들은 원소 개수가 유한합니다. 이산확률변수의 원소 개수는 항상 유한할까요? 어떤 이산 확률변수가 자연수 전체 집합이고 각 원소에 대응되는 확률이 아래와 같다고 합시다.. 2022. 7. 31. 이산 vs 연속확률변수 (1) 구별 방법 이산확률변수와 연속확률변수를 구별해보라고 물어보면 애매하게 대답하는 경우가 있습니다. "이산확률변수는 서로 떨어져 있는 변수고, 연속확률변수는 연속적인 변수다." 아주 틀린 말은 아니지만 두 변수를 더 정확하게 구분하는 방법이 있습니다. 바로 '셀 수 있는가' 입니다. 이산확률변수 : 셀 수 있는 확률변수 연속확률변수 : 셀 수 없는 확률변수 이산확률변수는 셀 수 있는 변수이고 연속확률변수는 셀 수 없는 변수입니다. 셀 수 있다와 없다를 '유한'과 '무한'으로 이해하시는 경우가 있습니다. 셀 수 있는지 여부는 유한과 무한을 이야기하는 것이 아닙니다. 셀 수 있다라는 것은 '번호를 붙여서 셀 수 있다'를 말합니다. 아래 집합을 봅시다. {1,2,3,4,5,....} 개수가 무한하지만 하나,둘,셋 번호를 붙.. 2022. 7. 28. 중심극한정리가 헷갈리시는 분들을 위한 극단적인 예시 중심극한정리는 아래와 같은 정리입니다. "모집단의 분포와 상관 없이 표본의 크기가 커지면 표본평균의 분포가 정규분포에 가까워져 간다." 표본의 크기가 충분히 크면 표본평균의 분포를 정규분포로 근사시킬 수 있다는 것입니다. 충분히 큰 표본의 크기를 보통 30으로 놓습니다. 중심극한정리를 헷갈려하시는 분들이 많아서 아주 극단적인 상황을 통해 설명을 하려고 합니다. 일부러 극단적인 상황을 선택했습니다. 극단적인 상황의 예시가 제대로 이해하지 못한 분들에게 리트머스 종이가 될 수 있기 때문입니다. 이게 된다고? 라는 생각이 드시는 분들은 중심극한정리를 제대로 이해하지 못하고 계셨던 것입니다. 이번 기회에 제대로 이해해 봅시다. 아래와 같은 모집단이 있다고 합시다. 모집단 = {1} 원소가 1 하나뿐인 모집단입니.. 2022. 7. 28. 통계적 유의차가 있다고 의미있는 차이일까 두 집단의 평균을 비교하기 위해 t검정을 했고 p값이 0.001이 나왔다고 합시다. p값이 0.05보다 작으므로 두 집단의 평균이 다르다고 판단할 것입니다. 하지만 통계적 유의차가 있다고 정말 의미있는 차이일지는 생각을 해봐야 합니다. 통계적 유의차가 있는 것과 실제로 의미있는 차이인 것은 별개의 문제입니다. 아래 사례를 통해 알아봅시다. 두 모집단 A와 B가 있습니다. 변수는 키(height)라고 합시다. 집단 A의 평균 키는 180, 집단 B의 평균 키는 180.01이라고 합시다. 각 집단에서 크기가 n인 표본을 뽑았습니다. 집단 A의 표본평균과 표본분산은 $\bar{X}_{A}$, $s_{A}$ 이고 집단 B의 표본평균과 표본분산은 $\bar{X}_{B}$, $s_{B}$ 라고 합시다. 그림으.. 2022. 7. 22. [손으로 푸는 통계 ver1.0] 101. 종강 및 이후계획 이로써 손으로 푸는 통계 강의가 완료되었습니다. 통계 기초부터 Z검정까지의 내용을 다뤘습니다. 제가 통계 공부를 시작하게 된 이유는 호기심 때문이었습니다. 회사에 와서 t검정을 갑자기 사용하게 되었고 어느 순간 t검정 사용에 익숙해져 있었습니다. 하지만 정작 t검정이 어떤 절차로 진행되는지 그 원리는 전혀 모른채 사용했습니다. 엑셀이나 SPSS에서 버튼 몇개를 클릭하거나 R이나 파이썬에서 간단한 코드를 입력하면 결과를 쉽게 출력할 수 있었습니다. 결과에서는 p값만 보면 됐습니다. 0.05보다 작으면 '유의차가 있다'고 판단했고 제 지식은 거기까지였습니다. 그러다 문득 t검정이 어떤 원리로 수행되는지 궁금했습니다. 그렇게 손으로푸는 통계라는 강의를 시작하게 되었습니다. 제가 궁금한 내용을 공부하기 위해 시.. 2022. 7. 22. [손으로 푸는 통계 ver1.0] 100. 전체내용 요약 손으로 푸는 통계라는 강의를 한마디로 요약하면 '통계검정에 필요한 기초 이론들과 Z검정의 수학적이해' 라고 할 수 있습니다. 지금까지 다뤘던 전체 내용을 표로 정리해보았습니다. Z검정을 이해하는 과정에서 기초적이면서 중요한 내용들이 자연스럽게 등장했는데요. 1강에서는 평균, 편차, 분산 표준편차를 다뤘구요. 표본의 분산을 구하는 과정에서 자연스럽게 불편추정량이 등장합니다. 그래서 2강에서는 불편추정량이 무엇인지를 다뤘습니다. 3강부터 7강까지는 표본통계량과 모수의 관계를 다뤘습니다. 우리가 가설검정을 하려면 표본평균의 분포를 가정해야하기 때문에 표본평균의 분포를 정규분포로 가정하게 해주는 중심극한 정리를 9강 부터 14강까지 다뤘습니다. 이어서 정규분포를 15강 부터 20강에 걸쳐서 유도를 했습니다. 2.. 2022. 7. 22. [손으로 푸는 통계 ver1.0] 99. t 분포의 등장배경 (고셋과 스튜던트) 96~98강에서 Z검정에 모분산 대신 표본분산을 사용할 수 있는지 시뮬레이션을 통해 알아보았습니다. 표본의 크기가 30 이상인 경우 아래의 Z통계량에서 모표준편차 $\sigma$대신 표본표준편차 $s$를 사용해도 된다고 알려져 있는데, 정말 그런지 확인해본 것입니다. $Z=\frac{\bar{X}- mu}{\frac{\sigma}{\sqrt{n}}}$ 모집단의 분포는 정규분포와 균등분포 두 가지로 설정하였습니다. 모분산을 사용하여 계산한 p값과 표본분산을 사용하여 계산한 p값의 차이가 10% 이하가 되게 하는 표본크기를 구했습니다. 정규분포 모집단의 경우는 638, 균등분포 모집단의 경우는 1279 이었습니다. 95% 신뢰구간에서 계산된 것이고 99%로 신뢰도를 높이면 표본크기는 더 커질 것입니다. 현실.. 2022. 7. 22. [손으로 푸는 통계 ver1.0] 98. 표본분산을 모분산 대신 사용할 수 있는가 (3) 균등분포를 따르는 모집단에서 p값 비교 Z검정에서 표본의 크기가 충분히 크면 모표준편차 대신 표본표준편차를 사용할 수 있는지 알아보고 있습니다. 지난시간까지 정규분포를 따르는 모집단에서 모분산을 사용한 경우와 표본분산을 사용한 경우의 p값을 비교하였습니다. 표본의 크기가 수천 이상인 경우에 납득할 만한 차이가 발생했습니다. 통상적으로 사용하는 표본크기인 30개에서는 모분산 대신 표본분산을 사용하는 것이 어렵다고 결론내렸습니다. 이번 시간에는 모집단의 분포를 균등분포로 바꿔봅시다. 방법론은 지난 두 강의에서 자세히 다뤘으니 이번 시간에는 p값을 바로 비교해봅시다. 모집단이 균등분포를 따를 경우 표본분산은 아래 분포를 따릅니다. $2.5n \frac{s^2}{\sigma^2} \sim \chi ^2_{2.5n}$ 확률 95%로 표본분산이 뽑힐 범.. 2022. 7. 21. 이전 1 ··· 5 6 7 8 9 10 11 ··· 44 다음 반응형