표본평균의 분포는 정말 정규분포가 될 수 있을까 (2) p 값 비교
표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할지 비교하는 표를 만들었습니다. 모집단이 1:1000인 경우 표본크기가 3이어도 잘 일치합니다. 놀랍네요. 표본 크기보다 오히려 모집단 크기에 영향을 많이 받는 모습입니다. 모집단이 적당히 크기만 하면 표본 크기는 크게 신경을 쓰지 않아도 될만큼 잘 일치합니다. library(dplyr) #1.모집단 설정 #ppltn=c(1,2,3,4,5,6,7,8,9,10) #ppltn=1:1000 #ppltn=rnorm(10) ppltn=rnorm(1000) m=mean(ppltn) s=sd(ppltn) #2. 표본 크기 설정 size=c(3,30,50,100,1000,3000) #3. 비교 p값 설정(우측꼬리기준으로) p=0.05..
2022. 9. 16.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (1) 그래프 비교
과연 중심극한정리도 실제로 작동할까요? 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할까? 라는 궁금증이 생겼습니다. 이번시간에는 그래프를 그려보며 눈으로 비교하고, 다음 시간에는 p값을 구해서 비교해보겠습니다. 테스트에 사용할 모집단은 아래와 같습니다. ppltn=c(1,2,3,4,5,6,7,8,9,10) 1부터 10까지의 자연수입니다. 정규분포와는 거리가 멉니다. 먼저 크기가 3인 표본을 50000번 추출하여 히스토그램을 그리고 정규분포와 비교하였습니다. 전체적인 모양은 비슷합니다. 크기를 10으로 늘려보았습니다. 모양이 상당히 비슷합니다. 최댓값도 비슷합니다. 표본분산의 분포와 카이제곱분포를 비교할 때는 최댓값이 많이 달랐는데 표본평균의 분포에서는 잘 일치합니..
2022. 9. 16.
자른평균이 뭐죠? 왜 사용하나요?? (trimmed mean)
모집단의 분포가 심하게 치우쳐 있는 경우에는 표본평균들의 값의 차이가 커집니다. 따라서 모집단을 추정할 때 표본에 따라 추정값이 매우 달라집니다. 이러한 문제를 보완하기 위해 등장한 평균이 '자른평균'입니다. 양쪽의 극단적인 10%를 또는 20%를 제거하고 평균을 구하는 것입니다. 영어로는 trimmed mean 이라고 합니다. 통계 소프트웨어 R을 이용하여 예시를 하나 만들어 봤습니다. {1,11,12,15,16,17,18,21,25,121} 이라는 표본이 뽑혔다고 해봅시다. 데이터는 총 10개입니다. R을 이용하여 평균을 구하면 아래와 같습니다. > my_data=c(1,11,12,15,16,17,18,21,25,121) > mean(my_data) [1] 25.7 양쪽 10%를 자르고 평균을 구하면..
2022. 7. 10.