본문 바로가기
반응형

분류 전체보기648

[손으로 푸는 통계 ver1.0] 98. 표본분산을 모분산 대신 사용할 수 있는가 (3) 균등분포를 따르는 모집단에서 p값 비교 Z검정에서 표본의 크기가 충분히 크면 모표준편차 대신 표본표준편차를 사용할 수 있는지 알아보고 있습니다. 지난시간까지 정규분포를 따르는 모집단에서 모분산을 사용한 경우와 표본분산을 사용한 경우의 p값을 비교하였습니다. 표본의 크기가 수천 이상인 경우에 납득할 만한 차이가 발생했습니다. 통상적으로 사용하는 표본크기인 30개에서는 모분산 대신 표본분산을 사용하는 것이 어렵다고 결론내렸습니다. 이번 시간에는 모집단의 분포를 균등분포로 바꿔봅시다. 방법론은 지난 두 강의에서 자세히 다뤘으니 이번 시간에는 p값을 바로 비교해봅시다. 모집단이 균등분포를 따를 경우 표본분산은 아래 분포를 따릅니다. 2.5ns2σ2χ22.5n2.5ns2σ2χ22.5n 확률 95%로 표본분산이 뽑힐 범.. 2022. 7. 21.
[손으로 푸는 통계 ver1.0] 97. 표본분산을 모분산 대신 사용할 수 있는가 (2) 정규분포를 따르는 모집단에서 p값 비교 Z검정에서 모분산 대신 표본분산을 사용할 경우 p값이 얼마나 달라질 수 있는지 알아봅시다. Z검정에서 p값은 우리가 뽑은 표본으로 구한 Z값보다 극단적인 영역의 넓이로 정의됩니다. 이 넓이는 표준정규분포에서 구합니다. 우리가 뽑은 표본의 Z값은 아래와 같이 구합니다. Z1=ˉX1μσn ˉX1은 우리가 뽑은 표본의 평균입니다. σ가 모분산인데요. 모분산을 표본분산으로 바꾸면 Z1 가 변하므로 p값도 바뀌게 됩니다. 모분산을 표본분산으로 바꿨을 때 p값이 얼마나 변하는지 확인해보려는 것입니다. 지난시간에 유도한 부등식을 가져옵시다. $\frac{ qchisq(0.05,n-1)}{n.. 2022. 7. 21.
[손으로 푸는 통계 ver1.0] 96. 표본분산을 모분산 대신 사용할 수 있는가 (1) 정규분포를 따르는 모집단에서 모분산과 표본분산 비교 모집단의 평균이 얼마라고 알려져 있는 상황에서 표본을 뽑아서 알려진 모집단의 평균이 맞는지 확인하는 검정을 일표본 Z검정이라고 합니다. 이러한 일표본 Z검정 과정에서 모분산이 사용되는데요. 대부분의 경우 모분산은 알려져 있지 않습니다. 모분산을 모르면 Z검정을 할 수 없기 때문에 표본분산을 모분산 대신 사용합니다. 표본의 크기가 충분히 크면 모분산과 표본분산의 차이가 크지 않을 것이라는 생각 때문입니다. 과연 그래도 되는 것인지를 오늘 확인하려고 합니다. 모집단은 두가지로 설정하였습니다. 정규분포를 따르는 모집단과 균등분포를 따르는 모집단입니다. 이번 글에서는 정규분포를 따르는 모집단의 경우를 알아봅시다. 표본크기 n이 100이라고 가정해봅시다. 정규분포를 따르는 모집단이라고 가정했기 때문에 표본분산은 .. 2022. 7. 21.
n이 커지면 정규분포로 근사시킬 수 있는 분포들 t분포 카이제곱분포 푸아송분포 Erlang 분포 이항분포 2022. 7. 21.
[지수분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 지수분포의 통계량들을 표로 요약한 내용입니다. 정의 - 단위시간당 평균 발생횟수가 λ일 때, 사건이 처음 발생할 때 까지 걸리는 시간이 T이하일 확률에 대한 분포 - 사건이 처음 발생할 때까지 걸리는 시간이 T 이하일 확률은 지수분포의 누적분포함수인 F(T)임 정의역 0x< 분포함수 f(x)=λeλx 누적분포함수 F(x)=1eλx 평균 1λ 분산 1λ2 왜도 2 첨도 9 적률생성함수 (1tλ)1 특성함수 $\left ( 1-\frac{it}{\lambda} \right ).. 2022. 7. 21.
p 값이 0.05 일 때 Z는 얼마일까 먼저 단측검정에서 p값이 0.05 일 때 Z값이 얼마인지 알아봅시다. Z값은 표준정규분포의 정의역 값입니다. 그림으로 나타내면 아래와 같습니다. Z*를 구하는 방법입니다. 표준정규분포의 누적분포함수를 구합니다. 누적분포함수의 역함수를 구합니다. 누적분포함수의 역함수에 0.95를 대입합니다. 엑셀에서는 NORM.S.INV(0.95) 라고 입력하면 됩니다. Z*는 아래와 같습니다. Z*=1.64485 양측검정에서 p가 0.05가 되는 Z*값은 두개가 있습니다. 그림으로 나타내면 아래와 같습니다. 얼마일까요? 여러분이 잘 아시는 값입니다. 95% 신뢰구간 식에 등장하는 값입니다. -1.96과 1.96입니다. 2022. 7. 20.
[F분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 F분포의 통계량들을 표로 요약한 내용입니다. 정의 - 자유도가 k1인 카이제곱분포를 따르는 확률변수를 χk1, 자유도가 k2인 카이제곱분포를 따르는 확률변수를 χk2 라고 합시다. 이때 F분포를 따르는 확률변수 F는 아래와 같이 정의됩니다. F=χk1k1χk2k2F(k1,k2) 정의역 0x< 분포함수 $f(x;k_{1},k_{2})=\frac{\sqrt{\frac{\left ( k_1 x\right )^{k_1} k_2^{k_2}} { \left ( k_1 x+k_2 \right )^{k_1+.. 2022. 7. 20.
[손으로 푸는 통계 ver1.0] 95. 표본분산의 분포 요약 36강 부터 94강까지 표본분산의 분포에 대한 내용을 다뤘습니다. 표본분산의 분포를 유도한 이유는 Z검정 때문이었습니다. Z검정은 표본평균의 분포를 이용해서 하는 검정입니다. n이 충분히 클 때 표본 평균의 분포가 아래와 같은 분포를 따르게 됩니다. ˉXN(μ,σ2n) 그런데 모집단의 분산인 σ2 은 알 수 없으므로 모집단의 분산 대신 표본분산을 사용했습니다. 그래도 되는 것인지 확인하고 싶었습니다. 표본분산의 분포를 알아야 정량적인 확인이 가능해서 표본분산의 분포를 유도한 것입니다. 표본분산의 분포를 유도할 때 모집단이 정규분포를 따른다는 가정이 필요했습니다. 크기가 n인 표본분산의 분포는 아래와 같이 유도되.. 2022. 7. 20.
[손으로 푸는 통계 ver1.0] 94. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (3) 유도한 식 검증 지난 글에서 아래 식을 유도했습니다. 1번 식이라고 하겠습니다. DFs2σ2χ2DF (DF=2nκ1) (1) 모집단의 정규성을 가정하고 유도했던 표본분산의 분포 식과 비슷하지만 어딘가 다른 식입니다. 모집단의 정규성을 가정하고 유도한 표본분산의 분포 식은 아래와 같습니다. 2번 식이라고 합시다. n1σ2s2χ2n1 (2) 2번 식은 두가지 조건을 가정하고 유도했습니다. 1. 표본평균의 분포가 정규분포를 따를 만큼 표본의 크기가 크다. 2. 모집단이 정규분포를 따른다. 사실 두번째 조건이 만족되면 첫번째 조건을 필요 없습니다. 모집단.. 2022. 7. 18.
[손으로 푸는 통계 ver1.0] 93. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (2) 정규분포를 카이제곱분포로 근사 모집단에서 표본을 뽑을 때 표본의 크기 n이 충분히 크다면, 모집단의 분포와 상관 없이 표본분산의 분포는 카이제곱분포를 따른다는 것을 증명하고 있습니다. 아래와 같이 두 단계로 나눠서 증명하고 있습니다. Step 1. s2σ2 의 분포 유도 Step 2. 정규분포를 카이제곱분포로 근사 지난시간에 Step1 내용을 유도했고 결과는 아래와 같습니다. s2σ2N(1,κ1n) 오늘은 정규분포를 카이제곱분포로 근사시킨 뒤, 위 식을 변형할 것입니다. 자유도가 k인 카이제곱분포를 따르는 확률변수는 아래와 같이 놓을 수 있습니다. $\chi ^{2}_{k}=\sum_{i=1}^{k}.. 2022. 7. 17.
[손으로 푸는 통계 ver1.0] 92. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (1) s2σ2 의 분포 유도 표본분산의 분포가 카이제곱분포를 따르려면 모집단이 정규분포를 따른다는 조건이 필요했습니다. 87강에서 논문을 소개하며 n이 충분히 크면 모집단이 정규분포를 따르지 않아도 표본분산이 카이제곱분포를 따른다는 것을 보여드렸는데요. 증명은 하지 않고 넘어갔습니다. 증명이 너무 길어서 넘어갔다고 말씀드렸었는데, 논문을 다시 보니 생각보다 길지는 않았습니다. 또한 시뮬레이션을 통해 위 성질이 성립하는지 시험에보았지만 성립하지 않았습니다. 위 조건을 직접 증명하며 이유를 알아봅시다. 논문의 증명을 더 쉽게 이해할 수 있도록 약간 수정하였습니다. 증명은 두 단계로 나뉩니다. Step 1. s2σ2 의 분포 유도 Step 2. 정규분포를 카이제곱분포로 근사 이번 글에서는 Step1 을.. 2022. 7. 16.
정규분포를 따르는 확률변수의 실수배 aX 의 분포 변수 X가 평균이 μ이고, 분산이 σ2인 정규분포를 따른다고 합시다. 기호로는 아래와 같이 나타냅니다. XN(μ,σ2) 변수 X에 상수를 곱한 aX는 어떤 분포를 따르는지 알아봅시다. a는 양수라고 가정합시다. aX를 확률변수 Y라고 놓겠습니다. Y=aX Y의 누적분포함수는 아래와 같이 정의할 수 있습니다. G(y)=P[Yy] aX=Y 를 이용하여 아래와 같이 변형합시다. G(y)=P[aXy] a의 범위에 따라 둘로 나뉩니다. a가 양수인 경우 부등식의 양변을 a로 나눠줍니다. $G(y)=P\left[ X \leq \frac{y}{a} \righ.. 2022. 7. 16.
신뢰구간과 신뢰수준의 진짜 의미 모수 추정에 대한 질문을 하나 받았습니다. 모수추정을 그냥 설명할 수도 있지만, 질문으로 부터 출발하면 이해가 한결 쉬울 것입니다. 질문을 요약하면 이렇습니다. "통계량과 모수의 관계를 도출할 때, 표본의 분포를 가정한다. 왜 추정할때는 하나의 표본만 뽑아놓고 분포를 사용하는가?" "모분산 대신 하나의 표본분산을 사용하는데 그래도 되는가?" 모수추정에 대해 알아보며 위 의문을 해결해봅시다. 모수(parameter)는 모집단의 통계량을 말합니다. 모평균이나 모분산 등이 있습니다. 모집단이 하나 있다고 합시다. 모집단의 평균과 분산은 모릅니다. 모르기 때문에 추정을 하는 것입니다. 표본을 아주 많이 뽑아서 모집단을 추정하면 좋겠지만, 현실적으로 불가능합니다. 이 글에서는 크기가 n인 '하나'의 표본만 뽑을 .. 2022. 7. 16.
Welch two sample t-test 가 뭔가요? R로 t검정을 해보신 분들은 결과 창에서 Welch two sample test 를 본 적이 있으실겁니다. var.equal 을 FALSE 로 할 경우 아래와 같이 출력됩니다. > t.test(male,female) Welch Two Sample t-test data: male and female t = 6.9208, df = 57.854, p-value = 4.026e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 12.23857 22.19969 sample estimates: mean of x mean of y 171.5828 154.3637 Welch Two Sam.. 2022. 7. 10.
머신러닝 책 두권 무료로 다운로드 받는 방법 (스텐포드) 스텐포드 교수님 세분이 공동으로 집필하신 머신러닝 책을 다운받는 방법을 알려드리겠습니다. 불법 다운로드 아니구요. 공식적으로 다운받는 방법입니다. 세분 교수님 성함은 아래와 같습니다. Trevor Hastie, Robert Tibshirani, Jerome H. Friedman 책 제목은 아래와 같습니다. 1) An Introduction to Statistical Learning with Applications in R (다운로드 링크) 2) The Elements of Statistical Learning (다운로드 링크) 난이도는 2번 책보다 1번 책이 더 쉽습니다. 1번 책은 국내에 「가볍게 시작하는 통계학습」 이라는 제목으로 번역 출간되어 있습니다. 1번 책은 회귀분석, 로지스틱회귀분석, 부트스.. 2022. 7. 10.
자른평균이 뭐죠? 왜 사용하나요?? (trimmed mean) 모집단의 분포가 심하게 치우쳐 있는 경우에는 표본평균들의 값의 차이가 커집니다. 따라서 모집단을 추정할 때 표본에 따라 추정값이 매우 달라집니다. 이러한 문제를 보완하기 위해 등장한 평균이 '자른평균'입니다. 양쪽의 극단적인 10%를 또는 20%를 제거하고 평균을 구하는 것입니다. 영어로는 trimmed mean 이라고 합니다. 통계 소프트웨어 R을 이용하여 예시를 하나 만들어 봤습니다. {1,11,12,15,16,17,18,21,25,121} 이라는 표본이 뽑혔다고 해봅시다. 데이터는 총 10개입니다. R을 이용하여 평균을 구하면 아래와 같습니다. > my_data=c(1,11,12,15,16,17,18,21,25,121) > mean(my_data) [1] 25.7 양쪽 10%를 자르고 평균을 구하면.. 2022. 7. 10.
F test (F검정) 은 도데체 언제 쓰는걸까?? 데이터의 통계분석을 할 때 아래의 검정들을 주로 사용합니다. 독립표본 t검정 : 독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때) 대응표본 t검정 : 쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때) 분산분석 : 세 그룹의 평균 비교 (정규분포 가정이 가능할 때) 상관분석 : 두 수치형 변수 사이의 상관관계 유무와 강도 계산 회귀분석 : 종속변수와 독립변수의 관계를 모델링 F검정은 많이 들어보긴 했는데 쓰는 경우를 자주 못보셨을 겁니다. 물론 엑셀에서 t검정을 하기 전에 등분산/이분산 여부를 알기 위해 쓰지만 F검정의 결과를 데이터 분석의 결과로 이용하는 것은 아닙니다. 또 분산분석에서 F검정을 사용하지만 이때도 평균을 비교하기 위한 수단으로 사용하는 것이지 F검정 결과를 직접 이용하지는 .. 2022. 7. 9.
적률생성함수 vs 특성함수 적률생성함수 (Moment Generating Function) 적률생성함수는 그 이름에서도 알 수 있듯 적률을 생성해주는 함수입니다. 적률이 무엇인지 먼저 알아야 겠죠. 적률은 아래와 같이 정의됩니다. E[Xn] X 는 확률변수입니다. 확률변수 Xn 의 기댓값을 적률이라고 합니다. 적률에는 차수가 있습니다. E[Xn] 은 n차적률입니다. E[X] 은 1차적률이고, E[X2] 은 2차 적률입니다. 적률은 통계량과 관련있습니다. 1차적률은 평균이고 2차적률은 분산을 구할때 사용됩니다. 3차적률은 왜도, 4차적률은 첨도와 관련있습니다. 적률을 생성하는 함수인 적률생성함수는 아래.. 2022. 7. 9.
[분위수의 이해] 1. 상자수염그림 쉽고 자세한 설명 상자수염그림은 아래와 같은 그래프를 말합니다. 살충 스프레이 종류와 곤충 수 데이터를 사용하여 그린 상자수염그림입니다. R이라는 통계프로그램에서 제공하는 내장데이터입니다. x축이 살충 스프레이 종류이고, y축이 곤충 수 입니다. 스프레이는 A,B,C,D,E,F 의 6종류입니다. 각 스프레이당 12번씩 실험을 했습니다. 곤충 수는 살아 남은 곤충 수 인지, 죽은 곤충 수 인지 나와있지 않아서 죽은 곤충 수라고 가정합시다. 데이터의 일부를 살펴보면 아래와 같습니다. > InsectSprays count spray 1 10 A 2 7 A 3 20 A 4 14 A 5 14 A 6 12 A 7 10 A 8 23 A 9 17 A 10 20 A 11 14 A 12 13 A 13 11 B 14 17 B 15 21 B .. 2022. 7. 9.
[수리통계학] #39. 특성함수가 항상 존재함을 증명 어떤 확률변수 X의 확률밀도함수가 f(x) 일 때, 특성함수는 아래와 같이 정의됩니다. φX(t)=eitXf(x)dx 양변에 절댓값을 씌워줍시다. |φX(t)|=|eitXf(x)dx| 아래 부등식이 성립합니다. 복소해석학 내용입니다. 증명은 글 맨 아래 첨부한 링크를 참고하세요. $\left | \varphi_{X}(t) \right |=\left | \int_{-\infty}^{\infty}e^{itX}f(x)dx \right |\leq \int_{-\infty}^{\infty}\left | e^{itX}f(x) \ri.. 2022. 7. 6.
[수리통계학] #38. 특성함수가 같으면 같은 분포일까? (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 FX(x)FY(y) 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 fX(x)fY(y) 라고 놓겠습니다. 두 확률변수의 특성함수는 φX(t)φY(t) 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 특성함수도 같다. 2. 두 함수의 특성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 특성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. $\varphi_{X}(t)=E[e^{itx}]=\int_{-\infty}^{\infty} e^{it.. 2022. 7. 6.
[수리통계학] #37. 특성함수 특성함수는 확률밀도함수에 퓨리에변환을 적용한 것입니다. 아래와 같이 정의됩니다. 그리스어 phi 를 기호로 사용합니다. 비교를 위해 적률생성함수도 나란히 써보겠습니다. φX(t)=E[eitX]=eitxf(x)dx MX(t)=E[etX]=etxf(x)dx 특성함수는 적률생성함수에서 t자리에 it 가 대신 들어간 것입니다. 적률생성함수처럼 특성함수도 확률밀도함수마다 고유합니다. 두 확률변수의 특성함수가 같다면 확률밀도함수도 같습니다. 둘의 결정적인 차이는 다음과 같습니다. 특성함수는 적률생성함수와 달리 모든 확률분포에 대해 .. 2022. 7. 6.
기댓값이 무한대인 확률변수 어떤 확률변수의 기댓값이 무한대일 수 있을까요? 직관적으로 상상은 잘 되지 않지만 존재합니다. 아래 확률분포를 봅시다. $f(x)=\left\{\begin{matrix} \frac{1}{x^2} & 1 2022. 7. 6.
[수리통계학] #36. 적률생성함수가 존재하지 않는 경우 모든 확률분포에서 적률생성함수가 존재하는 것은 아닙니다. 적률생성함수가 존재하지 않는 확률분포도 있습니다. 반면 다음 시간에 배울 특성함수는 모든 확률분포에서 존재합니다. 적률생성함수가 존재하지 않는 확률분포 예시는 아래와 같습니다. f(x)=1π1x2+1 확률변수 X는 연속확률변수이고 범위는 모든 실수입니다. 위 확률분포는 Cauchy 분포입니다. Cauchy 분포의 일반형은 아래와 같습니다. f(x;x0,γ)=1πγ[1+(xx0γ)2] Cauchy 분포에서 x0 이 0이고, γ가 1인 경우입니다. $f(.. 2022. 7. 6.
[수리통계학] #35. 적률생성함수가 같은면 같은 분포일까 (유일성) 두 확률변수 X와 Y가 있다고 합시다. 두 확률변수의 누적분포함수는 FX(x)FY(y) 라고 놓겠습니다. 두 확률변수의 확률밀도함수는 fX(x)fY(y) 라고 놓겠습니다. 두 확률변수의 적률생성함수는 MX(t)MY(t) 라고 놓겠습니다. 이때 아래 성질이 성립합니다. 1. 두 함수의 누적분포함수가 같으면 적률생성함수도 같다. 2. 두 함수의 적률생성함수가 같으면 누적분포함수도 같다. 1번 성질은 쉽게 증명할 수 있습니다. 누적분포함수가 같으면 확률밀도함수가 같습니다. 적률생성함수는 아래와 같이 확률밀도함수에 의해서만 결정됩니다. MX(t)=E[etx]=etxf(x)dx 따라.. 2022. 7. 6.
[수리통계학] #34. 적률생성함수란 무엇인가 적률생성함수는 적률을 생성하는 함수입니다. 적률은 아래와 같이 정의됩니다. E[Xn] 적률은 확률변수의 거듭제곱의 기댓값입니다. 적률에는 차수가 있습니다. 위 적률은 n차 적률입니다. 적률생성함수는 미분을 이용하여 간편하게 적률을 구할수 있게 해주는 함수입니다. 확률변수 X의 적률생성함수는 아래와 같이 정의됩니다. etx의 기댓값입니다. MX(t)=E[etx] 확률변수가 이산확률변수라면 아래와 같이 계산됩니다. MX(t)=E[etx]=etxp(x) 확률변수가 연속확률변수라면 아래와 같이 계산됩니다. MX(t)=E[etx]=etxf(x)dx 변수는 X가 아니라 t입니다. X는 적분이되어 .. 2022. 7. 4.
[수리통계학] #33. 연속확률변수의 변수변환 (일대일 대응) 연속확률변수 XY가 있습니다. 확률변수 X의 분포함수는 알고 있는 상황입니다. 또한 Y=g(X) 라는 함수도 알고 있고 XY는 일대일 대응이라고 가정합시다. 이때 Y의 분포함수를 구하는 방법입니다. 알고 있는 것 : X의 분포함수 fX(x), Y=g(X) 조건 : XY는 일대일 대응 구해야 하는 것 : Y의 분포함수 fY(y) XY가 일대일 대응이므로 g(X) 는 증가함수이거나 감소함수입니다. 두 경우로 나눠서 fY(y) 구하는 방법을 알아봅시다. 1. g(X) 가 증가함수인 경우 연속확률변수이므로 특정 값에서의 확률을 정의할 수는 없습니다. 따라서 누적분포함수를 이용하여 접근하겠습니다. 아래 등식에서 출발.. 2022. 6. 30.
[수리통계학] #32. 이산확률변수의 변수변환 (일대일 대응) 이산확률변수 X와 Y가 있습니다. 확률변수 X의 분포함수는 알고 있는 상황입니다. 또한 Y=g(X) 라는 함수도 알고 있고 X와 Y는 일대일 대응이라고 가정합시다. 이때 Y의 분포함수를 구하는 방법입니다. 알고 있는 것 : X의 분포함수, X와 Y의 관계함수 (Y=g(X)) 조건 : X와 Y는 일대일 대응 구해야 하는 것 : Y의 분포함수 아래 등식에서 출발합니다. pY(y)=P[Y=y] 좌변의 py(y)는 확률변수 Y의 확률질량함수입니다. 우변은 확률변수 Y가 y일 확률입니다. Y=g(X) 이므로 위 식을 아래와 같이 변형할 수 있습니다. pY(y)=P[g(X)=y] g(X)=yX=g1(y) 로 변형할수 있고, 둘의 발생확률은 당연히 같습니다. 따라.. 2022. 6. 30.
[대푯값의 이해] 1. 평균과 중앙값의 발견 평균과 중앙값이 발견된 경로를 생각해봅시다. 아마 어떤 자료를 요약하는 과정에서 그 자료를 대표하는 값이 필요했고, 평균과 중앙값을 생각해냈을 것입니다. 더 나아가서 자료가 흩어진 정도를 알기 위해 분산, 표준편차, 중앙값절대편차 등을 생각했을 겁니다. 이것이 우리가 일반적으로 생각할 수 있는 발견 경로입니다. 이 글에서 다루려는 이야기는 우리가 일반적으로 생각할 수 있는 경로가 아닌 '측정'이라는 특수한 상황에서 평균과 중앙값이 발견된 과정을 다루려고 합니다. 무언가를 측정하는 상황을 가정합시다. 어떤 물체의 길이를 측정한다고 합시다. 측정 길이에는 참값이 존재할 것이지만, 측정 오차 때문에 측정 할 때마다 값이 조금씩 달라질 겁니다. 측정의 결과 아래와 같이 다섯개의 값이 얻어졌다고 해봅시다. 10,.. 2022. 6. 14.
[손으로 푸는 통계 ver1.0] 91. 표본분산의 분포 시뮬레이션 (4) p값 비교 표본분산의 분포와 카이제곱분포를 비교하고 있습니다. n1σ2s2χ2n1 지난시간에는 누적분포함수를 비교했습니다. 모집단이 균등분포를 따르는 경우 표본을 아무리 크게 해도 표본분산의 분포와 카이제곱분포가 일치하지 않았습니다. 이번 글에서는 p값을 비교해봅시다. 정량적인 비교입니다. 비교 방법을 설명하겠습니다. 카이제곱분포의 좌측꼬리 p값이 0.05가 나오는 확률변수 값을 히스토그램에 적용하여 p값을 구합니다. 0.05와 구해진 p값을 비교하면 됩니다. 우측꼬리에서도 같은 방법으로 p값을 구합니다. 모집단의 종류, 표본의 크기를 바꿔가며 구했습니다. 히스토그램은 표본 10000개를 뽑아서 그렸습니다. 히스토그램을 그리고 해당 히스토그램에서.. 2022. 6. 13.
반응형