본문 바로가기
반응형

통계213

[통계 연습용 데이터] 남자 30명/여자 30명 키 데이터 (엑셀) 남자 30명과 여자 30명의 키 데이터 입니다. 각 집단을 정규분포로 가정하였습니다. 정규분포의 평균과 표준편차를 입력하면 해당 정규분포에서 임의 추출되도록 하였습니다. 랜덤으로 추출된 값을 복사하고 값만 붙여넣기 하여 사용하시면 됩니다. 엑셀 데이터는 아래와 같습니다. 함수 설명 엑셀에는 정규분포에서 랜덤으로 추출하는 함수가 없습니다. 따라서 여러 함수를 조합하여 정규분포에서 랜덤추출하는 상황을 구현해야합니다. 구현 방법을 설명하겠습니다. 엑셀에는 표준정규분포의 역누적분포함수가 있습니다. 0~1 사이의 확률값을 입력하면 표준정규분포의 확률변수 값을 출력합니다. 예를 들어 확률 0.5를 입력하면 0이 출력됩니다. 표준정규분포의 역누적분포함수는 아래와 같습니다. norm.s.inv( ) 입력값으로 0~1 .. 2022. 8. 21.
[통계 Q&A] 유의 수준이 5%일때, 양측검정이면 유의수준이 2.5% 인가요? Q) 유의 수준이 5%일때, 양측검정이면 유의수준이 2.5% 인가요? A) 아닙니다. 양측검정이어도 유의수준은 5% 입니다. 모집단에서 표본을 하나 뽑는 상황을 가정합시다. 모집단의 평균은 $\mu$이고 분산은 $\sigma^2$ 입니다. 크기가 50인 표본을 하나 뽑았습니다. 방금 뽑은 표본의 평균을 $\bar{X}_{1}$이라고 놓겠습니다. 표본의 크기가 50인 표본들은 아래 분포를 따릅니다 . $\bar{X} \sim N \left ( \mu, \frac{\sigma^2}{50} \right )$ 표본을 뽑지 않아도 알 수 있는 사실입니다. 수학적으로 유도되었고 이를 중심극한정리라고 부릅니다. 표본평균 $\bar{X}_{1}$ 은 이 분포 위의 한 점입니다. 그림으로 나타내면 아래와 같습니다. 모집.. 2022. 8. 21.
[통계 Q&A] 표본표준편차와 표본평균의 표준편차는 다른것인가? Q) 표본표준편차와 표본평균의 표준편차는 다른것인가? A) 네 다릅니다. 모집단에서 표본을 뽑는 상황을 가정해봅시다. 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 표본을 뽑았습니다. 이 표본을 표본 1이라고 합시다. 표본의 원소는 (1,2,3) 이 뽑혔습니다. 그림으로 나타내면 아래와 같습니다. 표본표준편차 표본1의 평균을 구해보면 아래와 같습니다. $E[X_{1}]=\frac{1+2+3}{3}=2$ 표본1의 분산은 아래와 같이 구합니다. 분산은 표본 원소의 제곱의 평균 빼기 평균의 제곱을 계산하면 됩니다. $V[X_{1}]=\frac{1+4+9}{3}-2^2=\frac{2}{3}$ 표본1의 표준편차는 분산에 루트를 씌워서 구하면 됩니다. $\sigma[X_{1}]=\sqrt{\frac{.. 2022. 8. 21.
[통계 적률의 이해] 12. 정규분포의 첨도는 왜 3인가 우리는 10강에서 정규분포의 중심적률생성함수를 구했습니다. 아래와 같습니다. $M_{x-\mu}(t)=e^{\frac{\sigma^{2}t^{2}}{2}}$ 11강에서는 정규분포의 중심적률생성함수로 구한 2,3차 중심적률을 이용하여 정규분포의 왜도를 구했습니다. 지난시간에 구한 2,3차 중심적률과 왜도는 아래와 같습니다. $\mu_{2}=\sigma^{2}$ $\mu_{3}=0$ $\gamma_{1}=\frac{\mu_{3}}{\left ( \mu_{2} \right )^{\frac{3}{2}}}=0$ 오늘은 정규분포의 중심적률함수를 이용해서 정규분포의 첨도를 계산해보려고 합니다. 첨도를 중심적률로 나타내면 아래와 같습니다. $\kappa=\frac{\mu_{4}}{\mu_{2}^2}$ 4차 중심적률을 .. 2022. 8. 7.
[손으로 푸는 t검정] 1. 강의 소개 안녕하세요 통계의 본질입니다. 본 강의의 제목은 「손으로 푸는 t검정」 입니다. t검정의 원리를 수학적으로 이해해보는 강의입니다. t검정의 모든 과정을 수식으로 써가며 이해하는 것이 목적입니다. 선수 과목은 「손으로 푸는 통계」입니다. 여러분이 통계검정의 원리를 이해하고 있다고 가정하고 진행합니다. t 검정은 두 집단의 평균을 비교할 때 사용하는 통계분석입니다. 쉽게 생각할 수 있는 예시는 두 반의 수학점수 평균비교입니다. 이 예시의 독립변수와 종속변수를 알아봅시다. 독립변수는 반의 종류입니다. 반의 종류는 범주형 변수 입니다. 종속변수는 수학 점수이고 수치형 변수 입니다. 아래와 같이 정리할 수 있습니다. 독립변수 개수 종속변수 개수 독립변수 종류 종속변수 종류 t검정 1개 1개 범주형 수치형 t검정은.. 2022. 7. 31.
중심극한정리가 헷갈리시는 분들을 위한 극단적인 예시 중심극한정리는 아래와 같은 정리입니다. "모집단의 분포와 상관 없이 표본의 크기가 커지면 표본평균의 분포가 정규분포에 가까워져 간다." 표본의 크기가 충분히 크면 표본평균의 분포를 정규분포로 근사시킬 수 있다는 것입니다. 충분히 큰 표본의 크기를 보통 30으로 놓습니다. 중심극한정리를 헷갈려하시는 분들이 많아서 아주 극단적인 상황을 통해 설명을 하려고 합니다. 일부러 극단적인 상황을 선택했습니다. 극단적인 상황의 예시가 제대로 이해하지 못한 분들에게 리트머스 종이가 될 수 있기 때문입니다. 이게 된다고? 라는 생각이 드시는 분들은 중심극한정리를 제대로 이해하지 못하고 계셨던 것입니다. 이번 기회에 제대로 이해해 봅시다. 아래와 같은 모집단이 있다고 합시다. 모집단 = {1} 원소가 1 하나뿐인 모집단입니.. 2022. 7. 28.
통계적 유의차가 있다고 의미있는 차이일까 두 집단의 평균을 비교하기 위해 t검정을 했고 p값이 0.001이 나왔다고 합시다. p값이 0.05보다 작으므로 두 집단의 평균이 다르다고 판단할 것입니다. 하지만 통계적 유의차가 있다고 정말 의미있는 차이일지는 생각을 해봐야 합니다. 통계적 유의차가 있는 것과 실제로 의미있는 차이인 것은 별개의 문제입니다. 아래 사례를 통해 알아봅시다. 두 모집단 A와 B가 있습니다. 변수는 키(height)라고 합시다. 집단 A의 평균 키는 180, 집단 B의 평균 키는 180.01이라고 합시다. 각 집단에서 크기가 n인 표본을 뽑았습니다. 집단 A의 표본평균과 표본분산은 $\bar{X}_{A}$, $s_{A}$ 이고 집단 B의 표본평균과 표본분산은 $\bar{X}_{B}$, $s_{B}$ 라고 합시다. 그림으.. 2022. 7. 22.
[손으로 푸는 통계 ver1.0] 99. t 분포의 등장배경 (고셋과 스튜던트) 96~98강에서 Z검정에 모분산 대신 표본분산을 사용할 수 있는지 시뮬레이션을 통해 알아보았습니다. 표본의 크기가 30 이상인 경우 아래의 Z통계량에서 모표준편차 $\sigma$대신 표본표준편차 $s$를 사용해도 된다고 알려져 있는데, 정말 그런지 확인해본 것입니다. $Z=\frac{\bar{X}- mu}{\frac{\sigma}{\sqrt{n}}}$ 모집단의 분포는 정규분포와 균등분포 두 가지로 설정하였습니다. 모분산을 사용하여 계산한 p값과 표본분산을 사용하여 계산한 p값의 차이가 10% 이하가 되게 하는 표본크기를 구했습니다. 정규분포 모집단의 경우는 638, 균등분포 모집단의 경우는 1279 이었습니다. 95% 신뢰구간에서 계산된 것이고 99%로 신뢰도를 높이면 표본크기는 더 커질 것입니다. 현실.. 2022. 7. 22.
[손으로 푸는 통계 ver1.0] 98. 표본분산을 모분산 대신 사용할 수 있는가 (3) 균등분포를 따르는 모집단에서 p값 비교 Z검정에서 표본의 크기가 충분히 크면 모표준편차 대신 표본표준편차를 사용할 수 있는지 알아보고 있습니다. 지난시간까지 정규분포를 따르는 모집단에서 모분산을 사용한 경우와 표본분산을 사용한 경우의 p값을 비교하였습니다. 표본의 크기가 수천 이상인 경우에 납득할 만한 차이가 발생했습니다. 통상적으로 사용하는 표본크기인 30개에서는 모분산 대신 표본분산을 사용하는 것이 어렵다고 결론내렸습니다. 이번 시간에는 모집단의 분포를 균등분포로 바꿔봅시다. 방법론은 지난 두 강의에서 자세히 다뤘으니 이번 시간에는 p값을 바로 비교해봅시다. 모집단이 균등분포를 따를 경우 표본분산은 아래 분포를 따릅니다. $2.5n \frac{s^2}{\sigma^2} \sim \chi ^2_{2.5n}$ 확률 95%로 표본분산이 뽑힐 범.. 2022. 7. 21.
[손으로 푸는 통계 ver1.0] 96. 표본분산을 모분산 대신 사용할 수 있는가 (1) 정규분포를 따르는 모집단에서 모분산과 표본분산 비교 모집단의 평균이 얼마라고 알려져 있는 상황에서 표본을 뽑아서 알려진 모집단의 평균이 맞는지 확인하는 검정을 일표본 Z검정이라고 합니다. 이러한 일표본 Z검정 과정에서 모분산이 사용되는데요. 대부분의 경우 모분산은 알려져 있지 않습니다. 모분산을 모르면 Z검정을 할 수 없기 때문에 표본분산을 모분산 대신 사용합니다. 표본의 크기가 충분히 크면 모분산과 표본분산의 차이가 크지 않을 것이라는 생각 때문입니다. 과연 그래도 되는 것인지를 오늘 확인하려고 합니다. 모집단은 두가지로 설정하였습니다. 정규분포를 따르는 모집단과 균등분포를 따르는 모집단입니다. 이번 글에서는 정규분포를 따르는 모집단의 경우를 알아봅시다. 표본크기 n이 100이라고 가정해봅시다. 정규분포를 따르는 모집단이라고 가정했기 때문에 표본분산은 .. 2022. 7. 21.
n이 커지면 정규분포로 근사시킬 수 있는 분포들 t분포 카이제곱분포 푸아송분포 Erlang 분포 이항분포 2022. 7. 21.
[지수분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 지수분포의 통계량들을 표로 요약한 내용입니다. 정의 - 단위시간당 평균 발생횟수가 $\lambda$일 때, 사건이 처음 발생할 때 까지 걸리는 시간이 T이하일 확률에 대한 분포 - 사건이 처음 발생할 때까지 걸리는 시간이 T 이하일 확률은 지수분포의 누적분포함수인 $F(T)$임 정의역 $0 \leq x < \infty$ 분포함수 $f(x)=\lambda e^{-\lambda x}$ 누적분포함수 $F(x)=1-e^{-\lambda x}$ 평균 $\frac{1}{\lambda}$ 분산 $\frac{1}{\lambda^2}$ 왜도 2 첨도 9 적률생성함수 $\left ( 1-\frac{t}{\lambda} \right )^{-1}$ 특성함수 $\left ( 1-\frac{it}{\lambda} \right ).. 2022. 7. 21.
p 값이 0.05 일 때 Z는 얼마일까 먼저 단측검정에서 p값이 0.05 일 때 Z값이 얼마인지 알아봅시다. Z값은 표준정규분포의 정의역 값입니다. 그림으로 나타내면 아래와 같습니다. Z*를 구하는 방법입니다. 표준정규분포의 누적분포함수를 구합니다. 누적분포함수의 역함수를 구합니다. 누적분포함수의 역함수에 0.95를 대입합니다. 엑셀에서는 NORM.S.INV(0.95) 라고 입력하면 됩니다. Z*는 아래와 같습니다. Z*=1.64485 양측검정에서 p가 0.05가 되는 Z*값은 두개가 있습니다. 그림으로 나타내면 아래와 같습니다. 얼마일까요? 여러분이 잘 아시는 값입니다. 95% 신뢰구간 식에 등장하는 값입니다. -1.96과 1.96입니다. 2022. 7. 20.
[손으로 푸는 통계 ver1.0] 95. 표본분산의 분포 요약 36강 부터 94강까지 표본분산의 분포에 대한 내용을 다뤘습니다. 표본분산의 분포를 유도한 이유는 Z검정 때문이었습니다. Z검정은 표본평균의 분포를 이용해서 하는 검정입니다. n이 충분히 클 때 표본 평균의 분포가 아래와 같은 분포를 따르게 됩니다. $\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$ 그런데 모집단의 분산인 $\sigma^2$ 은 알 수 없으므로 모집단의 분산 대신 표본분산을 사용했습니다. 그래도 되는 것인지 확인하고 싶었습니다. 표본분산의 분포를 알아야 정량적인 확인이 가능해서 표본분산의 분포를 유도한 것입니다. 표본분산의 분포를 유도할 때 모집단이 정규분포를 따른다는 가정이 필요했습니다. 크기가 n인 표본분산의 분포는 아래와 같이 유도되.. 2022. 7. 20.
[손으로 푸는 통계 ver1.0] 94. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (3) 유도한 식 검증 지난 글에서 아래 식을 유도했습니다. 1번 식이라고 하겠습니다. $DF\frac{s^2}{\sigma^2} \sim \chi ^2_{DF} \ \left ( DF=\frac{2n}{\kappa-1} \right )$ (1) 모집단의 정규성을 가정하고 유도했던 표본분산의 분포 식과 비슷하지만 어딘가 다른 식입니다. 모집단의 정규성을 가정하고 유도한 표본분산의 분포 식은 아래와 같습니다. 2번 식이라고 합시다. $\frac{n-1}{\sigma^2}s^2 \sim \chi ^2_{n-1}$ (2) 2번 식은 두가지 조건을 가정하고 유도했습니다. 1. 표본평균의 분포가 정규분포를 따를 만큼 표본의 크기가 크다. 2. 모집단이 정규분포를 따른다. 사실 두번째 조건이 만족되면 첫번째 조건을 필요 없습니다. 모집단.. 2022. 7. 18.
[손으로 푸는 통계 ver1.0] 93. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (2) 정규분포를 카이제곱분포로 근사 모집단에서 표본을 뽑을 때 표본의 크기 n이 충분히 크다면, 모집단의 분포와 상관 없이 표본분산의 분포는 카이제곱분포를 따른다는 것을 증명하고 있습니다. 아래와 같이 두 단계로 나눠서 증명하고 있습니다. Step 1. $\frac{s^{2}}{\sigma^2}$ 의 분포 유도 Step 2. 정규분포를 카이제곱분포로 근사 지난시간에 Step1 내용을 유도했고 결과는 아래와 같습니다. $\frac{s^{2}}{\sigma^2} \sim N\left ( 1,\frac{\kappa-1}{n} \right )$ 오늘은 정규분포를 카이제곱분포로 근사시킨 뒤, 위 식을 변형할 것입니다. 자유도가 k인 카이제곱분포를 따르는 확률변수는 아래와 같이 놓을 수 있습니다. $\chi ^{2}_{k}=\sum_{i=1}^{k}.. 2022. 7. 17.
[손으로 푸는 통계 ver1.0] 92. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (1) $\frac{s^{2}}{\sigma^2}$ 의 분포 유도 표본분산의 분포가 카이제곱분포를 따르려면 모집단이 정규분포를 따른다는 조건이 필요했습니다. 87강에서 논문을 소개하며 n이 충분히 크면 모집단이 정규분포를 따르지 않아도 표본분산이 카이제곱분포를 따른다는 것을 보여드렸는데요. 증명은 하지 않고 넘어갔습니다. 증명이 너무 길어서 넘어갔다고 말씀드렸었는데, 논문을 다시 보니 생각보다 길지는 않았습니다. 또한 시뮬레이션을 통해 위 성질이 성립하는지 시험에보았지만 성립하지 않았습니다. 위 조건을 직접 증명하며 이유를 알아봅시다. 논문의 증명을 더 쉽게 이해할 수 있도록 약간 수정하였습니다. 증명은 두 단계로 나뉩니다. Step 1. $\frac{s^{2}}{\sigma^2}$ 의 분포 유도 Step 2. 정규분포를 카이제곱분포로 근사 이번 글에서는 Step1 을.. 2022. 7. 16.
정규분포를 따르는 확률변수의 실수배 aX 의 분포 변수 X가 평균이 $\mu$이고, 분산이 $\sigma^{2}$인 정규분포를 따른다고 합시다. 기호로는 아래와 같이 나타냅니다. $X \sim N \left( \mu,\sigma^{2} \right)$ 변수 X에 상수를 곱한 aX는 어떤 분포를 따르는지 알아봅시다. a는 양수라고 가정합시다. aX를 확률변수 Y라고 놓겠습니다. $Y=aX$ Y의 누적분포함수는 아래와 같이 정의할 수 있습니다. $G(y)=P\left[ Y \leq y \right]$ aX=Y 를 이용하여 아래와 같이 변형합시다. $G(y)=P\left[ aX \leq y \right]$ a의 범위에 따라 둘로 나뉩니다. a가 양수인 경우 부등식의 양변을 a로 나눠줍니다. $G(y)=P\left[ X \leq \frac{y}{a} \righ.. 2022. 7. 16.
Welch two sample t-test 가 뭔가요? R로 t검정을 해보신 분들은 결과 창에서 Welch two sample test 를 본 적이 있으실겁니다. var.equal 을 FALSE 로 할 경우 아래와 같이 출력됩니다. > t.test(male,female) Welch Two Sample t-test data: male and female t = 6.9208, df = 57.854, p-value = 4.026e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 12.23857 22.19969 sample estimates: mean of x mean of y 171.5828 154.3637 Welch Two Sam.. 2022. 7. 10.
F test (F검정) 은 도데체 언제 쓰는걸까?? 데이터의 통계분석을 할 때 아래의 검정들을 주로 사용합니다. 독립표본 t검정 : 독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때) 대응표본 t검정 : 쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때) 분산분석 : 세 그룹의 평균 비교 (정규분포 가정이 가능할 때) 상관분석 : 두 수치형 변수 사이의 상관관계 유무와 강도 계산 회귀분석 : 종속변수와 독립변수의 관계를 모델링 F검정은 많이 들어보긴 했는데 쓰는 경우를 자주 못보셨을 겁니다. 물론 엑셀에서 t검정을 하기 전에 등분산/이분산 여부를 알기 위해 쓰지만 F검정의 결과를 데이터 분석의 결과로 이용하는 것은 아닙니다. 또 분산분석에서 F검정을 사용하지만 이때도 평균을 비교하기 위한 수단으로 사용하는 것이지 F검정 결과를 직접 이용하지는 .. 2022. 7. 9.
적률생성함수 vs 특성함수 적률생성함수 (Moment Generating Function) 적률생성함수는 그 이름에서도 알 수 있듯 적률을 생성해주는 함수입니다. 적률이 무엇인지 먼저 알아야 겠죠. 적률은 아래와 같이 정의됩니다. $E\left [ X^n \right ]$ X 는 확률변수입니다. 확률변수 $X^n$ 의 기댓값을 적률이라고 합니다. 적률에는 차수가 있습니다. $E\left [ X^n \right ]$ 은 n차적률입니다. $E\left [ X \right ]$ 은 1차적률이고, $E\left [ X^2 \right ]$ 은 2차 적률입니다. 적률은 통계량과 관련있습니다. 1차적률은 평균이고 2차적률은 분산을 구할때 사용됩니다. 3차적률은 왜도, 4차적률은 첨도와 관련있습니다. 적률을 생성하는 함수인 적률생성함수는 아래.. 2022. 7. 9.
[수리통계학] #34. 적률생성함수란 무엇인가 적률생성함수는 적률을 생성하는 함수입니다. 적률은 아래와 같이 정의됩니다. $E[X^n]$ 적률은 확률변수의 거듭제곱의 기댓값입니다. 적률에는 차수가 있습니다. 위 적률은 n차 적률입니다. 적률생성함수는 미분을 이용하여 간편하게 적률을 구할수 있게 해주는 함수입니다. 확률변수 X의 적률생성함수는 아래와 같이 정의됩니다. $e^{tx}$의 기댓값입니다. $M_{X}(t)=E[e^{tx}]$ 확률변수가 이산확률변수라면 아래와 같이 계산됩니다. $M_{X}(t)=E[e^{tx}]=\sum e^{tx}p(x)$ 확률변수가 연속확률변수라면 아래와 같이 계산됩니다. $M_{X}(t)=E[e^{tx}]=\int_{-\infty}^{\infty} e^{tx}f(x)dx$ 변수는 X가 아니라 t입니다. X는 적분이되어 .. 2022. 7. 4.
[손으로 푸는 통계 ver1.0] 91. 표본분산의 분포 시뮬레이션 (4) p값 비교 표본분산의 분포와 카이제곱분포를 비교하고 있습니다. $\frac{n-1}{\sigma^{2}}s^{2} \sim \chi^{2}_{n-1}$ 지난시간에는 누적분포함수를 비교했습니다. 모집단이 균등분포를 따르는 경우 표본을 아무리 크게 해도 표본분산의 분포와 카이제곱분포가 일치하지 않았습니다. 이번 글에서는 p값을 비교해봅시다. 정량적인 비교입니다. 비교 방법을 설명하겠습니다. 카이제곱분포의 좌측꼬리 p값이 0.05가 나오는 확률변수 값을 히스토그램에 적용하여 p값을 구합니다. 0.05와 구해진 p값을 비교하면 됩니다. 우측꼬리에서도 같은 방법으로 p값을 구합니다. 모집단의 종류, 표본의 크기를 바꿔가며 구했습니다. 히스토그램은 표본 10000개를 뽑아서 그렸습니다. 히스토그램을 그리고 해당 히스토그램에서.. 2022. 6. 13.
[손으로 푸는 통계 ver1.0] 90. 표본분산의 분포 시뮬레이션 (3) 누적분포함수 비교 지난 글에서 표본분산의 분포를 히스토그램으로 그려보았습니다. 모집단을 설정하고 실제 표본을 뽑아서 그린 히스토그램과 표본크기에서 1을 뺀 자유도를 갖는 카이제곱분포 함수를 그렸다. 모집단이 균등분포를 따르는 경우 표본분산의 분포와 카이제곱분포는 잘 일치하지 않았습니다. 위에 그린 함수는 확률밀도함수인데요. 표본분산의 분포를 그릴 때 히스토그램 형태로 그려야 하기 때문에 구간 간격에 따라 모양이 조금씩 달라집니다. 누적분포함수로 그릴 경우 이러한 문제가 없어지기 때문에 누적분포함수로도 그려보려고 합니다. 실험 방법은 앞의 글과 동일합니다. 모집단은 네 가지 종류로 설정했습니다. 모집단1 : 1~10 의 자연수. 1:10으로 표기 모집단2 : 1~1000 의 자연수. 1:1000으로 표기 모집단3 : 표준정.. 2022. 6. 8.
[손으로 푸는 통계 ver1.0] 89. 표본분산의 분포 시뮬레이션 (2) 뭔가 이상하다 아래는 지난시간에 그렸던 그래프입니다. 1~10의 자연수를 갖는 모집단에서 크기가 30인 표본을 뽑고, 표본분산의 분포를 그래프로 그린 것입니다. 더 정확히 말하면 아래 확률변수의 분포입니다. $\frac{n-1}{\sigma^{2}}s^{2}$ 오른쪽 그림은 29자유도의 카이제곱분포입니다. n이 커지면 표본분산의 그래프는 n-1 자유도 카이제곱분포를 따른다고 알려져 있습니다. 나란히 그려진 상태에서 보니 비슷해 보였는데요. 그래프를 겹쳐서 그려보니 이야기가 달라졌습니다. 많이 다릅니다. 겹쳐 그린 그래프로 다시 시뮬레이션을 해보려고 합니다. 모집단을 더 다양화했고 절차도 가다듬었습니다. 1. 배경 우리가 표본분산의 분포를 유도할 때 설정했던 두 가지 조건은 아래와 같습니다. 1) 표본평균의 분포가 정규.. 2022. 6. 6.
[확률과통계 기초] 1-8. 조합의 성질 (2) $_{n}C_{r}=_{n-1}C_{r}+_{n-1}C_{r-1}$ 직관적이해와 증명 지난시간에 이어서 조합의 성질을 알아봅시다. 오늘은 아래 두 성질 중 두번째 성질을 공부해보겠습니다. 1) $_{n}C_{r}=_{n}C_{n-r}$ 2) $_{n}C_{r}=_{n-1}C_{r}+_{n-1}C_{r-1}$ $n$개에서 $r$개를 뽑는 것과, $n-1$개에서 $r$개를 뽑고 $n-1$개에서 $r-1$개를 뽑는 것의 경우의 수가 같다는 성질입니다. 숫자를 넣어 보면 아래와 같습니다. $_{5}C_{3}=_{4}C_{3}+_{4}C_{2}$ 수학적으로 증명하기 전에 직관적으로 이해해봅시다. ABCDE 중에 3개를 뽑는 경우를 생각해 봅시다. ABC ABD ABE ... 위 경우는 둘로 나눌 수 있습니다. A가 들어있는 경우와 A가 들어있지 않은 경우입니다. A가 들어간 경우의 수는 A를 제외.. 2022. 5. 20.
[확률과통계 기초] 1-5. 순열이란 무엇인가 순열은 '순서가 있는 나열'입니다. 순열이라는 두글자만 사용하는 경우는 드물고, 아래와 같이 사용합니다. 'n개에서 r개를 택하는 순열' 풀어서 설명하면 이렇습니다. '서로 다른 n개 중에서 r개를 뽑아서 순서가 있게 나열하는 것' 예를 들면 a,b,c 세개의 알파벳 중에서 2개를 택하는 순열은 아래와 같습니다. ab bc ac ca bc cb 이떄, 나열하는 개수를 '순열의 수'라고 합니다. 3개 중에서 2개를 택하는 순열의 수는 6가지인 것입니다. 좀 헷갈리죠. 정리해봅시다. 용어 의미 예시 순열 순서가 있는 나열 n개에서 r개를 택하는 순열 n개에서 r개를 뽑아서 순서가 있게 나열 a,b,c 에서 2개를 택하는 순열 순열의 수 순서가 있게 나열하는 경우의 수 6가지 조금 더 복잡한 예시를 통해 순열.. 2022. 5. 20.
[확률과통계] 짝수눈 vs 홀수눈 배반사건일까? 짝수눈과 홀수눈이 나오는 사건은 배반사건일까요? 그럴 수도 있고 아닐 수도 있습니다. 주사위를 한번 던질 때, 홀수눈이 나오는 사건과 짝수눈이 나오는 사건은 배반사건입니다. 홀수눈이 나오면 짝수눈은 나올 수 없기 때문입니다. 주사위를 두 개로 늘려봅시다. 주사위 A와 주사위 B가 있습니다. 두 주사위를 던질 때 주사위 A에서 홀수 눈이 나오는 사건과, 주사위 B에서 짝수 눈이 나오는 사건은 배반사건이 아닙니다. 서로 전혀 영향을 주지 않습니다. 둘은 서로 독립관계입니다. 배반사건으로 보이는데 알고 보면 독립사건이라 헷갈릴 때가 있는데요. 위와 같이 구분을 해놓으면 덜 헷갈립니다. 2022. 5. 18.
[손으로 푸는 통계 ver1.0] 88. 표본분산의 분포 시뮬레이션 (1) 확률밀도함수 비교 우리가 표본분산의 분포를 유도할 때 설정했던 두가지 조건입니다. 1) 표본평균의 분포가 정규분포를 따를 만큼 표본의 크기 n이 크다. 2) 모집단의 분포는 정규분포를 따른다. 1번은 표본의 크기를 충분히 크게 하면 되는거구요. 두번째 조건도 표본의 크기가 충분히 크면 무시할 수 있다는 것을 지난시간에 다뤘습니다. 증명하진 않고 증명이 되어 있는 논문만 보여드렸습니다. 오늘은 통계 프로그램인 R을 이용해서 정말 표본의 크기가 충분히 크면 모집단이 정규분포를 따르지 않아도 표본분산이 카이제곱분포를 따르는지 확인해보려고 합니다. 모집단은 1부터 10까지의 자연수로 설정했습니다. 전혀 정규분포가 아닙니다. 모집단 = {1,2,3,4,5,6,7,8,9,10} 크기가 2인 표본 크기가 2인 표본을 10000개 뽑아.. 2022. 5. 12.
z분포 vs t분포 표본의 크기에 따른 z분포와 t분포의 차이입니다. n이 3일 때는 t분포가 z분포보다 두터운 꼬리를 갖고 있습니다. n이 커질 수록 t 분포가 z분포에 가까워져 갑니다. 꼬리가 두텁다는 말은 같은 통계량에서 p값이 더 크다는 말입니다. p값이 커서 기각을 덜하게 되므로 보수적이라 할 수 있습니다. n이 커지면서 t분포는 z분포에 가까워져 갑니다. 얼마나 더 보수적인지 수치로 알아봅시다. 표본크기 z값 (p값) t값 (p값) 3 1.644854 (0.05) 1.644854 (0.099) 10 1.644854 (0.05) 1.644854 (0.065) 30 1.644854 (0.05) 1.644854 (0.055) 50 1.644854 (0.05) 1.644854 (0.053) 표본 크기가 30 정도여도 차.. 2022. 5. 9.
반응형