본문 바로가기
반응형

전체 글645

n이 커지면 정규분포로 근사시킬 수 있는 분포들 t분포 카이제곱분포 푸아송분포 Erlang 분포 이항분포 2022. 7. 21.
[지수분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 지수분포의 통계량들을 표로 요약한 내용입니다. 정의 - 단위시간당 평균 발생횟수가 $\lambda$일 때, 사건이 처음 발생할 때 까지 걸리는 시간이 T이하일 확률에 대한 분포 - 사건이 처음 발생할 때까지 걸리는 시간이 T 이하일 확률은 지수분포의 누적분포함수인 $F(T)$임 정의역 $0 \leq x < \infty$ 분포함수 $f(x)=\lambda e^{-\lambda x}$ 누적분포함수 $F(x)=1-e^{-\lambda x}$ 평균 $\frac{1}{\lambda}$ 분산 $\frac{1}{\lambda^2}$ 왜도 2 첨도 9 적률생성함수 $\left ( 1-\frac{t}{\lambda} \right )^{-1}$ 특성함수 $\left ( 1-\frac{it}{\lambda} \right ).. 2022. 7. 21.
p 값이 0.05 일 때 Z는 얼마일까 먼저 단측검정에서 p값이 0.05 일 때 Z값이 얼마인지 알아봅시다. Z값은 표준정규분포의 정의역 값입니다. 그림으로 나타내면 아래와 같습니다. Z*를 구하는 방법입니다. 표준정규분포의 누적분포함수를 구합니다. 누적분포함수의 역함수를 구합니다. 누적분포함수의 역함수에 0.95를 대입합니다. 엑셀에서는 NORM.S.INV(0.95) 라고 입력하면 됩니다. Z*는 아래와 같습니다. Z*=1.64485 양측검정에서 p가 0.05가 되는 Z*값은 두개가 있습니다. 그림으로 나타내면 아래와 같습니다. 얼마일까요? 여러분이 잘 아시는 값입니다. 95% 신뢰구간 식에 등장하는 값입니다. -1.96과 1.96입니다. 2022. 7. 20.
[F분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 F분포의 통계량들을 표로 요약한 내용입니다. 정의 - 자유도가 $k_{1}$인 카이제곱분포를 따르는 확률변수를 $\chi_{k_1}$, 자유도가 $k_{2}$인 카이제곱분포를 따르는 확률변수를 $\chi_{k_2}$ 라고 합시다. 이때 F분포를 따르는 확률변수 F는 아래와 같이 정의됩니다. $F=\frac{ \frac{\chi_{k_1}}{k_1} }{ \frac{\chi_{k_2}}{k_2} } \sim F\left ( k_{1},k_{2} \right )$ 정의역 $0 \leq x < \infty$ 분포함수 $f(x;k_{1},k_{2})=\frac{\sqrt{\frac{\left ( k_1 x\right )^{k_1} k_2^{k_2}} { \left ( k_1 x+k_2 \right )^{k_1+.. 2022. 7. 20.
[손으로 푸는 통계 ver1.0] 95. 표본분산의 분포 요약 36강 부터 94강까지 표본분산의 분포에 대한 내용을 다뤘습니다. 표본분산의 분포를 유도한 이유는 Z검정 때문이었습니다. Z검정은 표본평균의 분포를 이용해서 하는 검정입니다. n이 충분히 클 때 표본 평균의 분포가 아래와 같은 분포를 따르게 됩니다. $\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$ 그런데 모집단의 분산인 $\sigma^2$ 은 알 수 없으므로 모집단의 분산 대신 표본분산을 사용했습니다. 그래도 되는 것인지 확인하고 싶었습니다. 표본분산의 분포를 알아야 정량적인 확인이 가능해서 표본분산의 분포를 유도한 것입니다. 표본분산의 분포를 유도할 때 모집단이 정규분포를 따른다는 가정이 필요했습니다. 크기가 n인 표본분산의 분포는 아래와 같이 유도되.. 2022. 7. 20.
[손으로 푸는 통계 ver1.0] 94. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (3) 유도한 식 검증 지난 글에서 아래 식을 유도했습니다. 1번 식이라고 하겠습니다. $DF\frac{s^2}{\sigma^2} \sim \chi ^2_{DF} \ \left ( DF=\frac{2n}{\kappa-1} \right )$ (1) 모집단의 정규성을 가정하고 유도했던 표본분산의 분포 식과 비슷하지만 어딘가 다른 식입니다. 모집단의 정규성을 가정하고 유도한 표본분산의 분포 식은 아래와 같습니다. 2번 식이라고 합시다. $\frac{n-1}{\sigma^2}s^2 \sim \chi ^2_{n-1}$ (2) 2번 식은 두가지 조건을 가정하고 유도했습니다. 1. 표본평균의 분포가 정규분포를 따를 만큼 표본의 크기가 크다. 2. 모집단이 정규분포를 따른다. 사실 두번째 조건이 만족되면 첫번째 조건을 필요 없습니다. 모집단.. 2022. 7. 18.
[손으로 푸는 통계 ver1.0] 93. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (2) 정규분포를 카이제곱분포로 근사 모집단에서 표본을 뽑을 때 표본의 크기 n이 충분히 크다면, 모집단의 분포와 상관 없이 표본분산의 분포는 카이제곱분포를 따른다는 것을 증명하고 있습니다. 아래와 같이 두 단계로 나눠서 증명하고 있습니다. Step 1. $\frac{s^{2}}{\sigma^2}$ 의 분포 유도 Step 2. 정규분포를 카이제곱분포로 근사 지난시간에 Step1 내용을 유도했고 결과는 아래와 같습니다. $\frac{s^{2}}{\sigma^2} \sim N\left ( 1,\frac{\kappa-1}{n} \right )$ 오늘은 정규분포를 카이제곱분포로 근사시킨 뒤, 위 식을 변형할 것입니다. 자유도가 k인 카이제곱분포를 따르는 확률변수는 아래와 같이 놓을 수 있습니다. $\chi ^{2}_{k}=\sum_{i=1}^{k}.. 2022. 7. 17.
[손으로 푸는 통계 ver1.0] 92. 표본분산의 분포에서 모집단 정규분포 조건제거 증명 (1) $\frac{s^{2}}{\sigma^2}$ 의 분포 유도 표본분산의 분포가 카이제곱분포를 따르려면 모집단이 정규분포를 따른다는 조건이 필요했습니다. 87강에서 논문을 소개하며 n이 충분히 크면 모집단이 정규분포를 따르지 않아도 표본분산이 카이제곱분포를 따른다는 것을 보여드렸는데요. 증명은 하지 않고 넘어갔습니다. 증명이 너무 길어서 넘어갔다고 말씀드렸었는데, 논문을 다시 보니 생각보다 길지는 않았습니다. 또한 시뮬레이션을 통해 위 성질이 성립하는지 시험에보았지만 성립하지 않았습니다. 위 조건을 직접 증명하며 이유를 알아봅시다. 논문의 증명을 더 쉽게 이해할 수 있도록 약간 수정하였습니다. 증명은 두 단계로 나뉩니다. Step 1. $\frac{s^{2}}{\sigma^2}$ 의 분포 유도 Step 2. 정규분포를 카이제곱분포로 근사 이번 글에서는 Step1 을.. 2022. 7. 16.
정규분포를 따르는 확률변수의 실수배 aX 의 분포 변수 X가 평균이 $\mu$이고, 분산이 $\sigma^{2}$인 정규분포를 따른다고 합시다. 기호로는 아래와 같이 나타냅니다. $X \sim N \left( \mu,\sigma^{2} \right)$ 변수 X에 상수를 곱한 aX는 어떤 분포를 따르는지 알아봅시다. a는 양수라고 가정합시다. aX를 확률변수 Y라고 놓겠습니다. $Y=aX$ Y의 누적분포함수는 아래와 같이 정의할 수 있습니다. $G(y)=P\left[ Y \leq y \right]$ aX=Y 를 이용하여 아래와 같이 변형합시다. $G(y)=P\left[ aX \leq y \right]$ a의 범위에 따라 둘로 나뉩니다. a가 양수인 경우 부등식의 양변을 a로 나눠줍니다. $G(y)=P\left[ X \leq \frac{y}{a} \righ.. 2022. 7. 16.
신뢰구간과 신뢰수준의 진짜 의미 모수 추정에 대한 질문을 하나 받았습니다. 모수추정을 그냥 설명할 수도 있지만, 질문으로 부터 출발하면 이해가 한결 쉬울 것입니다. 질문을 요약하면 이렇습니다. "통계량과 모수의 관계를 도출할 때, 표본의 분포를 가정한다. 왜 추정할때는 하나의 표본만 뽑아놓고 분포를 사용하는가?" "모분산 대신 하나의 표본분산을 사용하는데 그래도 되는가?" 모수추정에 대해 알아보며 위 의문을 해결해봅시다. 모수(parameter)는 모집단의 통계량을 말합니다. 모평균이나 모분산 등이 있습니다. 모집단이 하나 있다고 합시다. 모집단의 평균과 분산은 모릅니다. 모르기 때문에 추정을 하는 것입니다. 표본을 아주 많이 뽑아서 모집단을 추정하면 좋겠지만, 현실적으로 불가능합니다. 이 글에서는 크기가 n인 '하나'의 표본만 뽑을 .. 2022. 7. 16.
Welch two sample t-test 가 뭔가요? R로 t검정을 해보신 분들은 결과 창에서 Welch two sample test 를 본 적이 있으실겁니다. var.equal 을 FALSE 로 할 경우 아래와 같이 출력됩니다. > t.test(male,female) Welch Two Sample t-test data: male and female t = 6.9208, df = 57.854, p-value = 4.026e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 12.23857 22.19969 sample estimates: mean of x mean of y 171.5828 154.3637 Welch Two Sam.. 2022. 7. 10.
머신러닝 책 두권 무료로 다운로드 받는 방법 (스텐포드) 스텐포드 교수님 세분이 공동으로 집필하신 머신러닝 책을 다운받는 방법을 알려드리겠습니다. 불법 다운로드 아니구요. 공식적으로 다운받는 방법입니다. 세분 교수님 성함은 아래와 같습니다. Trevor Hastie, Robert Tibshirani, Jerome H. Friedman 책 제목은 아래와 같습니다. 1) An Introduction to Statistical Learning with Applications in R (다운로드 링크) 2) The Elements of Statistical Learning (다운로드 링크) 난이도는 2번 책보다 1번 책이 더 쉽습니다. 1번 책은 국내에 「가볍게 시작하는 통계학습」 이라는 제목으로 번역 출간되어 있습니다. 1번 책은 회귀분석, 로지스틱회귀분석, 부트스.. 2022. 7. 10.
자른평균이 뭐죠? 왜 사용하나요?? (trimmed mean) 모집단의 분포가 심하게 치우쳐 있는 경우에는 표본평균들의 값의 차이가 커집니다. 따라서 모집단을 추정할 때 표본에 따라 추정값이 매우 달라집니다. 이러한 문제를 보완하기 위해 등장한 평균이 '자른평균'입니다. 양쪽의 극단적인 10%를 또는 20%를 제거하고 평균을 구하는 것입니다. 영어로는 trimmed mean 이라고 합니다. 통계 소프트웨어 R을 이용하여 예시를 하나 만들어 봤습니다. {1,11,12,15,16,17,18,21,25,121} 이라는 표본이 뽑혔다고 해봅시다. 데이터는 총 10개입니다. R을 이용하여 평균을 구하면 아래와 같습니다. > my_data=c(1,11,12,15,16,17,18,21,25,121) > mean(my_data) [1] 25.7 양쪽 10%를 자르고 평균을 구하면.. 2022. 7. 10.
F test (F검정) 은 도데체 언제 쓰는걸까?? 데이터의 통계분석을 할 때 아래의 검정들을 주로 사용합니다. 독립표본 t검정 : 독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때) 대응표본 t검정 : 쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때) 분산분석 : 세 그룹의 평균 비교 (정규분포 가정이 가능할 때) 상관분석 : 두 수치형 변수 사이의 상관관계 유무와 강도 계산 회귀분석 : 종속변수와 독립변수의 관계를 모델링 F검정은 많이 들어보긴 했는데 쓰는 경우를 자주 못보셨을 겁니다. 물론 엑셀에서 t검정을 하기 전에 등분산/이분산 여부를 알기 위해 쓰지만 F검정의 결과를 데이터 분석의 결과로 이용하는 것은 아닙니다. 또 분산분석에서 F검정을 사용하지만 이때도 평균을 비교하기 위한 수단으로 사용하는 것이지 F검정 결과를 직접 이용하지는 .. 2022. 7. 9.
적률생성함수 vs 특성함수 적률생성함수 (Moment Generating Function) 적률생성함수는 그 이름에서도 알 수 있듯 적률을 생성해주는 함수입니다. 적률이 무엇인지 먼저 알아야 겠죠. 적률은 아래와 같이 정의됩니다. $E\left [ X^n \right ]$ X 는 확률변수입니다. 확률변수 $X^n$ 의 기댓값을 적률이라고 합니다. 적률에는 차수가 있습니다. $E\left [ X^n \right ]$ 은 n차적률입니다. $E\left [ X \right ]$ 은 1차적률이고, $E\left [ X^2 \right ]$ 은 2차 적률입니다. 적률은 통계량과 관련있습니다. 1차적률은 평균이고 2차적률은 분산을 구할때 사용됩니다. 3차적률은 왜도, 4차적률은 첨도와 관련있습니다. 적률을 생성하는 함수인 적률생성함수는 아래.. 2022. 7. 9.
반응형