반응형 전체 글648 [통계 Q&A] 지수분포 문제 Q) 대기시간이 5분인 지수분포에서 10번 방문했을 때, 대기시간이 4분 이내가 8회 이상일 확률은? A) 대기시간이 5분이라는 것은, 1분에 사건이 평균 0.2회 발생하는 것을 의미합니다. 따라서 지수분포는 아래와 같습니다. f(t)=0.2e−0.2t 방문 시 대기시간이 4분 이내일 확률은 아래와 같이 구합니다. P(0≤t≤4)=∫400.2e−0.2t=[−e−0.2t]40=1−e−0.8 10번 방문 중 대기시간 4분 이내가 8회 이상 발생할 확률은 아래와 같이 구합니다. 10번 방문 중 8회 발생 : $\binom{10}{8}\left [ 1-e^{-0.8} \right ]^{8}.. 2021. 10. 30. 레버리지 ETF가 위험한 이유 정말 알고 계신가요? (TQQQ,3LTS...) 레버리지 ETF는 어떤 주식 또는 ETF 수익률의 2배 혹은 3배가 되도록 설계된 펀드입니다. 예를들어 TQQQ는 QQQ라는 ETF 수익률의 세배, 3LTS는 테슬라 주식 수익률의 3배가 되도록 설계되어 있습니다. 3배 레버리지 ETF가 위험하다는 것은 다들 알고계실텐데요. 단순히 많이 오르는 만큼, 많이 떨어질 수도 있으니 위험하다고 생각하시는 분들도 계실겁니다. 하지만 그게 다가 아닙니다. 레버리지 ETF가 위험한 이유는 본주가 올랐다가 제자리로 돌아와도, 손해를 보게되기 때문입니다. 예를 들어봅시다. 본주의 가격이 a원이라고 합시다. 10%가 올라서, 1.1a원이 되었고, 다시 덜어져서 a원이 됐다고 합시다. 몇 %가 하락한 것일까요? 아래 등식을 이용하면 됩니다. 1.1a x (1-하락률)=a 하.. 2021. 10. 30. [음이항분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 음이항분포는 성공횟수(k), 실패횟수(r), 전체 시행횟수(n)에서 무엇을 변수로 놓고 무엇을 상수로 놓느냐에 따라 다양하게 정의됩니다. 형태는 f(변수,상수) 입니다. ① f(n;r) : 실패가 r번 발생할 때까지 전체 발생횟수가 n회일 확률. ② f(n;k) : 성공이 k번 발생할 때까지 전체 발생횟수가 n회일 확률. ③ f(r;n) : 전체 시행횟수가 n일 때까지, 실패횟수가 r회일 확률. ④ f(k;n) : 전체 시행횟수가 n회이 때까지, 성공이 k회일 확률. ⑤ f(r;k) : 성공이 k번 발생할 때까지 실패횟수가 r회일 확률. ⑥ f(k;r) : 실패가 r번 발생할 때까지, 성공이 k회일 확률. 3,4번은 이항분포이므로 나머지만 남겨봅시다. ① f(n;r) : 실패가 r번 발생할 때까지 전체 .. 2021. 10. 29. [기하분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 기하분포함수에 대한 통계량들을 표로 요약한 내용입니다. 정의1 정의2 정의 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 시행한 횟수를 확률변수 x로 할때의 확률분포 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 실패한 횟수를 확률변수 x로 할때의 확률분포 분포함수 (1−p)x−1p (1−p)xp 누적분포함수 1−(1−p)x 1−(1−p)x+1 평균 1p 1−pp 분산 1−pp2 1−pp2 왜도 2−p√1−p 2−p√1−p 첨도 9+p21−p 9+p21−p 적률.. 2021. 10. 28. [이항분포 한눈에] 정의, 분포함수,평균,분산,첨도,왜도,적률생성함수,특성함수 이항분포함수에 대한 통계량들을 표로 요약한 내용입니다. 정의 베르누이 시행을 n번 했을 때, 사건 발생 횟수 X를 확률변수로 하는 확률분포 분포함수 \binom{n}{x}p^{x}(1-p)^{n-x} 누적분포함수 \sum_{k=1}^{\left \lfloor x \right \rfloor}\binom{n}{k}p^{k}(1-p)^{n-k} 평균 np 분산 np(1-p) 왜도 \frac{1-2p}{\sqrt{np(1-p)}} 첨도 \frac{1-6p(1-p)}{np(1-p)} 적률생성함수 \left (1-p+pe^{t} \right )^{n} 특성함수 \left (1-p+pe^{it} \right )^{n} *시행의 결과가 오직 두가지 뿐인 시행을 '베르누이 시행'이라고 .. 2021. 10. 27. [통계 적률의 이해] 7. 적률생성함수 수학 거의 없이 이해하기 지난 강의에서 수학을 많이 사용하여 적률생성함수를 설명했는데요. 혹시 수학에 어려움을 느끼는 분들이 계실 수도 있어서 이번 시간에는 수학을 최대한 적게 쓰며 적률생성함수를 설명해보겠습니다. 적률생성함수는 함수입니다. 변수는 t입니다. t에대한 함수에요. 아래와 같습니다. M(t) 어떤 확률변수 X의 적률생성함수는 아래와 같이 정의됩니다. M_{X}(t)=E\left [ e^{tX} \right ] 위 식을 이용하면 정규분포의 적률생성함수도 구할 수 있고 이항분포의 적률생성함수도 구할 수 있습니다. 적률생성함수를 한번 구해놓으면 유용하게 사용됩니다. 적률생성함수를 한번 미분에서 t에 0을 넣으면 X의 기댓값인 E\left [ X \right ] 가 구해집니다. 두번 미분하고 t에 0을 넣으면 $.. 2021. 10. 27. X가 U(0,1)인 균등분포를 따르면 1-X 도 그럴까 오늘 증명해볼 내용은 아래와 같습니다. X가 U(0,1)인 균등분포를 따르면 1-X 도 그럴까 직관적으로 당연하지만 수식으로 증명해보겠습니다. 두 확률분포의 적률생성함수가 같다면 두 확률변수는 같다는 성질을 이용하여 증명하겠습니다. 먼저 U(0,1)을 따르는 확률변수 X의 적률생성함수를 유도하겠습니다. X의 적률생성함수는 아래와 같습니다. M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\infty}e^{tx}f(x)dx x는 0과 1 사이에서만 1이라는 값을 가지므로 아래와 같이 변형됩니다. E\left [ e^{tX} \right ]=\int_{0}^{1}e^{tx}dx 적분합시다. $M_{X}(t)=E\left [ e^{tX} \right ]=\lef.. 2021. 10. 21. p값의 분포는 왜 균등분포일까 (distribution of p-value) 우측꼬리 t검정을 예로 들어봅시다. 우리가 뽑은 표본의 통계량을 t라고 놓는다면 아래와 같은 그림을 그릴 수 있습니다. F(t)는 누적분포함수입니다. 아래 등식이 만족합니다. p=1-F(T=t) 시행에 따라 T값이 바뀌고, T값이 바뀌면 p값도 바뀝니다. 따라서 p도 확률변수라고 할 수 있습니다. F(T)의 분포를 구하면 p의 분포를 구할 수 있습니다. F(T)가 이미 누적분포함수인데, 분포함수의 분포함수를 구한다고? 네 맞습니다. 이 분포함수 F(T)를 새로운 확률변수 Y 라고 놓겠습니다. Y의 누적분포함수를 G라고 놓겠습니다. G는 아래와 같이 정의됩니다. Pr은 확률을 의미합니다. G(y)=Pr(Y\leq y) Y=F(T) 이므로 아래와 같이 변형합시다. $G(y)=Pr(F(T)\leq y).. 2021. 10. 21. p값에 대한 미국통계협회의 입장발표 (이거 계속 써도 되는겨?) p값에 대한 논란은 꾸준히 제기되어 왔는데요. 미국통계협회에서 공식적으로 발표한 글이 있어서 가져왔습니다. 아래 제목의 글입니다. ASA Statement on Statistical Significance and P-Values 구글에 치시면 전문을 보실 수 있습니다. 여기서는 간단히 요약하도록 하겠습니다. 2014년 2월에 미국 매사추세스주에 있는 마운트 홀리오크 대학의 통계학과 교수인 George Cobb은 아래와 같은 대화형식의 글을 통해 문제를 제기했습니다. 질문자 : 왜 수많은 대학에서 p값이 0.05라고 가르치는거죠? 답변자 : 왜냐하면 과학 커뮤니티들과 논문 에디터들이 여전히 p값을 0.05로 사용하기 때문입니다. 질문자 : 그럼 왜 많은 사람들이 여전히 p값을 0.05로 사용하는 걸까요? .. 2021. 10. 20. 평균과 중앙값의 비교와 그래프의 치우침 대칭인 분포의 경우 평균과 중앙값이 같습니다. 반면 분포가 한쪽으로 치우친 경우 평균과 중앙값이 달라집니다. 아래 데이터를 봅시다. 100 100 100 150 150 150 150 150 200 200 200 이 데이터는 평균이 150 이고, 중앙값도 150입니다. 이 데이터를 오른쪽 꼬리를 가진 데이터로 바꿔보겠습니다. 오른쪽 꼬리를 가진 데이터는 right-tailed 또는 skewed to right 또는 poistive skewed 라고 부릅니다. 100 100 100 150 150 150 150 150 200 200 2000 이렇게 바꾸었을 때 왜 오른쪽 꼬리를 갖는 것인지 이해가 되지 않는 분들은 히스토그램을 떠올리시면 됩니다. 오른쪽으로 아주 먼 곳인 2000에 막대가 하나 올라와 있게 된.. 2021. 10. 19. 표준편차 vs 평균절대편차 vs 중앙값절대편차 (극단값 민감성 비교) 표준편차, 평균절대편차, 중앙값절대편차는 아래와 같이 정의됩니다. SD=\sqrt{\frac{\sum_{i=1}^{n}\left ( X_{i}-mean \right )^{2}}{n}} AAD=\frac{ \sum_{i=1}^{n}\left |X_{i}-mean \right |}{n} MAD=MAD=median(X_{i}-median) SD : Standard deviation (표준편차) AAD : Average Absolute deviation (평균 절대편차) MAD : Median Absolute deviation (중앙값 절대편차) 극단값에 대한 민감도를 알아보기 위해 두개의 데이터를 정의했습니다. 프로그램은 R을 사용했습니다. > dt1=c(1,2,3,4,5,6,7,8,9,10) > .. 2021. 10. 19. 분산 구하는 변형공식을 표본에도 적용할 수 있을까 분산을 구하는 변형공식을 유도하는 과정은 아래와 같습니다. V(X)=E\left ( (X-\mu)^{2} \right )=\frac{\sum_{i=1}^{n}(X_{i}-\mu)^{2}}{n} V(X)=E\left ( (X-\mu)^{2} \right )=\frac{\sum_{i=1}^{n}X_{i}^{2}-2X_{i}\mu+\mu^{2}}{n} V(X)=E\left ( (X-\mu)^{2} \right )=\frac{ \sum_{i=1}^{n}X_{i}^{2} -2\mu\sum_{i=1}^{n}X_{i}+ \sum_{i=1}^{n}\mu^{2} }{n} $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{ \sum_{i=1}^{n}X_{i}^{2} }{n} + \fra.. 2021. 10. 18. 물가가 2%씩 오르면 10년 뒤 돈의 가치는 얼마나 줄어들까 물가가 두배 오르면 돈의 가치는 반으로 줄어듭니다. 이정도는 계산기를 사용하지 않아도 이해가 가능합니다. 물건의 가격이 A배 올랐을 때의 돈의 가치는, 현재 돈의 액수를 A로 나눠주면 됩니다. 물건 가격이 두배 오르면 2로 나누고, 세배 오르면 3으로 나눠주면 됩니다. 여기까진 이해가 되실겁니다. 물건의 가격이 50% 올랐다고 합시다. 물건 가격이 몇배 오른 것일까요? 1.5배 오른 것입니다. 물건 가격이 5% 오르면 물건 가격은 몇 배 오른 것일까요? 1.05배 오른 겁니다. 돈의 가치는요? 1.05로 나눠주면 됩니다. 물가가 2%씩 10년 올랐다는 것은 물건 가격에 1.02가 10번 곱해졌다는 것을 말합니다. 1.02^{10} 배가 된 것입니다. 만원의 가치는 얼마가 되어 있을까요? 만원을 $1... 2021. 10. 12. 카이제곱검정의 대응표본버전 (맥니마, 맥니마 보우커,코크란 Q) t검정에 '독립표본 t검정'과 '대응표본 t검정'이 있듯 카이제곱검정에도 대응표본에 사용되는 검정이 있습니다. 아래의 세 검정입니다. - 맥니마 검정 (2그룹비교, 종속변수도 2level) - 맥니바 보우커 검정 (2그룹비교, 종속변수가 3level 이상) - 코크란 Q검정 (3그룹 이상 비교 가능) 맥니마검정 먼저 맥니마 검정이 사용되는 경우를 살펴봅시다. 피험자 100명을 모집하여 무서운 영화 선호 여부를 조사했습니다. 100명 중 10명이 무서운영화를 선호했습니다. 100명에게 A라는 약을 먹인 뒤 다시 조사해보니 50명이 무서운 영화를 선호했습니다. 표로 나타내면 아래와 같을 것 같지만 아닙니다. 아래 표에는 누가 어떻게 바뀌었는지가 반영되어 있지 않습니다. 약먹기 전 약 먹은 후 합계 무서운영화.. 2021. 10. 12. [손으로 푸는 통계 ver1.0] 78. 표본분산이 정말 카이제곱분포 따르는거 맞아? 우리는 아래와 같이 좌변이 n-1 자유도 카이제곱분포를 따른다는 것을 유도했습니다. \frac{n-1}{\sigma^{2}}s^{2} \sim \chi^{2}_{n-1} 그러고는 "표본분산이 카이제곱분포를 따른다"고 이야기했습니다. 어딘가 이상합니다. 좌변은 표본분산이 아니라 표본분산에 무언가 곱해진 변수입니다. 마치 3X가 정규분포를 따르는 것을 보고, X가 정규분포를 따른다고 하는 것과 같습니다. 일반화하면 아래 문제가 됩니다. "aX가 정규분포를 다를 때, X도 정규분포를 따를까?" 위 문제를 해결하고 나서 아래 문제를 해결하면 우리 의문은 해결됩니다. "aX가 카이제곱분포를 다를 때, X도 카이제곱분포를 따를까" 이어지는 강의에서 해결해봅시다. 2021. 9. 29. 이전 1 ··· 12 13 14 15 16 17 18 ··· 44 다음 반응형