본문 바로가기
반응형

@ 통계 교양155

오즈비 95% 신뢰구간 직접 구하는 방법 이 글의 목적은 오즈비의 의미를 설명하는 것이 아니라 계산하는 방법을 설명하는데 있습니다. 아래와 같은 분할표가 있다고 합시다. disease non-disease exposed a b non-exposed c d 오즈비는 아래와 같이 계산됩니다. $OR=\frac{a/b}{c/d}$ 오즈비의 신뢰구간을 구하기 정규분포를 가정해야합니다. 먼저 로그오즈비를 아래와 같이 정의합니다. 오즈비에 로그를 씌운 형태입니다. $L=\log\left ( \frac{a/b}{c/d} \right )$ 로그오즈비가 근사적으로 정규분포를 따른다고 가정합니다. 이때 표준오차는 아래와 같이 근사적으로 계산됩니다. $SE=\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}$ 로그오즈.. 2023. 12. 15.
마르코브 연쇄 쉽게 이해하기 마르코브 연쇄 예시 마르코브 연쇄와 관련된 간단한 예시를 먼저 살펴봅시다. 날씨가 두가지만 있는 세상에 살고 있다고 합시다. 맑은날(S)과 비오는날(R) 두가지만 있습니다. 확률은 아래와 같이 정의됩니다. 맑은 날 다음날 맑을 확률 = 0.9 맑은 날 다음날 비올 확률 = 0.1 비온 다음 날 맑을 확률 = 0.6 비온 다음 날 비올 확률 = 0.4 오늘 비가 왔다면, 내일 맑을 확률과 비올 확률은 0.6과 0.4입니다. 어제 날씨가 어떠했건 상관없이, 그 전날 날씨가 어떠했건 상관 없이 오늘 날씨에 따라 내일 날씨의 확률이 결정됩니다. 이러한 성질을 마르코브 연쇄라고 부릅니다. 마르코브 연쇄란? 마르코브 연쇄의 정의는 아래와 같습니다. 마르코브 연쇄 : 미래 상태의 확률분포가 과거 상태와는 독립적으로 .. 2023. 11. 9.
자기회귀모델 (Autoregressive model) 쉽게 이해하기 자기회귀모델이 무엇인지 배워봅시다. 영어로는 Autoregressive model 입니다. Auto+regressive model 입니다. regressive model 은 회귀모델인데 auto 는 무슨 뜻일까요? 자동이라고 해석하면 의미가 이상해집니다. auto 에는 ‘스스로’라는 의미가 있습니다. 여기서 auto 는 스스로라는 뜻입니다. 자귀회귀모델에는 회귀모델이라는 말이 들어 있습니다. 회귀모델가 뭔가 비슷해서 겠죠? 회귀모델은 독립변수들의 선형조합으로 종속변수를 예측합니다. 자기회귀모델에서는 다른 변수들이 아닌 자기자신으로 자기자신을 예측합니다. 이것이 어떻게 가능할까요? 자기 자신의 과거를 이용하면 가능합니다. 과거 값을 이용하여 특정 시점 t의 값을 에측하는 모델이 자기회귀모델입니다. 자기회귀.. 2023. 11. 6.
다중공선성 확인하는 방법 (분산팽창요인 VIF) 다중공선성이란? 독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다. 다중공선성의 문제 다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다. 다중공선성 진단 방법 1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함 2) 변수들 간의 산점도를 그려보고 상관계수를 계산함 3) 분산팽창요인 (Variance Inflation Factor, VIF).. 2023. 10. 30.
표준화 회귀계수가 뭔가요? 독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다. $Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}$ 위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다. $Y=2+10X_{1}+2X_{2}+5X_{3}$ 여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. $X_{1}$이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 $X_{1}$이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. $X_{1}$은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 .. 2023. 10. 25.
다중회귀분석에서 왜 수정된 결정계수를 사용하는가? 결정계수는 회귀모델의 독립변수들이 종속변수를 얼마나 잘 설명하고 있는지를 말해준다. 결정계수가 높을 수록 독립변수들이 종속변수를 잘 설명하는 것이다. 그런데 우리는 결정계수가 아니라 수정된 결정계수를 사용한다. 그 이유가 무엇일까? 회귀분석에서는 독립변수가 늘어날 수록 결정계수 가 증가한다. 거지같은(?) 독립변수가 추가되더라도, 결정계수 는 항상 올라간다. 별로 유의하지 않고, 목적에 적합하지 않은 변수라고 해도 결정계수 가 증가하는 것이다. 따라서 결정계수로는 좋은 모델을 선별할 수 없다. 이런 이유로 수정된 결정계수가 등장했다. 수정된 결정계수는 독립변수 개수에 대해 패널티를 부여한다. 독립변수가 많아지면 의도적으로 회귀계수를 감소시키는 것이다. 이렇게 되면, 정말 의미 있는 독립변수라야 수정된 회.. 2023. 10. 24.
표본 크기가 커지면 정규성을 따르지 않는 문제 표본의 크기가 커지면 작은 차이에도 민감하게 반응하게 됩니다. 두 집단의 평균을 비교하는 t검정에서는 표본크기를 키우면 모집단의 아주 작은 평균차이에도 불구하고 유의차가 발생합니다. 위와 같은 현상은 정규성검정에서도 발생합니다. 완벽하게 정규분포를 따르는 모집단은 존재하지 않기 때문에 표본의 크기가 커지면 모집단이 정규분포를 따른다는 가정은 대부분 기각됩니다. 그렇다면 표본이 큰 경우에는 정규분포를 항상 따르지 않으니 정규성가정을 할 수 없는것일까요? 판단은 연구자의 몫입니다. 일반적인 경우 히스토그램을 그려보고, 히스토그램의 모양이 어느정도 정규분포를 따르면 정규성이 있다고 가정하고 진행하기도 합니다. 2023. 9. 19.
머신러닝과 데이터마이닝의 차이 머신러닝과 데이터마이닝은 유사한 분야입니다. 머신러닝에 사용되는 기법들이 데이터마이닝에도 들어가 있습니다. 둘을 완벽히 구분할 수는 없지만 둘의 차이에 대해 설명한 책이 있어서 해당 부분을 가져왔습니다. 책 제목은 Machine Learning with R(Brett Lantz)입니다. 이 책 3페이지에 아래와 같은 내용이 나옵니다. Although there is some disagreement over how widely machine learning and data mining overlap, one point of distinction is that machine learning focuses on teaching computers how to use data to solve a problem, .. 2023. 8. 1.
최빈값은 언제 쓸까? (mode) 평균, 중앙값, 최빈값은 자료를 하나의 값으로 요약해주는 대푯값입니다. 우리는 이러한 대푯값들을 자료의 종류와 상황에 알맞게 선택하여 사용해야 합니다. 자료는 수치형 자료와 범주형자료로 나눌 수 있습니다. 수치형자료는 숫자로 되어있는 자료입니다. 수치형자료의 대푯값으로는 평균과 중앙값이 사용됩니다. 범주형 자료의 대표적인 예시로는 성별이 있습니다. 아래와 같은 범주형 자료가 있다고 합시다. 남 남 남 여 여 여 여 여 여 여 이 자료에 평균이나 중앙값을 적용하는 것은 불가능합니다. 범주형 자료에서는 최빈값을 대푯값으로 사용할 수 있습니다. 위 데이터의 최빈값은 '여자'입니다. 다른 예시를 하나 더 살펴봅시다. 어떤 반 아이들에게 선호하는 직업을 조사했다고 합시다. 가장 많은 아이들이 선택한 직업이 아이들.. 2023. 6. 28.
모집단이 정규분포를 따르면 표본평균은 항상 정규분포를 따를까? 모집단이 정규분포를 따른다면 표본평균은 항상 정규분포를 따르는지 알아봅시다. 결과부터 말씀드리면 'yes' 입니다. 1. 모집단의 확률변수 정규분포를 따르는 모집단의 원소를 확률변수 X라고 놓겠습니다. 이해되시는 분들은 2번으로 넘어가시면 됩니다. 모집단의 원소를 확률변수로 놓는 것에 익숙하지 않은 분들을 위해 간단한 예시로 설명하겠습니다. 아래와 같은 숫자 카드 5장으로 모집단을 만들어봅시다. 1,2,3,3,3 모집단의 원소를 변수 X로 놓을 수 있습니다. X는 1,2,3 이 될 수 있습니다. 이때 각 값에는 확률이 부여되어 있습니다. 각 확률은 아래와 같습니다. P[X=1]=1/5 P[X=2]=2/5 P[X=3]=3/5 따라서 모집단의 원소를 확률변수 X로 놓을 수 있습니다. 2. 정규분포를 따르는 .. 2023. 1. 14.
정규분포를 따르는 확률변수의 합의 분포 정규분포를 따르는 확률변수 X와 Y가 있다고 합시다. 각 확률변수의 분포는 아래와 같이 나타낼 수 있습니다. $X \sim N\left (\mu_{X},\sigma_{X}^2 \right )$ $Y \sim N\left (\mu_{Y},\sigma_{Y}^2 \right )$ 두 확률변수 X와 Y가 서로 독립이라고 가정하겠습니다. 우리가 굼금한 것은 X+Y의 분포입니다. X+Y의 분포는 특성함수를 이용해서 유도할 것입니다. 확률변수 X와 Y의 특성함수를 먼저 구해보면 아래와 같습니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=e^{it\mu_{X}-\frac{\sigma_{X}^2t^2}{2}}$ $\varphi_{Y}(t)=E\left [ e^{itY} \right ].. 2023. 1. 14.
평균이 좋은 대푯값이 아닌 경우 대푯값에는 평균, 중앙값, 최빈값이 있습니다. 가장 많이 쓰는 대푯값은 평균입니다. 더 정확히 말하면 '산술 평균'인데요. 평균이 항상 가장 좋은 대푯값인 것은 아닙니다. 오늘은 평균을 대푯값으로 사용하는 것이 적절하지 않은 경우들을 알아봅시다. 1. 극단값이 있는 경우 어느 회사의 평균 연봉이 1억2400만원이라고 합시다. 삼성전자의 평균연봉과 맞먹을 만큼 높습니다. 정말 좋은 회사인 것 같죠? 실상은 아래와 같습니다. 직원이 다섯명이고 연봉은 아래와 같다고 합니다. 3000만원 3000만원 3000만원 3000만원 50000만원 평균값인 1억2400 만원과 비슷한 직원은 한 명도 없습니다. 이런 경우는 평균값보다 최빈값이나 중앙값이 더 집단을 잘 대표할 것입니다. 2. 양쪽으로 치우친 경우 (쌍봉형).. 2023. 1. 12.
표본의 크기 결정 방법 수식 설명 및 유도 1. 설명 표본의 크기를 결정하는 수식은 아래와 같습니다. \frac{Z^2\sigma^2}{e^2} Z는 신뢰수준에 따라 결정되는 값입니다. 신뢰수준이 95%라면 1.96, 99%라면 2.58이 됩니다. e는 허용오차입니다. $\sigma$ 는 모표준편차입니다. 허용 오차는 상황에 맞게 각자 정해야합니다. 나는 오차를 얼마까지 허용할 것이라고 결정하고, 표본 크기를 정하는 것입니다. 2. 유도 허용오차를 고렿나 표본 크기는 모평균을 추정하는 신뢰구간 수식에서 유도할 수 있습니다. 95% 신뢰구간을 이용하여 유도해보겠습니다. 95% 신뢰구간은 아래와 같습니다. $\bar{X}-1.96\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96\frac{\sigma}{\sqr.. 2023. 1. 11.
민감도, 특이도, 양성예측도, 음성예측도 외우는 법 민감도,특이도,양성예측도,음성예측도의 정의는 아래와 같습니다. 민감도 : 환자 중에서 양성 판정을 받은 비율 특이도 : 정상인 중에서 음성 판정을 받은 비율 양성예측도 : 양성 판정을 받은 사람 중에서 환자의 비율 음성예측도 : 음성 판정을 받은 사람 중에서 정상인의 비율 제 업무에서 자주 사용하는 용어는 아닙니다. 가끔 등장하는데, 그럴 때마다 헷갈려서 검색을 해보곤 하는데요. 외울 수 있는 방법을 생각해보았고 작동한 방법을 공유합니다. 먼저 아래와 같이 연결하여 외워줍니다. 민감도-환자 특이도-정상인 양성예측도-양성 음성예측도-음성 그리고 아래 표를 떠올립니다. 2022. 12. 27.
비복원추출인 경우 표본평균의 평균과 분산 (유도링크 추후 보완예정) 크기가 n인 표본을 모집단에서 뽑는다고 합시다. 만약 복원추출로 뽑는다면 아래 성질이 성립합니다. 표본 평균의 평균 = 모평균 표본 평균의 분산 = 모분산/n 비복원 추출에서도 성립할까요? 수학적으로 유도하기 전에 복원추출과 비복원추출이 '확률변수' 관점에서 어떤 차이가 있는지 생각해봅시다. 복원추출은 하나의 표본을 뽑을 때, 원소들의 중복을 허용합니다. 크기가 n인 표본을 뽑을 때, n개의 원소를 뽑을 때마다 복원하는 것입니다. 따라서 표본의 원소를 뽑는 사건들은 서로 '독립'입니다. 반면에 비복원추출은 표본의 원소들을 뽑을 때 복원하지 않으므로 중복이 허용되지 않습니다. 예를들어 한 원소로 1이 뽑히면 다른 원소로는 뽑힐 수가 없습니다. 따라서 비복원추출로 뽑을 때, 표본의 원소들을 뽑는 사건은 서로.. 2022. 12. 20.
이산 vs 연속확률변수 (3) 확률 밀도가 등장한 맥락 연속확률변수는 실수 구간에서 정의된 확률변수입니다. 아래 구간에서 임의로 하나의 실수 값을 출력해주는 기계를 만들었다고 합시다. $0 \leq X \leq 3$ 각 숫자가 나올 확률은 동일하다고 합시다. 이때 숫자들이 각각 발생할 확률을 갖는다면 확률 전체의 합이 1이 될 수 없습니다. 확률 전체의 합이 무한대가 됩니다. 따라서 각 숫자들은 확률을 가질 수 없습니다. 대신 범위는 확률을 가질 수 있습니다. 예를들어 $0 \leq X \leq 1$ 은 전체 영역의 1/3이므로, 발생 확률이 1/3입니다. 기호로 나타내면 아래와 같습니다. $P[0 \leq X \leq 1]=\frac{1}{3}$ 이때 누적적분포함수는 아래와 같이 구할 수 있습니다. $P[0 \leq X \leq x]=\frac{1}{3}x.. 2022. 10. 14.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (2) p 값 비교 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할지 비교하는 표를 만들었습니다. 모집단이 1:1000인 경우 표본크기가 3이어도 잘 일치합니다. 놀랍네요. 표본 크기보다 오히려 모집단 크기에 영향을 많이 받는 모습입니다. 모집단이 적당히 크기만 하면 표본 크기는 크게 신경을 쓰지 않아도 될만큼 잘 일치합니다. library(dplyr) #1.모집단 설정 #ppltn=c(1,2,3,4,5,6,7,8,9,10) #ppltn=1:1000 #ppltn=rnorm(10) ppltn=rnorm(1000) m=mean(ppltn) s=sd(ppltn) #2. 표본 크기 설정 size=c(3,30,50,100,1000,3000) #3. 비교 p값 설정(우측꼬리기준으로) p=0.05.. 2022. 9. 16.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (1) 그래프 비교 과연 중심극한정리도 실제로 작동할까요? 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할까? 라는 궁금증이 생겼습니다. 이번시간에는 그래프를 그려보며 눈으로 비교하고, 다음 시간에는 p값을 구해서 비교해보겠습니다. 테스트에 사용할 모집단은 아래와 같습니다. ppltn=c(1,2,3,4,5,6,7,8,9,10) 1부터 10까지의 자연수입니다. 정규분포와는 거리가 멉니다. 먼저 크기가 3인 표본을 50000번 추출하여 히스토그램을 그리고 정규분포와 비교하였습니다. 전체적인 모양은 비슷합니다. 크기를 10으로 늘려보았습니다. 모양이 상당히 비슷합니다. 최댓값도 비슷합니다. 표본분산의 분포와 카이제곱분포를 비교할 때는 최댓값이 많이 달랐는데 표본평균의 분포에서는 잘 일치합니.. 2022. 9. 16.
t검정에서 표준편차가 p값에 주는 영향 서로 독립인 두 집단의 평균을 비교하는 독립표본 t검정을 한다고 합시다. 평균의 차이가 클수록 p값이 작아져서 두 집단 평균 차이가 유의하게 나올 것입니다. 하지만 p값에 영향을 주는 것은 표준편차도 있습니다. t통계량을 통해 쉽게 확인할 수 있습니다. 이분산인 경우의 t통계량은 아래와 같습니다. $T=\frac{\bar{X}_{1}-\bar{X}_{2}}{\sqrt{ \frac{s_{1}^{2}}{N_{1}}+\frac{s_{2}^{2}}{N_{2}} }}$ 각 집단의 표준편차가 작아지면 t값의 절댓값이 커지게 되고, p값은 작아지게 됩니다. 이 대목에서 왜 p 값이 작아지는지 이해가 되지 않는 분들을 위해서 부연설명을 드리겠습니다. t값의 절댓값이 커진다는 것은 분포 상에서 더 극단적인 쪽으로 t값이.. 2022. 9. 5.
t검정 대신 상관분석을 쓸 수 있다고? t 검정 대신 상관분석을 사용할 수 있다는 흥미로운 사실을 한가지 예시를 통해 보여드리겠습니다. 아래와 같이 남자와 여자 각 30명의 키 데이터가 있습니다. 지면 관계상 12명 씩만 나타냈습니다. t검정 먼저 남녀 키를 비교하는 t검정을 해봅시다. 위 데이터의 경우 이분산가정과 등분산가정 결과가 같았습니다. R로 수행한 t-test 결과는 아래와 같습니다. p값만 보면 됩니다. 0.2683이 나옵니다. 상관분석 위 데이터를 이용하여 상관분석을 하려면 어떻게 해야할까요. 남자와 여자의 상관관계를 보는 것은 불가능합니다. 서로 대응되어 있지 않기 때문입니다. 독립변수~종속변수 관계가 필요합니다. 독립변수와 종속변수를 아래와 같이 설정할 경우 상관분석이 가능해집니다. 독립변수 : 성별 종속변수 : 키 성별과 .. 2022. 8. 21.
이산 vs 연속확률변수 (2) 원소 개수 지난시간에 다룬 이산확률변수와 연속확률변수는 정의는 아래와 같습니다. 이산확률변수 : 원소나열법으로 나타낼 수 있는 확률변수 연속확률변수 : 실수 구간으로 정의되는 확률변수 오늘은 이산확률변수와 연속확률변수의 원소 개수 이야기를 해보려고 합니다. 연속확률변수의 원소 개수는 무한합니다. 어느 두 실수를 잡더라도 그 사이 실수를 정의할 수 있습니다. 따라서 실수 구간으로 정의된 연속확률변수의 원소수는 항상 무한합니다. 이산확률변수의 원소개수를 알아봅시다. 동전을 던져서 앞면이 나온 횟수, 주사위를 던져서 나온 눈의 값 등이 이산확률변수입니다. 이들은 원소 개수가 유한합니다. 이산확률변수의 원소 개수는 항상 유한할까요? 어떤 이산 확률변수가 자연수 전체 집합이고 각 원소에 대응되는 확률이 아래와 같다고 합시다.. 2022. 7. 31.
이산 vs 연속확률변수 (1) 구별 방법 이산확률변수와 연속확률변수를 구별해보라고 물어보면 애매하게 대답하는 경우가 있습니다. "이산확률변수는 서로 떨어져 있는 변수고, 연속확률변수는 연속적인 변수다." 아주 틀린 말은 아니지만 두 변수를 더 정확하게 구분하는 방법이 있습니다. 바로 '셀 수 있는가' 입니다. 이산확률변수 : 셀 수 있는 확률변수 연속확률변수 : 셀 수 없는 확률변수 이산확률변수는 셀 수 있는 변수이고 연속확률변수는 셀 수 없는 변수입니다. 셀 수 있다와 없다를 '유한'과 '무한'으로 이해하시는 경우가 있습니다. 셀 수 있는지 여부는 유한과 무한을 이야기하는 것이 아닙니다. 셀 수 있다라는 것은 '번호를 붙여서 셀 수 있다'를 말합니다. 아래 집합을 봅시다. {1,2,3,4,5,....} 개수가 무한하지만 하나,둘,셋 번호를 붙.. 2022. 7. 28.
중심극한정리가 헷갈리시는 분들을 위한 극단적인 예시 중심극한정리는 아래와 같은 정리입니다. "모집단의 분포와 상관 없이 표본의 크기가 커지면 표본평균의 분포가 정규분포에 가까워져 간다." 표본의 크기가 충분히 크면 표본평균의 분포를 정규분포로 근사시킬 수 있다는 것입니다. 충분히 큰 표본의 크기를 보통 30으로 놓습니다. 중심극한정리를 헷갈려하시는 분들이 많아서 아주 극단적인 상황을 통해 설명을 하려고 합니다. 일부러 극단적인 상황을 선택했습니다. 극단적인 상황의 예시가 제대로 이해하지 못한 분들에게 리트머스 종이가 될 수 있기 때문입니다. 이게 된다고? 라는 생각이 드시는 분들은 중심극한정리를 제대로 이해하지 못하고 계셨던 것입니다. 이번 기회에 제대로 이해해 봅시다. 아래와 같은 모집단이 있다고 합시다. 모집단 = {1} 원소가 1 하나뿐인 모집단입니.. 2022. 7. 28.
통계적 유의차가 있다고 의미있는 차이일까 두 집단의 평균을 비교하기 위해 t검정을 했고 p값이 0.001이 나왔다고 합시다. p값이 0.05보다 작으므로 두 집단의 평균이 다르다고 판단할 것입니다. 하지만 통계적 유의차가 있다고 정말 의미있는 차이일지는 생각을 해봐야 합니다. 통계적 유의차가 있는 것과 실제로 의미있는 차이인 것은 별개의 문제입니다. 아래 사례를 통해 알아봅시다. 두 모집단 A와 B가 있습니다. 변수는 키(height)라고 합시다. 집단 A의 평균 키는 180, 집단 B의 평균 키는 180.01이라고 합시다. 각 집단에서 크기가 n인 표본을 뽑았습니다. 집단 A의 표본평균과 표본분산은 $\bar{X}_{A}$, $s_{A}$ 이고 집단 B의 표본평균과 표본분산은 $\bar{X}_{B}$, $s_{B}$ 라고 합시다. 그림으.. 2022. 7. 22.
n이 커지면 정규분포로 근사시킬 수 있는 분포들 t분포 카이제곱분포 푸아송분포 Erlang 분포 이항분포 2022. 7. 21.
p 값이 0.05 일 때 Z는 얼마일까 먼저 단측검정에서 p값이 0.05 일 때 Z값이 얼마인지 알아봅시다. Z값은 표준정규분포의 정의역 값입니다. 그림으로 나타내면 아래와 같습니다. Z*를 구하는 방법입니다. 표준정규분포의 누적분포함수를 구합니다. 누적분포함수의 역함수를 구합니다. 누적분포함수의 역함수에 0.95를 대입합니다. 엑셀에서는 NORM.S.INV(0.95) 라고 입력하면 됩니다. Z*는 아래와 같습니다. Z*=1.64485 양측검정에서 p가 0.05가 되는 Z*값은 두개가 있습니다. 그림으로 나타내면 아래와 같습니다. 얼마일까요? 여러분이 잘 아시는 값입니다. 95% 신뢰구간 식에 등장하는 값입니다. -1.96과 1.96입니다. 2022. 7. 20.
정규분포를 따르는 확률변수의 실수배 aX 의 분포 변수 X가 평균이 $\mu$이고, 분산이 $\sigma^{2}$인 정규분포를 따른다고 합시다. 기호로는 아래와 같이 나타냅니다. $X \sim N \left( \mu,\sigma^{2} \right)$ 변수 X에 상수를 곱한 aX는 어떤 분포를 따르는지 알아봅시다. a는 양수라고 가정합시다. aX를 확률변수 Y라고 놓겠습니다. $Y=aX$ Y의 누적분포함수는 아래와 같이 정의할 수 있습니다. $G(y)=P\left[ Y \leq y \right]$ aX=Y 를 이용하여 아래와 같이 변형합시다. $G(y)=P\left[ aX \leq y \right]$ a의 범위에 따라 둘로 나뉩니다. a가 양수인 경우 부등식의 양변을 a로 나눠줍니다. $G(y)=P\left[ X \leq \frac{y}{a} \righ.. 2022. 7. 16.
신뢰구간과 신뢰수준의 진짜 의미 모수 추정에 대한 질문을 하나 받았습니다. 모수추정을 그냥 설명할 수도 있지만, 질문으로 부터 출발하면 이해가 한결 쉬울 것입니다. 질문을 요약하면 이렇습니다. "통계량과 모수의 관계를 도출할 때, 표본의 분포를 가정한다. 왜 추정할때는 하나의 표본만 뽑아놓고 분포를 사용하는가?" "모분산 대신 하나의 표본분산을 사용하는데 그래도 되는가?" 모수추정에 대해 알아보며 위 의문을 해결해봅시다. 모수(parameter)는 모집단의 통계량을 말합니다. 모평균이나 모분산 등이 있습니다. 모집단이 하나 있다고 합시다. 모집단의 평균과 분산은 모릅니다. 모르기 때문에 추정을 하는 것입니다. 표본을 아주 많이 뽑아서 모집단을 추정하면 좋겠지만, 현실적으로 불가능합니다. 이 글에서는 크기가 n인 '하나'의 표본만 뽑을 .. 2022. 7. 16.
Welch two sample t-test 가 뭔가요? R로 t검정을 해보신 분들은 결과 창에서 Welch two sample test 를 본 적이 있으실겁니다. var.equal 을 FALSE 로 할 경우 아래와 같이 출력됩니다. > t.test(male,female) Welch Two Sample t-test data: male and female t = 6.9208, df = 57.854, p-value = 4.026e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 12.23857 22.19969 sample estimates: mean of x mean of y 171.5828 154.3637 Welch Two Sam.. 2022. 7. 10.
머신러닝 책 두권 무료로 다운로드 받는 방법 (스텐포드) 스텐포드 교수님 세분이 공동으로 집필하신 머신러닝 책을 다운받는 방법을 알려드리겠습니다. 불법 다운로드 아니구요. 공식적으로 다운받는 방법입니다. 세분 교수님 성함은 아래와 같습니다. Trevor Hastie, Robert Tibshirani, Jerome H. Friedman 책 제목은 아래와 같습니다. 1) An Introduction to Statistical Learning with Applications in R (다운로드 링크) 2) The Elements of Statistical Learning (다운로드 링크) 난이도는 2번 책보다 1번 책이 더 쉽습니다. 1번 책은 국내에 「가볍게 시작하는 통계학습」 이라는 제목으로 번역 출간되어 있습니다. 1번 책은 회귀분석, 로지스틱회귀분석, 부트스.. 2022. 7. 10.
반응형