본문 바로가기
반응형

통계213

[확률과통계 기초] 3-12. 이항분포에서 '이항' 이 무슨 뜻일까 이번 시간부터 이항분포를 공부할 것입니다. 확률분포는 이산확률분포와 연속확률분포로 나뉘는데, 이항분포는 이산확률분포에 속합니다. '이항'이라는 말을 들으셨을 때 어떤 것이 떠오르셨나요? 방정식이 떠오르셨을 겁니다. 방정식에서 항을 옮기는 것을 '이항'이라고 불렀으니까요. 이항분포의 '이항'은 방정식의 '이항'과 다른 의미입니다. 방정식에서의 이항은 영어로 transposition 이고, 한자로 移項 인데 이동할 (이), 항 (항) 입니다. 이항분포에서 이항은 영어로 binomial 이고, 한자로 二項 입니다. 두개의 항이라는 뜻입니다. 따라서 이항분포를 직역하면 '두개의 항으로 된 분포'라는 뜻입니다. 두개의 항으로 된 분포라는게 어떤 의미인지는 다음시간 부터 알아봅시다. 2023. 12. 27.
오즈비 95% 신뢰구간 직접 구하는 방법 이 글의 목적은 오즈비의 의미를 설명하는 것이 아니라 계산하는 방법을 설명하는데 있습니다. 아래와 같은 분할표가 있다고 합시다. disease non-disease exposed a b non-exposed c d 오즈비는 아래와 같이 계산됩니다. $OR=\frac{a/b}{c/d}$ 오즈비의 신뢰구간을 구하기 정규분포를 가정해야합니다. 먼저 로그오즈비를 아래와 같이 정의합니다. 오즈비에 로그를 씌운 형태입니다. $L=\log\left ( \frac{a/b}{c/d} \right )$ 로그오즈비가 근사적으로 정규분포를 따른다고 가정합니다. 이때 표준오차는 아래와 같이 근사적으로 계산됩니다. $SE=\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}$ 로그오즈.. 2023. 12. 15.
자기회귀모델 (Autoregressive model) 쉽게 이해하기 자기회귀모델이 무엇인지 배워봅시다. 영어로는 Autoregressive model 입니다. Auto+regressive model 입니다. regressive model 은 회귀모델인데 auto 는 무슨 뜻일까요? 자동이라고 해석하면 의미가 이상해집니다. auto 에는 ‘스스로’라는 의미가 있습니다. 여기서 auto 는 스스로라는 뜻입니다. 자귀회귀모델에는 회귀모델이라는 말이 들어 있습니다. 회귀모델가 뭔가 비슷해서 겠죠? 회귀모델은 독립변수들의 선형조합으로 종속변수를 예측합니다. 자기회귀모델에서는 다른 변수들이 아닌 자기자신으로 자기자신을 예측합니다. 이것이 어떻게 가능할까요? 자기 자신의 과거를 이용하면 가능합니다. 과거 값을 이용하여 특정 시점 t의 값을 에측하는 모델이 자기회귀모델입니다. 자기회귀.. 2023. 11. 6.
다중공선성 확인하는 방법 (분산팽창요인 VIF) 다중공선성이란? 독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다. 다중공선성의 문제 다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다. 다중공선성 진단 방법 1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함 2) 변수들 간의 산점도를 그려보고 상관계수를 계산함 3) 분산팽창요인 (Variance Inflation Factor, VIF).. 2023. 10. 30.
표준화 회귀계수가 뭔가요? 독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다. $Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}$ 위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다. $Y=2+10X_{1}+2X_{2}+5X_{3}$ 여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. $X_{1}$이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 $X_{1}$이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. $X_{1}$은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 .. 2023. 10. 25.
표본 크기가 커지면 정규성을 따르지 않는 문제 표본의 크기가 커지면 작은 차이에도 민감하게 반응하게 됩니다. 두 집단의 평균을 비교하는 t검정에서는 표본크기를 키우면 모집단의 아주 작은 평균차이에도 불구하고 유의차가 발생합니다. 위와 같은 현상은 정규성검정에서도 발생합니다. 완벽하게 정규분포를 따르는 모집단은 존재하지 않기 때문에 표본의 크기가 커지면 모집단이 정규분포를 따른다는 가정은 대부분 기각됩니다. 그렇다면 표본이 큰 경우에는 정규분포를 항상 따르지 않으니 정규성가정을 할 수 없는것일까요? 판단은 연구자의 몫입니다. 일반적인 경우 히스토그램을 그려보고, 히스토그램의 모양이 어느정도 정규분포를 따르면 정규성이 있다고 가정하고 진행하기도 합니다. 2023. 9. 19.
최빈값은 언제 쓸까? (mode) 평균, 중앙값, 최빈값은 자료를 하나의 값으로 요약해주는 대푯값입니다. 우리는 이러한 대푯값들을 자료의 종류와 상황에 알맞게 선택하여 사용해야 합니다. 자료는 수치형 자료와 범주형자료로 나눌 수 있습니다. 수치형자료는 숫자로 되어있는 자료입니다. 수치형자료의 대푯값으로는 평균과 중앙값이 사용됩니다. 범주형 자료의 대표적인 예시로는 성별이 있습니다. 아래와 같은 범주형 자료가 있다고 합시다. 남 남 남 여 여 여 여 여 여 여 이 자료에 평균이나 중앙값을 적용하는 것은 불가능합니다. 범주형 자료에서는 최빈값을 대푯값으로 사용할 수 있습니다. 위 데이터의 최빈값은 '여자'입니다. 다른 예시를 하나 더 살펴봅시다. 어떤 반 아이들에게 선호하는 직업을 조사했다고 합시다. 가장 많은 아이들이 선택한 직업이 아이들.. 2023. 6. 28.
[확률과통계 기초] 3-1. 확률변수 세번째 단원인 통계 단원의 첫 시간입니다. 확률변수에 대해서 배울건데요. 확률변수는 통계에서 아주 중요한한 내용입니다. 통계학은 확률변수들을 분석하는 과목이라고 할 수 있을 정도입니다. 우리는 수학에서 이미 변수라는 것을 접했는데요. 수학에서의 변수를 먼저 복습해보고 확률변수에 대해 배워봅시다. 수학에서의 변수 수학에서는 정해지지 않은 어떤 값을 표현하기 위해 변수를 사용합니다. 아래와 같은 일차 함수가 있다고 합시다. $f(x)=2x^{2}$ 이 함수에서 변수는 x입니다. 실수에서 정의된 함수라면, x에는 모든 실수가 올 수 있습니다. 혹은 변수를 유한하게 제한할 수도 있습니다. 변수 x를 아래 집합의 원소로 제한해봅시다. x={1,2,3,4,5} 이제 x는 1,2,3,4,5 중 하나의 값을 갖는 변수.. 2023. 5. 29.
[확률과통계 기초] 2-7. 사건의 독립 예시 사건의 독립과 관련된 예제를 두가지 풀어봅시다. 예제1. 주사위를 던질 때 2 이하의 눈이 나오는 사건을 A, 짝수의 눈이 나오는 사건을 B라고 하자. 사건 A와 B가 서로 독립인지 판단하시오. 풀이) 사건 A와 B가 발생할 확률은 각각 아래와 같습니다. $P(A)=\frac{1}{3}$ $P(B)=\frac{1}{2}$ 사건 A와 B가 동시에 발생할 확률은 아래와 같습니다. $P(A\cap B)=\frac{1}{6}$ $P(A\cap B)=P(A)P(B)$ 가 성립하므로 두 사건은 독립입니다. 예제2. 동전 한개와 주사위 한 개를 동시에 던질 때, 동전은 앞면이 나오고 주사위는 홀수가 나올 확률을 구하시오. 풀이) 이번 문제는 위 문제와 다르게 독립임을 확인하는게 아니라 독립 조건을 사용하면 됩니다. .. 2023. 5. 6.
[손으로 푸는 t검정] 5. t분포 유도과정 요약 우리는 지난시간까지 t분포를 유도했습니다. 상당히 길고 복잡한 과정이었는데요. 오늘은 전체 과정을 간단히 요약하며 복습하겠습니다. Step1) t 통계량 정의 t통계량은 아래와 같이 정의됩니다. $t=\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}$ Z 통계량에서 모표준편차 $\sigma$를 표본표준편차 s로 바꾼 통계량입니다. T통계량이 따르는 분포가 T분포입니다. Step2) t통계량 변형 모집단이 정규분포를 따른다는 가정을 하고, t 통계량을 아래와 같이 변형하였습니다. $t=Z\frac{1}{\sqrt{V}}\sqrt{n}$ Z는 표준정규분포를 따르는 확률변수이고 V는 n자유도 카이제곱분포를 따르는 확률변수입니다. Step3) Z와 V의 결합확률밀도함수 Z와 V의 확률밀도함수.. 2023. 4. 7.
모집단이 정규분포를 따르면 표본평균은 항상 정규분포를 따를까? 모집단이 정규분포를 따른다면 표본평균은 항상 정규분포를 따르는지 알아봅시다. 결과부터 말씀드리면 'yes' 입니다. 1. 모집단의 확률변수 정규분포를 따르는 모집단의 원소를 확률변수 X라고 놓겠습니다. 이해되시는 분들은 2번으로 넘어가시면 됩니다. 모집단의 원소를 확률변수로 놓는 것에 익숙하지 않은 분들을 위해 간단한 예시로 설명하겠습니다. 아래와 같은 숫자 카드 5장으로 모집단을 만들어봅시다. 1,2,3,3,3 모집단의 원소를 변수 X로 놓을 수 있습니다. X는 1,2,3 이 될 수 있습니다. 이때 각 값에는 확률이 부여되어 있습니다. 각 확률은 아래와 같습니다. P[X=1]=1/5 P[X=2]=2/5 P[X=3]=3/5 따라서 모집단의 원소를 확률변수 X로 놓을 수 있습니다. 2. 정규분포를 따르는 .. 2023. 1. 14.
정규분포를 따르는 확률변수의 합의 분포 정규분포를 따르는 확률변수 X와 Y가 있다고 합시다. 각 확률변수의 분포는 아래와 같이 나타낼 수 있습니다. $X \sim N\left (\mu_{X},\sigma_{X}^2 \right )$ $Y \sim N\left (\mu_{Y},\sigma_{Y}^2 \right )$ 두 확률변수 X와 Y가 서로 독립이라고 가정하겠습니다. 우리가 굼금한 것은 X+Y의 분포입니다. X+Y의 분포는 특성함수를 이용해서 유도할 것입니다. 확률변수 X와 Y의 특성함수를 먼저 구해보면 아래와 같습니다. $\varphi_{X}(t)=E\left [ e^{itX} \right ]=e^{it\mu_{X}-\frac{\sigma_{X}^2t^2}{2}}$ $\varphi_{Y}(t)=E\left [ e^{itY} \right ].. 2023. 1. 14.
t분포 글 하나로 끝내버리기 1. 어디에 사용되나요? t분표는 t검정에 사용됩니다. t검정이 분산분석의 사후분석, 상관분석, 회귀분석 과정에도 사용되기 때문에 t분포가 이러한 검정에서 사용된다고 할 수 있습니다. 2. 어떻게 생겼나요? t분포 함수의 수식은 아래와 같습니다. $f(t)=\frac{\Gamma\left ( \frac{\nu+1}{2} \right )}{\sqrt{\nu \pi}\ \Gamma\left ( \frac{\nu}{2} \right )} \left ( 1+\frac{t^2}{\nu} \right )^{-\left ( \frac{\nu+1}{2} \right )}$ t분포의 모양을 결정하는 파라미터는 $\nu$ 하나밖에 없습니다. $\nu$는 자유도입니다. 표본 크기가 n 인 경우 자유도 $\nu$는 n-1입니.. 2023. 1. 14.
일표본 t검정 글 하나로 끝내버리기 1. 언제 쓰는 건가요? 일표본 t검정은 모집단의 평균이 알려져 있는 상황에서, 정말 그 사실이 맞는지 확인할 때 사용합니다. 예를 들어 어떤 과자 포장지에 내용물 무게가 30g이라고 나와있다고 합시다. 30g이 정말 맞는지 확인하고 싶은 경우 표본을 뽑아 일표본 t검정을 합니다. 여기서 표본을 뽑는다는건 과자 50봉지 정도를 구입한다는 의미입니다. 2. 조건 1) 데이터는 연속형 자료여야 합니다. t검정은 t분포를 사용하는데, t분포는 모집단이 정규분포를 따른다는 것을 전제로 유도된 분포입니다. 정규분포는 연속형 변수에서 유도된 분포이기 때문에 모집단이 연속형 데이터인 경우에만 t검정을 사용할 있는 것이 원칙적으로는 맞습니다. 2) 모집단이 정규분포를 따라야 합니다. 이유는 1번에서 설명했습니다. 3... 2023. 1. 13.
[확률과통계 기초] 2-2. 확률의 덧셈정리 확률의 덧셈정리는 사건 A 또는 B가 발생할 확률에 대한 정리입니다. 사건 A 가 일어날 확률이 $P(A)$ 이고, 사건 B가 일어날 확률이 $P(B)$라고 두겠습니다. 사건 A 또는 B를 먼저 기호로 나타내봅시다. 사건은 뭐죠? 사건은 '집합'입니다. 집합에서 '또는' 영어로 or 은 합집합입니다. 사건 A또는 B를 기호로 나타내면 아래와 같습니다. $A \cup B$ A 또는 B가 발생할 확률은 아래와 같이 나타냅니다. $P(A \cup B)$ 위 식을 변형하면 확률의 덧셈정리가 유도되는데요. 한 번 유도해봅시다. 표본공간을 S라고 놓으면 $P(A \cup B)$는 아래와 같이 나타낼 수 있습니다. 지난 시간에 배운 확률의 정의입니다. $P(A\cup B)=\frac{n(A\cup B)}{n(S)}$.. 2023. 1. 8.
[확률과통계 기초] 1-10. 사건과 경우의 수는 무엇이 다른가 안녕하세요. 확률과 통계 기초입니다. 사건과 경우의 수의 차이가 무엇인지 설명해보라고 하면 대답하기가 쉽지 않습니다. 사건은 어떤 시행의 결과들의 집합이라는 것을 이미 배웠습니다. 어떤 시행이 주사위 던지기라고 한다면, 홀수의 눈이 나오는 사건, 짝수의 눈이 나오는 사건 등이 있습니다. 그렇다면 경우의 수는 무엇일까요? 경우의 수가 무엇인지 알기 위해 경우의 수를 구하는 문제를 하나 풀어봅시다. "주사위를 하나 던질 때, 3 이상의 눈이 나오는 경우의 수를 구하시오" 3 이상의 눈이 나오는 경우의 수는 3,4,5,6으로 4가지입니다. 이 문제를 사건의 관점으로 풀어봅시다. 3 이상의 눈이 나오는 사건은 {3,4,5,6} 입니다. 이때 경우의 수는 사건의 원소의 개수입니다. 이제 경우의 수가 무엇인지 알았.. 2023. 1. 5.
민감도, 특이도, 양성예측도, 음성예측도 외우는 법 민감도,특이도,양성예측도,음성예측도의 정의는 아래와 같습니다. 민감도 : 환자 중에서 양성 판정을 받은 비율 특이도 : 정상인 중에서 음성 판정을 받은 비율 양성예측도 : 양성 판정을 받은 사람 중에서 환자의 비율 음성예측도 : 음성 판정을 받은 사람 중에서 정상인의 비율 제 업무에서 자주 사용하는 용어는 아닙니다. 가끔 등장하는데, 그럴 때마다 헷갈려서 검색을 해보곤 하는데요. 외울 수 있는 방법을 생각해보았고 작동한 방법을 공유합니다. 먼저 아래와 같이 연결하여 외워줍니다. 민감도-환자 특이도-정상인 양성예측도-양성 음성예측도-음성 그리고 아래 표를 떠올립니다. 2022. 12. 27.
[손으로 푸는 t검정] 3. t분포의 아이디어 Z검정에서 사용하는 Z통계량은 아래와 같습니다. $Z=\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$ Z검정의 한계는 Z통계량을 구할 때, 모분산 대신 표본분산을 사용한다는 것이었습니다. 우리가 뽑은 표본의 분산은 당연히 모분산과 다를 것입니다. 아주 우연히 같은 경우가 생길 수도 있겠지만, 대부분의 경우 다를 것입니다. 윌리엄 고셋은 이 문제를 해결하고 싶었습니다. 고민 끝에 이런 아이디어를 떠올리게 됩니다. "표본분산을 확률변수로 포함하는 분포를 만들면 되지 않을까" 다른 말로 하면 아래 확률변수의 분포를 구한다는 말입니다. $\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}$ 이 확률변수는 Z통계량의 모분산 자리에 표본분산을 대입한 것입니다. 아마.. 2022. 12. 24.
[손으로 푸는 등분산 검정] 1. 소개 안녕하세요 통계의 본질입니다. 본 강의의 제목은 「손으로 푸는 등분산검정」 입니다. 등분산검정의 원리를 수학적으로 이해해보는 강의입니다. 등분산 검정의 모든 과정을 수식으로 써가며 이해하는 것이 목적입니다. 선수 과목은 「손으로 푸는 통계」입니다. 여러분이 통계검정의 원리를 이해하고 있다고 가정하고 진행합니다. 등분산검정은 집단의 분산을 비교할 때 사용됩니다. 대표적인 등분산 검정은 두 가지가 있습니다. F검정과 Levene's 검정입니다. F검정은 두 그룹의 분산 비교만 가능하고, Levene's 검정은 두 그룹 뿐 아니라 세 그룹 이상의 분산 비교도 가능합니다. t검정과 분산분석은 그룹들의 등분산성을 전제로 하기 때문에 사전 과정으로 등분산 검정을 해야 합니다. 이때 Levene's 검정을 주로 사용.. 2022. 12. 24.
[통계 Q&A] 통계 개념질문 5개 Q) 통계 개념질문 답해주세요 A) 1. 양측검정의 유의확률은 단측검정 보다 2배 크다. 맞습니다. 양측검정의 유의확률은 0.025와 비교해야하기 때문에, 0.05를 기준으로 하면 두배 커져야 합니다. 따라서 단측검정의 유의확률보다 두배 커집니다. 자세한 설명은 아래 글 참고하세요. https://hsm-edu.tistory.com/850 2. 유의확률이 1종 오류보다 작아야 연구가설을 받아들일 수 있다. 맞습니다. 1종오류는 유의수준인 0.05입니다. 유의확률이 1종오류보다 작아야 귀무가설이 기각되고 대립가설이 채택됩니다. 3. T검정은 2개 독립변수 평균 차이를 검정하는 것이다. 틀렸습니다. t검정에는 '독립표본 t검정'과 '대응표본 t검정'이 있습니다. 이 중 독립표본 t검정이 두 독립변수 평균차이.. 2022. 12. 10.
[손으로 푸는 비율검정] 2. 일표본 비율검정의 수학적 원리 일표본 비율검정을 이해하기 위해 한가지 상황을 설정하겠습니다. 아래와 같습니다. "A시의 여성 비율이 p라고 알려져 있는데, 표본을 뽑아 정말 그러한지 확인해 봅시다." 표본을 뽑아서 가설검정을 할 것입니다. 귀무가설과 대립가설은 아래와 같습니다. 귀무가설 : A시의 여성비율이 p이다. 대립가설 : A시의 여성비율은 p가 아니다. A시에서 크기가 n인 표본을 뽑으려고 합니다. 이때 크기가 n인 표본에 속해 있는 여성의 수를 확률변수 X라고 놓겠습니다. 확률변수 X는 아래 이항분포를 따릅니다. $X \sim B(n,p)$ 왜 확률변수 X는 이항분포를 따를까요? A시에서 크기가 n인 표본을 뽑는다는 것은, 한번 시행을 했을 때 여성이 발생할 확률이 p인 사건을 n번 시행하는 것과 같습니다. 이는 이항분포와 .. 2022. 12. 2.
[손으로 푸는 비율검정] 1. 무엇을 배우는가 이 강의에서는 두 가지 종류의 비율검정을 배울 것입니다. 하나는 일표본 비율검정이고, 다른 하나는 이표본 비율검정입니다. - 일표본 비율검정 - 이표본 비율검정 일표본 비율검정은 모비율이 p 라고 알려져 있는 상황에서, 표본을 뽑아 모비율이 p가 맞는지 검정하는 것입니다. 예를 들어 A시 여성 비율이 0.3 이라고 알려져 있는 상황에서, 정말 0.3이 맞는지 표본을 뽑아 검정하는 것입니다. 이표본 비율검정은 두 집단의 비율이 같은지 다른지 검정합니다. 예를 들어 A시와 B시의 여성 비율이 같은지 다른지를 표본을 뽑아 검정하는 것입니다. R이나 SPSS 같은 통계 프로그램으로 비율검정을 따라하는 것은 어렵지 않습니다. 본 강의는 비율검정 결과를 단순히 얻는 방법을 설명하는 강의는 아닙니다. 본 강의는 비율.. 2022. 11. 26.
[통계 기호의 이해] 4. X 와 aX+b 의 발생 확률이 같은 이유 X의 확률밀도함수가 p(x) 인 경우에 X의 기댓값과 3X의 기댓값을 지난 시간에 구했었습니다. 결과는 아래와 같습니다. $E[X]=\sum_{i=1}^{n}x_{i}p(x_{i})$ $E[3X]=\sum_{i=1}^{n}3x_{i}p(x_{i})$ 여기서 이런 의문이 드는 분들이 계실겁니다. X가 3X로 바뀌었는데, 왜 p(x) 는 그대로인가. 오늘 그 의문을 해결해봅시다. 확률변수 X의 원소를 아래와 같이 놓겠습니다. $X=\left \{x_{1},x_{2},...,x_{n} \right \}$ $x_{1}$ 이 발생할 확률은 $p(x_{1})$ 입니다. $x_{2}$가 발생할 확률은 $p(x_{2})$ 입니다. 나머지 원소들에도 동일하게 성립합니다. 기댓값은 모든 사건과 각 사건이 발생할 확률의 합.. 2022. 10. 26.
[통계 기호의 이해] 3. E[X] 는 함수가 아닙니다 기댓값 기호 $E[X]$를 함수로 오해하시는 경우가 있습니다. 먼저 아래 질문에 답해보면서 오해하고 있는건 아닌지 확인해봅시다. Q) 확률변수 X의 확률 밀도함수를 $f(x)$ 라고 한다면, 확률변수 X의 기댓값은 아래와 같이 계산됩니다. $E[X]=\int_{-\infty}^{\infty}xf(x)dx$ 이때, 확률변수 3X의 기댓값을 아래와 같이 계산하는게 맞나요? $E[3X]=\int_{-\infty}^{\infty}3xf(3x)dx$ 정답은 '틀렸다' 입니다. 위와 같은 계산이 왜 틀렸는지 지금부터 알아봅시다. $E[X]$ 는 함수가 아니라 'X의 기댓값'을 기호로 나타낸 것입니다. X의 기댓값이라는 말을 매번 쓰기 귀찮으니 $E[X]$ 로 표현하기로 한 것입니다. X의 기댓값이 구해지는 과정을 .. 2022. 9. 30.
표본평균의 분포는 정말 정규분포가 될 수 있을까 (1) 그래프 비교 과연 중심극한정리도 실제로 작동할까요? 표본평균의 분포를 정규분포로 가정하고 구한 p값과 실제 분포에서 구한 p값은 잘 일치할까? 라는 궁금증이 생겼습니다. 이번시간에는 그래프를 그려보며 눈으로 비교하고, 다음 시간에는 p값을 구해서 비교해보겠습니다. 테스트에 사용할 모집단은 아래와 같습니다. ppltn=c(1,2,3,4,5,6,7,8,9,10) 1부터 10까지의 자연수입니다. 정규분포와는 거리가 멉니다. 먼저 크기가 3인 표본을 50000번 추출하여 히스토그램을 그리고 정규분포와 비교하였습니다. 전체적인 모양은 비슷합니다. 크기를 10으로 늘려보았습니다. 모양이 상당히 비슷합니다. 최댓값도 비슷합니다. 표본분산의 분포와 카이제곱분포를 비교할 때는 최댓값이 많이 달랐는데 표본평균의 분포에서는 잘 일치합니.. 2022. 9. 16.
[통계 기호의 이해] 1. P[X=x] 의 의미, 왜 대문자 소문자를 쓰나 통계와 관련된 책이나 자료들을 보면 P[X=x] 라는 기호를 많이 보게됩니다. 대문자 X와 소문자 x가 둘다 포함되어 있어서 헷갈려하시는 경우가 있어서 이 기호에 대해 설명하려고 합니다. X라는 확률변수가 있다고 합시다. 이 확률변수의 발생확률 아래와 같이 나타내 봅시다. $P[X]$ X가 3일 확률을 나타내봅시다. $P[3]$ 이렇게만 놓고 보면, 어떤 확률변수가 3일 확률인지를 알 수가 없습니다. 아래와 같이 표현하는 것이 더 알아보기 편합니다. $P[X=3]$ 위 식에서 X는 확률변수를 나타내구요. 3은 발생한 값을 나타냅니다. X의 확률함수를 $p(x)$라고 놓는다면 아래와 같이 나타낼 수 있습니다. $P[X=3]=p(3)$ 좌변의 P는 확률이라는 뜻이구요. 우변의 p는 함수의 이름입니다. 헷갈리.. 2022. 9. 9.
[통계 Q&A] 표본을 하나만 뽑았는데 어떻게 분포를 가정할 수 있나요? (중심극한정리) Q) 표본을 하나만 뽑았는데 어떻게 분포를 가정할 수 있나요? A) 표본을 뽑지 않아도 분포는 가정할 수 있습니다. 정말 자주 받는 질문입니다. 많은 분들이 헷갈려 하시는 내용이고 왜 헷갈려하시는지 이해가 됩니다. 헷갈리는 상황을 먼저 설명하겠습니다. 모집단의 평균이 $\mu$라고 알려져 있는데요. 사실인지 확인하기 위해 표본을 뽑아 통계검정을 하려고 합니다. 크기가 n인 표본을 뽑았구요. 표본의 평균은 $\bar{X}_{1}$, 분산은 $s^2$입니다. 이때 표본의 크기 n이 충분히 크면 중심극한정리를 적용할 수 있습니다. 표본의 크기 n이 충분히 크면 표본평균의 분포가 아래 분포를 따른다는 것이 중심극한정리입니다. $\bar{X} \sim N\left (\mu,\frac{\sigma^2}{n} \ri.. 2022. 9. 7.
[통계 Q&A] 다항분포 문제를 비복원추출로 풀어주세요 Q) 다항분포 문제를 비복원추출로 풀어주세요 A) 질문자님께서 말씀하신 다항분포 문제는 아래와 같습니다. 상자가 있습니다. 상자 안에는 100개의 공이 들어있는데요. 빨간공이 20개, 파란공이 30개, 노란공이 50개 들어있습니다. 이 상자에서 복원추출로 공을 10번 뽑을 때, 빨간공이 5개, 파란공이 2개, 노란공이 3개 나올 확률을 구해봅시다. 복원추출로 풀면 정답은 아래와 같습니다. $P\left( x,y,z; \ n ; \ 0.2,0.3,0.5 \right)=\frac{n!}{x!y!z!}0.2^x 0.3^y 0.5^z$ $P\left( 5,2,3; \ n ; \ 0.2,0.3,0.5 \right)=\frac{10!}{5!2!3!}0.2^5 0.3^2 0.5^3$ 비복원추출인 경우를 계산해봅시다... 2022. 8. 22.
모집단 표본추출 그림 ppt 모집단에서 표본을 추출하는 그림 ppt 파일입니다. 2022. 8. 21.
t검정 대신 상관분석을 쓸 수 있다고? t 검정 대신 상관분석을 사용할 수 있다는 흥미로운 사실을 한가지 예시를 통해 보여드리겠습니다. 아래와 같이 남자와 여자 각 30명의 키 데이터가 있습니다. 지면 관계상 12명 씩만 나타냈습니다. t검정 먼저 남녀 키를 비교하는 t검정을 해봅시다. 위 데이터의 경우 이분산가정과 등분산가정 결과가 같았습니다. R로 수행한 t-test 결과는 아래와 같습니다. p값만 보면 됩니다. 0.2683이 나옵니다. 상관분석 위 데이터를 이용하여 상관분석을 하려면 어떻게 해야할까요. 남자와 여자의 상관관계를 보는 것은 불가능합니다. 서로 대응되어 있지 않기 때문입니다. 독립변수~종속변수 관계가 필요합니다. 독립변수와 종속변수를 아래와 같이 설정할 경우 상관분석이 가능해집니다. 독립변수 : 성별 종속변수 : 키 성별과 .. 2022. 8. 21.
반응형