본문 바로가기
반응형

전체 글647

중심극한정리 유도하기 (요약버전) 중심극한정리 유도의 Full 버전은 아래 링크를 참고하세요. 9강~14강에 자세히 유도해 놓았습니다. https://hsm-edu.tistory.com/1193 [통계 기초 강의] 9. 중심극한정리란 무엇인가 이번 강의에서는 중심극한정리가 무엇인지 설명드리도록 하겠습니다. 수학적인 증명은 이후에 할거구요. 오늘은 개념만 설명드리는 것입니다. 모집단에서 크기가 n인 표본을 뽑았습니다. hsm-edu.tistory.com 이 글은 중심극한정리의 유도과정을 간단히 요약한 것입니다. 중심극한정리는 모집단의 분포와 상관없이 표본의 크기가 충분히 크다면 표본평균들의 분포가 정규분포를 따른다는 정리입니다. 여기서 주의할 점은 표본의 개수가 아니라 표본의 '크기'라는 것입니다. 표본의 개수는 무한하다고 가정합니다. 크.. 2021. 9. 15.
[통계 적률의 이해] 5. 적률들 한눈에보기 우리는 지금까지 세가지 적률을 공부했습니다. 적률, 중심적률, 표준화적률입니다. 세 적률이 통계량인 평균,분산,왜도,첨도와 어떤 관계가 있는지도 공부했습니다. 지금까지 배운 내용들을 표로 정리해봅시다. 이름 기호 정의 기댓값 형태 통계량과의 관계 적률 $\mu_{n}'$ $\int_{-\infty}^{\infty}x^{n}f(x)dx$ $E\left [ X^{n} \right ]$ 평균 = $\mu_{1}'$ 중심적률 $\mu_{n}$ $\int_{-\infty}^{\infty}(x-\mu)^{n}f(x)dx$ $E\left [ \left ( X-\mu \right )^{n} \right ]$ 분산 = $\mu_{2}$ 표준화적률 $\tilde{\mu}_{n}$ $\frac{\mu_{n}}{\sigma^.. 2021. 9. 9.
회귀분석 예시모음 (단순선형) 회귀분석은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다. 회귀분석에는 다양한 종류가 있습니다. 오늘 살펴볼 예시는 단순선형회귀분석의 예시입니다. 단순선형회귀분석은 종속변수와 독립변수가 1개씩이고 차수가 1차인 회귀분석입니다. 독립변수는 키, 종속변수는 몸무게 독립변수는 매출, 종속변수 주가 독립변수는 소득, 종속변수는 행복점수 독립변수는 광고비, 종속변수는 매출 2021. 9. 8.
상관분석에서 독립변수와 종속변수를 서로 바꿔도 결과가 같을까 같습니다. 상관분석에서는 독립변수와 종속변수의 구분이 따로 없습니다. 2021. 9. 8.
상관분석 예시모음 피어슨 상관분석은 두 수치형 변수 사이의 선형관계의 강도를 계산하는 방법입니다. -1~1 사이의 값으로 나타나며 -1에 가까울 수록 음의 상관관계 1에 가까울 수록 양의 상관관계를 갖습니다. 독립 또는 종속변수가 수치형이 아니라 명목형인 순위자료인 경우에는 스피어만검정 또는 캔달의 타우 검정을 합니다. 피어슨 상관분석 예시 키와 몸무게의 상관관계 30대 남성 아버지 소득과 자녀 소득의 상관관계 국어점수와 수학점수의 상관관계 광고비용과 매출의 상관관계 스피어만, 캔달타우 상관분석 예시 몸무게 순위와 키 순위의 상관관계 2021. 9. 8.
주요 통계분석들 한번에 훑어보기 (VER.202109) 자주 사용되는 통계분석 방법들을 한번에 이해해보는 강의입니다. 다루려는 검정들은 아래와 같습니다. - 독립표본 t검정 - 대응표본 t검정 - 카이제곱검정 - 분산분석과 사후검정 - 상관분석 - 선형회귀분석 무언가를 조사하기 위해 30대 기혼 남자 100명과 여자 100명을 모집했습니다. 남녀비교를 할 예정인데 무엇을 비교할지는 아직 안정했습니다. 먼저 키를 측정해서 평균을 냈습니다. 남녀 키에 유의차가 있는지 알고 싶은 경우 어떤 검정을 사용하면 될까요? 독립표본 t검정을 사용하면 됩니다. 모집한 사람들을 대상으로 이번에 새로 개발한 키 크는 약을 테스트해 보기로 했습니다. 남자 100명에게 키크는 약을 먹이고 먹기 전과 먹은후 1달 뒤의 키를 측정했습니다. 약을 먹기 전과 후의 키의 유의차가 있는지 알.. 2021. 9. 6.
카이제곱검정 예시 모음 (3수준 이상) 카이제곱검정에서 셋 이상 집단의 비율을 비교할 경우 어느 집단 사이에 유의차가 있는 것인지 알아보기 위한 사후검정이 필요합니다. 셋 이상 집단 비율을 비교한다는 것은 독립변수의 수준이 3level 이상임인 경우를 말합니다 예시1) 20대와 30대의 A사와 B사 제품 선호 비율 A사 B사 Total 20대 30 70 100 30대 40 60 100 40대 10 90 100 Total 80 220 300 독립변수 : 나이 (3수준) 종속변수 : 선호회사 (2수준) 귀무가설 : 비율 차이가 없다 예시2) 남녀의 혈액형 비율 A B O AB Total 남 10 30 25 35 100 여 15 20 30 35 100 Total 25 50 55 70 200 독립변수 : 성별 (2수준) 종속변수 : 혈액형 (4수준).. 2021. 9. 6.
변수 관점으로 통계분석방법들 분류하기 결과부터 보기 독립변수 종속변수 t검정 범주형 수치형 분산분석 (일원분산분석) 범주형 수치형 카이제곱검정 범주형 범주형 상관분석 (피어슨) 수치형 수치형 회귀분석 (단순선형) 수치형 수치형 로지스틱 회귀분석 수치형 (or 범주형) 범주형 아래 통계분석방법들을 변수 관점에서 분류해보려고 합니다. t검정 분산분석(일원분산분석) 카이제곱검정 상관분석(피어슨상관분석) 회귀분석(단순선형회귀분석) 변수는 독립변수와 종속변수로 나뉩니다. 각 변수는 자료의 형태에 따라 수치형자료 또는 범주형자료입니다. 어떤 통계 분석 방법의 독립변수와 종속변수가 수치형 자료인지 범주형자료인지를 알아보는 것이 이번 글의 목적입니다. 수치형 자료와 범주형자료가 무엇인지 모르는 분들을 위해 간단히 설명드리겠습니다. 수치형자료는 양적자료라고.. 2021. 9. 6.
카이제곱검정 예시 모음 (2수준) 카이제곱검정은 집단들의 비율을 비교하는 검정입니다. 일반적으로 두 집단의 비율 비교에 주로 사용하며 세 집단 이상 비교할 경우 사후검정을 해야 어느 집단 사이에 차이가 있는지 알 수 있습니다. 독립변수와 종속변수 모두 범주형입니다. 예시1) 20대와 30대의 A사와 B사 제품 선호 비율 A사 B사 Total 20대 30 70 100 30대 40 60 100 Total 70 130 200 독립변수 : 나이 (2수준) 종속변수 : 선호회사 (2수준) 귀무가설 : 비율 차이가 없다. 2021. 9. 6.
Tukey 사후분석의 검정통계량 세 그룹의 평균을 비교하는 상황을 예로 들어봅시다. 세 그룹을 A,B,C라고 놓겠습니다. 세 그룹의 평균은 $\mu_{A}$,$\mu_{B}$,$\mu_{C}$ 입니다. 각 그룹의 크기는 n으로 동일하다고 합시다. 등분산을 만족했고, 일원분산분석 결과 유의차가 있다고 나왔습니다. 사후분석을 해야하는데요. 등분산 가정을 만족하고, 그룹의 크기가 동일한 경우 Tukey 사후분석을 주로합니다. Tukey 사후분석은 모든 조합을 비교하는데요. 위 경우 아래 세 조합을 비교합니다. A-B A-C B-C 그룹 A,B를 비교할 때 검정 통계량은 아래와 같습니다. A-C와 B-C 를 비교할 때 통계량도 같은 방식으로 계산됩니다. $q=\frac{\left | \mu_{A}-\mu_{B} \right |} {\sqrt{.. 2021. 9. 3.
사후검정의 종류와 분류 (+주로 쓰는 방법) 사후검정은 아래 세가지 기준으로 나뉩니다. - 모수/비모수 - 등분산 여부 - 표본 크기 동일 여부 1) 모수적 방법 각 조건에 대해 주로 쓰이는 방법을 빨간색으로 표시하였습니다. 2) 비모수적 방법 Dunn's test Bonferroni Holm (공부해서 내용 보완 필요) 2021. 9. 2.
여러 등분산검정의 차이 (F test, levene's test, brown-forsythe test, barlett test) 등분산검정은 그 자체로는 많이 쓰이지 않고, 분산분석이나 t검정을 하기 전에 조건 확인용으로 쓰입니다. 만약 등분산가정이 충족되지 않는다면 Welch's t-test 나 Welch's ANOVA를 사용해야 합니다. 등분산 검정 방법은 여러가지가 있는데요. 대표적인 방법들은 아래와 같습니다. F test Levens's test brown-forsythe test barlett test 오늘은 이들을 간단히 비교해보도록 하겠습니다. F test F검정은 분산분석 그 자체에서도 사용됩니다. 이와 구분하기 위해 등분산검정에 F검정을 사용하는 것을 '등분산의 F검정' 이라고 부릅니다. F검정은 정규분포를 따르는 두 그룹의 분산 비교만 가능합니다. 두 그룹 분산의 비율을 이용하여 F 통계량을 정의하고, F분포를 .. 2021. 9. 1.
Levene's test 의 검정통계량 (등분산검정) Levene's test 는 세 그룹 이상의 등분산검정에 사용합니다. 물론 두 그룹의 비교도 가능합니다. F검정의 경우 세 그룹 이상은 불가합니다. Levene's test 의 검정통계량은 아래와 같습니다. W도 F처럼 F분포에서의 통계량입니다. $W=\frac{\frac{\sum_{i=1}^{k}N_{i}\left ( Z_{i.}-Z_{..} \right )^{2} }{k-1}} {\frac{\sum_{i=1}^{k}\sum_{j=1}^{N_{i}} \left ( Z_{ij}-Z_{i.} \right )^{2} }{N_{1}+N_{2}+\cdots +N_{k}-k}}$ 변수들은 아래와 같이 정의됩니다. $N$ : 전체 원소의 개수 (모든 그룹의 원소 개수의 합) $N_{i}$ 들의 합입니다. $k$ :.. 2021. 9. 1.
F 검정의 검정통계량 두 그룹의 분산 비교 시 그룹 A와 B의 분산의 비(ratio)입니다. 더 큰 분산을 분모에 넣으면 됩니다. $F=\frac{Var(X_{A})}{Var(X_{B})}$ 분산분석에 사용 시 그룹 간 분산과 그룹 내 분산의 비(ratio)입니다. $F=\frac{Between \ Group \ Variance}{Within \ Group \ Variance}$ 2021. 8. 31.
코호트연구와 환자-대조군 연구의 비교 및 장단점 논문을 읽다보면 자주 등장하는 두가지 연구방법이 있습니다. 코호트연구(Cohort study)와 환자-대조군연구(Case-control study)입니다. 먼저 연구는 크게 '관찰연구'와 '실험연구'로 나뉘는데, 위 두 연구 모두 '관찰연구'에 속합니다. 관찰연구는 연구자가 원인이 되는 요소들을 통제하지 않는 것을 말합니다. 실험자를 두 그룹으로 나누고, 한 그룹에게는 담배를 피게 하고 다른 그룹은 피지 않게 하는 것은 '관찰연구'가 아니라 '실험연구'입니다. 원인이 되는 요소를 통제했기 때문입니다. 코호트연구는 다시 전향적코호트연구(Prospective cohort study)와 후향적 코호트 연구(Retrospective cohort study)로 나뉩니다. 따라서 오늘 알아볼 연구방법은 아래의 세가.. 2021. 8. 31.
반응형