본문 바로가기
반응형

@ 통계 교양155

상관분석에서 독립변수와 종속변수를 서로 바꿔도 결과가 같을까 같습니다. 상관분석에서는 독립변수와 종속변수의 구분이 따로 없습니다. 2021. 9. 8.
주요 통계분석들 한번에 훑어보기 (VER.202109) 자주 사용되는 통계분석 방법들을 한번에 이해해보는 강의입니다. 다루려는 검정들은 아래와 같습니다. - 독립표본 t검정 - 대응표본 t검정 - 카이제곱검정 - 분산분석과 사후검정 - 상관분석 - 선형회귀분석 무언가를 조사하기 위해 30대 기혼 남자 100명과 여자 100명을 모집했습니다. 남녀비교를 할 예정인데 무엇을 비교할지는 아직 안정했습니다. 먼저 키를 측정해서 평균을 냈습니다. 남녀 키에 유의차가 있는지 알고 싶은 경우 어떤 검정을 사용하면 될까요? 독립표본 t검정을 사용하면 됩니다. 모집한 사람들을 대상으로 이번에 새로 개발한 키 크는 약을 테스트해 보기로 했습니다. 남자 100명에게 키크는 약을 먹이고 먹기 전과 먹은후 1달 뒤의 키를 측정했습니다. 약을 먹기 전과 후의 키의 유의차가 있는지 알.. 2021. 9. 6.
변수 관점으로 통계분석방법들 분류하기 결과부터 보기 독립변수 종속변수 t검정 범주형 수치형 분산분석 (일원분산분석) 범주형 수치형 카이제곱검정 범주형 범주형 상관분석 (피어슨) 수치형 수치형 회귀분석 (단순선형) 수치형 수치형 로지스틱 회귀분석 수치형 (or 범주형) 범주형 아래 통계분석방법들을 변수 관점에서 분류해보려고 합니다. t검정 분산분석(일원분산분석) 카이제곱검정 상관분석(피어슨상관분석) 회귀분석(단순선형회귀분석) 변수는 독립변수와 종속변수로 나뉩니다. 각 변수는 자료의 형태에 따라 수치형자료 또는 범주형자료입니다. 어떤 통계 분석 방법의 독립변수와 종속변수가 수치형 자료인지 범주형자료인지를 알아보는 것이 이번 글의 목적입니다. 수치형 자료와 범주형자료가 무엇인지 모르는 분들을 위해 간단히 설명드리겠습니다. 수치형자료는 양적자료라고.. 2021. 9. 6.
사후검정의 종류와 분류 (+주로 쓰는 방법) 사후검정은 아래 세가지 기준으로 나뉩니다. - 모수/비모수 - 등분산 여부 - 표본 크기 동일 여부 1) 모수적 방법 각 조건에 대해 주로 쓰이는 방법을 빨간색으로 표시하였습니다. 2) 비모수적 방법 Dunn's test Bonferroni Holm (공부해서 내용 보완 필요) 2021. 9. 2.
여러 등분산검정의 차이 (F test, levene's test, brown-forsythe test, barlett test) 등분산검정은 그 자체로는 많이 쓰이지 않고, 분산분석이나 t검정을 하기 전에 조건 확인용으로 쓰입니다. 만약 등분산가정이 충족되지 않는다면 Welch's t-test 나 Welch's ANOVA를 사용해야 합니다. 등분산 검정 방법은 여러가지가 있는데요. 대표적인 방법들은 아래와 같습니다. F test Levens's test brown-forsythe test barlett test 오늘은 이들을 간단히 비교해보도록 하겠습니다. F test F검정은 분산분석 그 자체에서도 사용됩니다. 이와 구분하기 위해 등분산검정에 F검정을 사용하는 것을 '등분산의 F검정' 이라고 부릅니다. F검정은 정규분포를 따르는 두 그룹의 분산 비교만 가능합니다. 두 그룹 분산의 비율을 이용하여 F 통계량을 정의하고, F분포를 .. 2021. 9. 1.
코호트연구와 환자-대조군 연구의 비교 및 장단점 논문을 읽다보면 자주 등장하는 두가지 연구방법이 있습니다. 코호트연구(Cohort study)와 환자-대조군연구(Case-control study)입니다. 먼저 연구는 크게 '관찰연구'와 '실험연구'로 나뉘는데, 위 두 연구 모두 '관찰연구'에 속합니다. 관찰연구는 연구자가 원인이 되는 요소들을 통제하지 않는 것을 말합니다. 실험자를 두 그룹으로 나누고, 한 그룹에게는 담배를 피게 하고 다른 그룹은 피지 않게 하는 것은 '관찰연구'가 아니라 '실험연구'입니다. 원인이 되는 요소를 통제했기 때문입니다. 코호트연구는 다시 전향적코호트연구(Prospective cohort study)와 후향적 코호트 연구(Retrospective cohort study)로 나뉩니다. 따라서 오늘 알아볼 연구방법은 아래의 세가.. 2021. 8. 31.
2x2 분할표의 사용예시 (진단성능,코호트연구, 실험군-대조군 연구) 2x2 분할표는 아래와 같이 데이터 입력부분이 2행 2열인 표입니다. Col1 Col2 Total Row1 Row2 Total 분할표가 사용되는 곳은 크게 세가지가 있습니다. 진단성은, 코호트연구, 실험-대조군 연구입니다. 물론 더 많은 곳에 분할표가 사용될 수 있지만, 헷갈릴 수 있어 구별이 필요한 대표적인 세 사례를 가져왔습니다. 1. 진단성능 2x2 분할표는 진단기기의 판정 결과를 나타낼 때 사용됩니다. 변수는 두개이고, 둘다 범주형 변수입니다. 변수1(실제사실) = {환자,정상} 변수2(판정결과) = {양성,음성} 진단기기를 개발중이고 성능을 평가해야하는 상황이라고 합시다. 환자 100명, 정상인 100명을 모집해서 검사를 했다면 결과를 아래와 같이 분할표로 나타낼 수 있습니다. 환자 정상 Tot.. 2021. 8. 27.
신뢰도(reliability) 와 타당도(validity)의 차이 우리가 어떤 측정을 했을 때, 측정 결과를 과연 믿을 수 있는지 반드시 확인해보아야 합니다. 이때 측정을 평가할 수 있는 두가지 기준이 신뢰도와 타당도입니다. 신뢰도와 타당도를 설명하는 유명한 그림이 있습니다. 이 그림을 통해 신뢰도와 타당도를 쉽게 이해할 수 있습니다. 신뢰도 신뢰도은 '재현이 가능한 정도'로 이해할 수 있습니다. 반복 측정에서 결과가 일치한다면 신뢰도가 높은 것입니다. 일치도(agreement), 반복성(repeatability), 재현성(reproducibility) 라도도 부릅니다. 1번 그림에 보면 반복해서 화살을 쐈을 때 같은 위치를 맞추고 있으니 신뢰도는 높은 것입니다. 하지만 과녁의 중앙을 맞추고 있지는 않아 타당도는 낮습니다. 신뢰도는 측정 방법과 관련이 있습니다. 측정 .. 2021. 8. 26.
코로나에서 양성이 나왔을 때, 실제 코로나에 걸렸을 확률 코로나 검사를 했는데 양성이 나왔습니다. 이때, 실제로 코로나에 걸렸을 확률을 구해봅시다. 어떤 방법으로 진단했는가에 따라 확률이 달라집니다. 각 진단방법과 민감도, 특이도를 정리한 표는 아래와 같습니다. 2,3,4열의 방법은 임시선별검사소에서 사용하는 방법이고 5,6,7열은 자가진단키트입니다. 참고로 국내 자가진단 키트 기준은 민감도 90%이상, 특이도 99% 이상이라고 하네요. 민감도 : 병에 걸린 사람을 양성으로 판정할 확률 특이도 : 병에 걸리지 않은 사람을 음성으로 판정할 확률 검사방법 비인두도말 PCR법 신속항원검사법 타액PCR법 에스디바이오센서 휴마시스 래피젠 민감도 98% 90% 92% 82.5% 92.9% 93.15% 특이도 100% 96% 100% 100% 99% 100% 코로나 검사에.. 2021. 8. 25.
민감도와 특이도, 무엇이 높은게 좋은가 민감도와 특이도는 병을 진단하는 도구의 성능을 판단할 때 사용하는 용어입니다. 민감도는 Sensitivity, 특이도는 Specificity 입니다. 아래와 같이 정의됩니다. 민감도 : 병에 걸린 사람을 양성으로 판정할 확률 특이도 : 병에 걸리지 않은 사람을 음성으로 판정할 확률 이 두 값이 높아야 좋은 진단도구입니다. 민감도와 특이도는 분할표와 함께 이해해야 쉽습니다. 암검사를 예로 들어봅시다. 암환자 200명을 대상으로 진단을 했을 때 198명이 양성이 나왔고, 비암환자 100명을 대상으로 진단을 했을 때 음성이 97명이 나왔습니다. 표로 정리하면 아래와 같습니다. 암환자 비암환자 양성 198 3 음성 2 97 민감도를 먼저 계산해봅시다. 환자 200명 중에 양성판정을 198명이 받았으므로 민감도는.. 2021. 8. 25.
병 진단과 조건부확률 (양성이 나왔을 때 병에 걸려있을 확률) 어떤 암에 걸릴 확률이 1%라고 합시다. 어떤 사람이 증상이 의심되서 병원에 가서 암 검사를 받았습니다. 이 검사도구는 병에 걸린 사람을 병에 걸렸다고 판단할 확률이 90%이고, 병에 걸리지 않은 사람을 병에 걸리지 않았다고 판단할 확률이 80%입니다. 전문용어로 표현하면 아래와 같습니다. 민감도(sensitivity) : 90% 특이도(specificity) : 80% 검사 결과는 양성이었습니다. 이때 이 사람이 실제로 병에 걸렸을 확률은 얼마일까요? 아래 조건부확률을 구하면 됩니다. PT는 양성인 사건이고 D는 병에걸린 사건입니다. $P(D|PT)=\frac{P(D\cap PT)}{P(PT)}$ 분모는 양성이 나올 확률입니다. 양성이 나올 확률은 병에 걸렸는데 양성이 나올 확률과 병에 걸리지 않았는데.. 2021. 8. 25.
통계에서 interobeserver, intraobserver 차이 어떤 측정값을 가지고 통계분석을 하려고 할 때, 먼저 확인해보아야 하는 것이있습니다. '측정 자체를 신뢰할수 있는가' 입니다. 예를들어 어떤 길이를 측정한다고 할 때, 보통 두세사람이 같은 대상을 측정하고 각각의 측정자도 여러번 반복해서 측정합니다. A,B 두사람이 측정했고 각각 두번씩 측정했다고 할 때 아래와 같은 측정 결과가 생깁니다. A1 A2 B1 B2 이들이 일치해야 좋은 측정입니다. 이때 두가지 비교가 가능합니다. A의 측정 결과와 B의 측정결과를 비교 A(또는 B)의 1차 측정 결과와 2차 측정 결과를 비교 전자를 측정자간(interobserver) 비교 라고 하고, 후자를 측정자내(intraobserver) 비교라고 합니다. interobserver : 측정자 간 비교 intraobserv.. 2021. 8. 10.
기하 표준편차란 무엇인가 기하 표준편차는 데이터가 기하평균에서 얼마나 흩어져 있는가를 나타내는 값입니다. 기하평균을 사용하는 것이 적합한 데이터에서 기하 표준편차를 사용합니다. 아래와 같이 크기가 n인 데이터가 있다고 합시다. $\left \{ x_{1},x_{2},...,x_{n} \right \}$ 기하평균은 아래와 같습니다. $\mu_{g}=\sqrt[n]{x_{1}x_{2}\cdots x_{n}}$ 양변에 자연로그를 취해줍니다. $\ln \mu_{g}=\ln \sqrt[n]{x_{1}x_{2}\cdots x_{n}}$ 로그의 성질을 이용하여 아래와 같이 변형합니다. $\ln \mu_{g}=\frac{1}{n} \ln x_{1}x_{2}\cdots x_{n}$ 로그의 성질을 이용하여 아래와 같이 분리해서 써줍니다. $\ln.. 2021. 8. 5.
인사채용의 1종오류와 2종오류 인사채용시 지원자를 능력자와 무능력자로 구분하고, 회사의 행동은 채용과 비채용으로 구분하면 아래와 같은 분할표를 얻을 수 있습니다. 아래 표를 표1이라고 하겠습니다. 능력자 무능력자 채용 옳은 선택 오류 비채용 오류 옳은 선택 이 상황을 통계적 가설검정과 비교해봅시다. 통계적 가설검정의 결과에 대한 분할표는 아래와 같습니다. 귀무가설이 참 귀무가설이 거짓 기각안함 옳은 선택 2종 오류 기각함 1종 오류 옳은 선택 표 1에서 1종오류와 2종오류를 구분해봅시다. 먼저 귀무가설을 세워야하는데, 귀무가설은 두가지가 가능합니다. - 지원자는 능력자다. - 지원자는 무능력자다. 지원자가 능력자라는 귀무가설을 세운 경우의 분할표입니다. 능력자 무능력자 채용 옳은 선택 2종 오류 비채용 1종 오류 옳은 선택 지원자가 .. 2021. 6. 23.
통계적 유의차가 있으면 의미 있는 차이인 걸까 두 회사에서 감자칩을 출시했고 가격은 동일합니다. 각각의 회사는 올해 10만개의 감자칩을 생산했습니다. 우리에게 모든 것을 아는 초능력이 있어서 10만개의 평균과 표준편차를 알고 있다고 가정합시다. A회사의 감자칩 무게의 평균은 50g, 표준편차는 1g 이었고, B회사의 감자칩 무게의 평균은 50.1g, 표준편차는 1g 이었습니다. 분포는 정규분포를 따른다고 가정하겠습니다. $A\sim N\left ( 50,1 \right )$ $A\sim N\left ( 50.1,1 \right )$ 각 회사의 10만개의 감자칩을 모집단으로 하여 표본을 추출하고 p값을 구해봅시다. 무료 통계 프로그램인 R을 이용하여 표본의 크기를 10부터 10000까지 10단위로 키우며 표본을 추출하고 p값을 구해봤습니다. 사용한 R.. 2021. 6. 22.
기하분포의 두가지 정의와 각각의 분포함수, 평균, 분산 기하분포는 두가지 정의가 있습니다. 한가지씩 알아봅시다. 1. 확률변수가 시행횟수 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 시행한 횟수를 확률변수 x로 할때의 확률분포입니다. 예를 들어 확률변수가 4일 때의 확률은 "실패-실패-실패-성공" 인 경우의 확률입니다. 확률분포, 기댓값, 분산은 아래와 같습니다. $P(x)=(1-p)^{x-1}p$ $E(X)=\frac{1}{p}$ $V(X)=\frac{1-p}{p^2}$ 2. 확률변수가 실패횟수 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 실패한 횟수를 확률변수 x로 할때의 확률분포입니다. 이때는 확률변수 4의 확률이 "실패-실패-실패-실패-성공"의 확률이 됩니다. $P(x)=(1-p)^{x}p$ $E(X)=\frac{1-p}{p}$ $V(X.. 2021. 6. 6.
분산분석에서 요인(factor)과 수준(level)의 의미 분산분석의 예시를 통해 요인(factor)과 수준(level)이라는 용어를 이해해봅시다. 고무의 재질에 따라 타이어 마모 정도가 달라지는지 알아보기 위해, 세 가지 재질의 고무를 준비했습니다. 재질 A,B,C 라고 합시다. 100km 주행 테스트를 했고, 타이어 마모 정도를 전,후 질량 차이를 이용하여 측정했습니다. 위 예시에서 독립변수는 고무의 재질이고 종속변수는 타이어 마모 정도입니다. 여기서 독립변수를 다른 말로 요인(factor)이라고 부릅니다. 독립변수인 고무의 재질에는 A,B,C 세가지가 있었습니다. 이때 고무의 재질 A,B,C 를 독립변수의 수준(level)이라고 합니다. 위 예시에서 요인은 1개이고, 수준은 3개입니다. 요인 : 고무의 재질 수준 : A,B,C 이 예시에서 사용되는 분산분석.. 2021. 6. 1.
표본을 하나밖에 안 뽑았는데 어떻게 분포를 가정하나요?? "표본을 하나밖에 안 뽑았는데 어떻게 분포를 가정하나요??" 라는 질문을 정말 많이 받습니다. 오늘은 이 질문에 대해 최대한 쉽게 이해되도록 설명드려보겠습니다. 먼저 이 질문이 나온 맥락을 알아봅시다. 여기 모집단이 하나 있습니다. 모집단의 평균은 $\mu$, 표준편차는 $\sigma$ 라고 놓겠습니다. 모집단에서 크기가 n인 표본을 추출했습니다. 이 표본의 평균을 $\bar{X}_{1}$, 표준편차를 $\sigma_{1}$이라고 놓겠습니다. n이 충분히 크다고 가정하면, 중심극한정리에 의해 방금 우리가 뽑은 이 표본의 평균은 아래 분포를 따릅니다. $\bar{X} \sim N \left (\mu,\frac{\sigma^2}{n} \right)$ 이 상황에서 나온 질문입니다. 아래와 같은 의문이 드는 분.. 2021. 5. 21.
비율검정 요약 z검정과 t검정은 모집단과 표본의 평균을 비교하거나, 두 표본의 평균을 비교할때 사용하는 검정입니다. 모집단과 표본 또는 두 표본의 비율을 비교하고 싶은 경우에 사용하는 방법은 비율검정입니다. 1. 단일표본 비율 검정 한가지 상황을 가정합시다. 모집단의 비율이 $p_{0}$로 알려져 있는 상황입니다. 정말 그러한지 확인하고 싶었고, 크기가 n인 표본을 뽑았습니다. 추출한 표본에서 구한 비율은 $\hat{p_1}$ 라고 놓겠습니다. 표본비율을 나타내는 변수는 $\hat{p}$ 라고 놓겠습니다. 이때 아래 등식이 성립합니다. $E(\hat{p})=p_{0}$ $V(\hat{p})=\frac{np_{0}q_{0}}{n^2}$ 아래 조건이 만족하면 $\hat{p}$의 분포는 정규분포를 따릅니다. $np_{0} .. 2021. 5. 14.
산점도 그래프 회전의 수학적 원리 상관분석 설명자료에 사용하기 위해 우상향 또는 우하향의 산점도 그래프가 필요했습니다. 아래와 같이 x와 y를 정규분포에서 랜덤추출하여 산점도를 그린 뒤, 45도를 회전시켰습니다. 어떤 수학적 원리가 사용되었는지 설명드리겠습니다. 원점 중심 회전 아래와 그림에서 (a,b) 를 (a',b')으로 회전시키고 싶은 상황이라고 합시다. a와 b를 극좌표로 표현하면 아래와 같습니다. $a=r cos(\alpha)$ $b=r sin(\alpha)$ a'와 b'을 극좌표로 표현하면 아래와 같습니다. $a'=r cos(\alpha+\theta)$ $b'=r sin(\alpha+\theta)$ a'와 b'는 삼각함수의 덧셈정리를 이용하면 아래와 같이 변형할 수 있습니다. $a'=r(cos(\theta)cos(\alpha).. 2021. 4. 28.
공분산이란 무엇인가 (정의와 의미) 역사적 정황을 정확히 알 수는 없지만 공분산은 분산에서 유래된 개념인 것 같습니다. 분산을 먼저 발견하고, 이후에 공분산을 떠올린 것입니다. 공분산은 공+분산인데, 여기서 공은 함께, 여럿을 뜻하는 공입니다. 공동체 할때 그 공입니다. 따라서 공분산은 여럿으로 구한 분산을 말합니다. 변수 하나로 구한 분산이 아니라 변수 여럿으로 구한 분산입니다. 결론부터 말하면 변수 '둘'로 구한 분산입니다. 분산의 정의 먼저 분산의 정의를 살펴봅시다. 어떤 변수 X의 분산은 아래와 같이 정의됩니다. $V(X)=E\left [ \left ( X-E(X) \right )^2 \right ]$ X가 이산확률변수이고, 각 원소의 발생확률이 같은 경우 아래와 같이 구합니다. $V(X)=\frac{\sum_{i=1}^{n}(x_.. 2021. 4. 27.
통계분석 공부순서(t검정,F검정,분산분석,상관분석,회귀분석) 자주 사용하는 통계 분석에는 아래와 같은 방법들이 있습니다. t검정 F검정 분산분석 상관분석 회귀분석 t검정은 평균을 비교하는 검정이고 F검정은 분산을 비교하는 검정입니다. 가장 기본적인 통계분석입니다. 나머지 통계분석들은 이 두 분석을 이용합니다. 분산분석 : F검정을 이용하여 셋 이상의 집단의 평균을 비교합니다. 상관분석 : t검정을 이용하여 상관계수가 0인지 아닌지 여부를 판단합니다. 회귀분석 : F검정을 이용하여 모형의 적합도를 판단하고, t검정을 이용하여 회귀계수가 0인지 아닌지 여부를 추정합니다. 공부하기 원하는 분석방법에 따라 세 가지 공부 순서가 가능합니다. t검정 → 상관분석 t검정 → F검정 → 회귀분석 F 검정 → 분산분석 2021. 4. 26.
무료 엑셀 통계분석 강의 추천 (직접 끝까지 다들어봄) 엑셀 강의를 하나 추천하려고 합니다. 통계교육원에서 제공하는 강의입니다. 국가기관에서 제공하는 무료강의인데, 정말 괜찮습니다. 먼저 강의를 듣는 방법을 알려드리겠습니다. 강의 듣는 법 1) 통계교육원에 접속하셔서 회원가입을 하시고 로그인을 합니다. https://sti.kostat.go.kr/coresti/site/main.do 통계교육원 통계전문 교육훈련기관 sti.kostat.go.kr 2) 상단 탭에서, [교육안내/신청]-[이러닝]을 클릭합니다. 3) 검색창에 '엑셀'을 입력하고 '엑셀로 배우는 통계분석' 강의 수강신청을 클릭합니다. 4) 수강신청이 끝나면 마이페이지의 '나의 학습공간'에 들어가면 강의를 들으실 수 있습니다. 강의소개 강의 목차는 아래와 같습니다. 평균,중위수,최빈수,분산,표준편차의.. 2021. 4. 24.
상계,하계,상한,하한,위로유계,아래로유계 상계(upper bound) 전체집합 U가 있고, 부분집합 S가 있습니다. 전체집합 U의 원소 중에서 부분집합 S의 모든 원소보다 크거나 같은 값 u를 S의 상계라고 합니다. 따라서 상계는 여러값이 될 수 있습니다. 예들들어 전체집합 U가 {1,2,3,4,5}이고, 부분집합 S가 {2,3}일 때, S의 상계는 3도 될 수 있고 4나 5도 될 수 있습니다. 하계(lower bound) 전체집합 U가 있고, 부분집합 S가 있습니다. 전체집합 U의 원소 중에서 부분집합 S의 모든 원소보다 작거타 같은 값 l를 S의 하계라고 합니다. 따라서 하계는 여러값이 될 수 있습니다. 예들들어 전체집합 U가 {1,2,3,4,5}이고, 부분집합 S가 {2,3}일 때, S의 하계는 1도 될 수 있고 2도 될 수 있습니다. 상.. 2021. 4. 22.
오일러 적분 두가지(베타함수, 감마함수) 1) 1종 오일러 적분 (베타함수) 영어로는 Euler integral of the first kind 이다. $B(x,y)=\int_{0}^{1}t^{x-1}(1-t)^{y-1}dt$ 2) 2종 오일러 적분 (감마함수) 영어로는 Euler integral of the second kind 이다. f(n)=(n-1)!의 정의역을 실수범위로 확장하는 과정에서 발견되었다. 발견하고 보니 음의정수가 아닌 모든 복소수영역에서 정의된다. $\Gamma (z)=\int_{0}^{\infty }t^{z-1}e^{-t}dt$ 3) 두 적분의 관계 $B(x,y)=\frac{\Gamma (x)\Gamma (y)}{\Gamma (x+y)}$ 2021. 4. 22.
비율검정과 카이제곱검정은 같은가 다른가 비율검정과 카이제곱검정을 두고 헷갈려 하시는 분들이 계실거라 생각됩니다. 뭔가 비슷한 것 같기도 한데 막상 구분해서 설명하자니 어려운 그런 혼란을 저도 겪었습니다. 오늘은 그 애매함을 해결해보도록 하겠습니다. 여기서 말하는 비율검정이란 일표본 비율검정과 이표본 비율검정을 말합니다. 일표본 비율검정 : 모비율과 표본 비율을 비교 이표본 비율검정 : 두 표본 비율을 비교 결론부터 말씀드리면 일표본 비율검정은 카이제곱 2수준 적합도검정과 같습니다. 이표본 비율검정은 2x2 분할표에서의 동질성검정과 같습니다. 왜 그런지 하나씩 알아봅시다. 1. 일표본 비율검정과 카이제곱 2수준 적합도검정 1-1) 일표본 비율검정 일표본 비율검정의 예시 하나를 가져옵시다. 한국 남성의 흡연율이 60%라고 알려져 있다. 이를 확인.. 2021. 3. 21.
독립성검정과 동질성검정의 차이(feat.카이제곱검정) 카이제곱검정이 목적에 따라 세가지 종류로 나뉩니다. 아래와 같은 세 종류입니다. - 적합도 검정 - 독립성 검정 - 동질성 검정 각각에 대한 설명은 링크를 참고하세요. 적합도 검정은 변수가 하나인 경우이므로 구분이 쉽게 되는데, 독립성검정과 동질성검정이 헷갈리실 수 있습니다. 이 번 글에서는 동립성검정과 동질성검정을 구분해보도록 하겠습니다. 지난시간의 예제를 가져옵시다. 아래는 독립성검정의 예시입니다. 흡연 비흡연 합계 남성 46 33 79 여성 25 96 121 합계 71 129 200 아래는 동질성검정의 예시입니다. 흡연 비흡연 합계 남성 50 50 100 여성 30 70 100 합계 80 120 200 일부러 같은 변수로 두 예제를 만들었습니다. 예제를 다르게 하면, 마치 어떤 변수의 조합은 동립성.. 2021. 3. 20.
카이제곱 검정이 세 종류나 있었어?(적합도, 독립성, 동질성) 카이제곱검정은 분할표에서 빈도를 비교하는 것으로 검정을 수행합니다. 빈도를 비교한다는 원리는 동일하지만, 카이제곱분포는 그 목적에 따라 몇가지로 분류됩니다. - 적합도검정 (Goodness of fit) - 독립성검정 (Test of Independence) - 동질성검정 (Test of Homogeneity) 1. 적합도검정 (Goodness of fit) 적합도검정은 범주형인 하나의 변수에 대해, 이 변수가 우리가 기대하는 어떤 분포를 따르는지 여부를 검정합니다. 실제로 관측된 값과 일어날 것으로 기대하고 있는 값을 비교하는 검정입니다. 예제를 통해 이해해봅시다. 상자 안에 흰공, 검은공, 빨간공이 같은 비율로 들어있다고 알려져 있습니다. 공을 90개 뽑았고 각 색의 비율은 아래와 같습니다. 흰공 검.. 2021. 3. 20.
평균이 무의미한 경우 (평균값이 크다고 꼭 좋은걸까?) 평균은 대표값 중 하나입니다. 어떤 집단을 '대표'하는 값입니다. 대표적인 대푯값에는 평균, 중앙값, 최빈값이 있습니다. 평균이 가장 빈번하게 사용되기는 하나 모든 상황에서 자료를 잘 '대표'하지는 않습니다. 아래 두 사례를 봅시다. 회사 A와 B가 있습니다. A회사의 평균 급여는 오천만원이고, B회사의 평균 급여는 1억입니다. B회사가 더 돈을 많이 주는 좋은 회사일까요? 평균만으로는 알 수 없습니다. 극단적인 예를 들면, A회사 직원은 10명인데 전부 오천만원을 받고 있다고 합시다. B회사도 10명인데 9명의 연봉은 이천만원이고 사장님 연봉이 8억 2천만원이라면, 그래도 B회사가 더 좋은 회사일까요? A학교에 두 반이 있습니다. X반과 Y반이라고 합시다. 지금은 모르겠지만 제 학창시절에는 선생님들이 .. 2021. 3. 20.
순서도 그려주는 무료 프로그램 (diagrams) 아래와 같은 통계 분류표를 만들 수 있는 무료 프로그램이 있어 소개드리려고 합니다. diagrams.net 이라는 프로그램입니다. 프로젝트 명이기도 합니다. 순서도 뿐만 아니라 다양한 그래프들을 작성할 수 있고, 괜찮은 템플릿들도 많이 제공합니다. 웹에서 사용할 수도 있고, 다운받아 사용할 수도 있습니다. 아래 링크는 프로그램을 웹에서 사용할 수 있는 링크입니다. app.diagrams.net/ Flowchart Maker & Online Diagram Software Flowchart Maker and Online Diagram Software diagrams.net (formerly draw.io) is free online diagram software. You can use it as a flow.. 2021. 3. 18.
반응형