본문 바로가기
반응형

@ 통계 교양/통계 Tips108

통계학의 분류 통계학은 크게 기술통계학과 추측통계학으로 나뉨. 추측통계학은 추정과 가설검정으로 나뉨. 기술통계학 : 데이터의 기록, 데이터의 정리, 데이터의 특징 요약 추측통계학 : 추정 또는 가설검정 추정은 점추정과 구간추정으로 나뉨. 가설검정은 평균비교, 비율비교, 회귀분석 등으로 나뉨 2020. 12. 1.
표본추출방법 총정리 표본추출방법 총정리 표본추출 방법은 크게 두가지로 나뉩니다. 확률추출법과 비확률추출법입니다. 확률추출법은 객관적이고 수학적인 방식이고, 비확률추출법은 조사자의 주관이 개입된 방식입니다. 확률추출법에는 아래 7가지가 있습니다. 1. 단순임의추출법 (simple random sampling) - 난수를 발생시켜 표본추출 2. 계통추출법 (systematic sampling) - 간격 k를 정하고, k보다 작은 번호에서 출발함. k간격으로 표본을 추출함. 3. 층화임의추출법 (stratified random sampling) - 모집단을 여러 층(ex. 성별, 나이 등)으로 나눈 뒤, 각 층에 단순임의추출법 적용 - 성별(남,녀)과 나이(10,20,30,40대)로 나눈 경우, 총 2x4=8 개의 층이 생성됨 .. 2020. 9. 29.
mean vs average vs expected value (구분 가능?) mean vs average vs expected value (구분 가능?) 1. mean 아마 mean이 무엇이냐고 누군가 물어보면, 전체 합을 개수로 나눈 값이라고 답하실 것입니다. 그런데 mean 에는 세가지가 종류가 있습니다. Arithmetic mean, Geometric mean, Harmonic mean 입니다. 각각 산술평균, 기하평균, 조화평균이라고 부릅니다. 우리가 mean이라고 이야기할 때는 보통 '산술'평균의 의미로 사용합니다. 2. average average는 정의하기가 어려운 개념입니다. 위키피디아에 보면, average는 구어적으로 일련의 숫자들을 대표하는 하나의 숫자라고 되어있습니다. 우리는 average를 무엇으로 알고 있나요? 일련의 숫자들을 다 더한 뒤, 개수로 나눈 .. 2020. 9. 24.
IBM에서 제공하는 무료 데이터사이언스 강의 사이트 IBM에서 제공하는 무료 데이터사이언스 강의 사이트 이런저런 검색을 하다가 괜찮은 강의 사이트를 발견하게 되었습니다. cognitiveclass 라는 사이트인데요. 데이터사이언스 관련된 강의들을 제공합니다. 찾아보니 IBM에서 운영하고 있었습니다. 아래 주소로 들어가시면 됩니다. https://cognitiveclass.ai/ 회원가입을 해야 강의들을 이용할 수 있고 모든 강의는 무료입니다. 무료인데 퀄리티가 상당합니다. 상단 탭에 보시면 learning path 와 course 탭이 있습니다. course 가 '과목'에 해당되구요. learning path 는 course 를 묶어서 만든 커리큘럼입니다. course에 먼저 들어가봅시다. 20200921 기준 94개의 course 가 업로드되어 있습니다.. 2020. 9. 21.
표본의 크기를 계산하는 검정력분석 (G power 소프트웨어) 표본의 크기를 계산하는 검정력분석 (G power 소프트웨어) 검정력분석(power analysis)는 표본의 크기를 결정할 때 주로 사용합니다. 검정력을 이용하여 표본의 크기를 결정하는 것입니다. 검정력은 1-β 입니다. β는 2종오류입니다. 2종오류는 귀무가설이 거짓임에도 귀무가설을 기각시키지 않을 확률입니다. 검정력이 커진다는 것은 2종오류가 작아지는 것을 의미합니다. 검정력 분석은 일정 값 이상의 검정력을 확보할 수 있는 표본의 크기를 구하는 것입니다. 이미 조사가 진행된 후라면, 현재 가지고 있는 자료들의 검정력을 구하는 것을 뜻하기도 합니다. 검정력분석을 해주는 무료 소프트웨어가 있습니다. G power라는 소프트웨어입니다. 독일의 한 대학에서 개발하여 배포한 소프트웨어입니다. 아래 링크에서 .. 2020. 8. 27.
반복측정 분산분석에서의 표본수 선정 반복측정 분산분석에서의 표본수 선정 연구 대상의 표본수를 결정할 때, G Power라는 소프트웨어가 주로 사용됩니다. 독일의 뒤셀도르프 대학에서 개발하여 무료로 배포하였습니다. G Power 소프트웨어를 이용한 반복측정디자인의 표본수 산출에 대한 좋은 논문이 있어 공유합니다. 반복측정자료는 아래와 같은 자료를 말합니다. (논문 내용에서 발췌) 1) 동일한 개체를 대상으로 시간의 진행에 따라 여러번 측정하는 연구 2) 동일한 개체에서 각각 다른 치료를 받게 한 후 측정하는 연구 3) 동일한 개체에서 몸의 다른 부분에서 측정한 연구 4) 각각의 사례군(case)과 대조군(control)에서 개체를 개별적으로 짝짓기한 연구(individual matched study) 중앙대학교 마취통증의학과 강현님이 쓰신 .. 2020. 8. 26.
통계분석 전에 상자수염그림을 그려봐야 하는 이유 그래프를 그려봐야 하는 이유는 여러가지가 있겠지만, 그래프를 그려봐야하는 중요한 이유중 하나는 '이상치'입니다. 아래 그래프를 봅시다. 이 그래프는 어떤 치수에 대한 측정 결과인데요. 같은 치수라고 보기에는 어려울 만큼 심하게 큰 값들이 존재합니다. 사람의 키로 예를 들면 3m, 5m 와 같은 결과가 포함된 것입니다. 이 값들은 왜 발생한 것일까요? 보통은 사람의 실수로 발생합니다. 이런 실수를 쉽게 걸러낼 수 있는 좋은 도구가 '상자 그림'입니다. 상자 수염그림이라고도 부르고 영어로는 boxplot 이라고 합니다. boxplot 을 그리면 이상치를 한눈에 볼 수 있습니다. 위 그래프에서 동그라미가 이상치입니다. 2020. 8. 25.
모비율의 추정 간단 설명 모비율 추정을 간단히 설명하겠습니다. 이론을 자세히 설명하는 강의는 아니라서 아래 두 내용은 다른 글로 설명하겠습니다. - 표본비율의 분포가 정규분포를 따르는 이유 - 신뢰구간 유도과정 모집단에서 모비율을 p라고 놓겠습니다. 예를들면 모집단이 서울시민이고 모비율은 의사의 비율인 것입니다. 우리는 p를 모른다고 가정하겠습니다. 이 p를 알아내기 위해 표본을 뽑을 것입니다. 크기가 n인 표본을 뽑았습니다. 표본의 의사비율을 p_hat1 이라고 놓겠습니다. 중심극한정리에 의해 표본비율들은 아래 분포를 따릅니다. p_hat1 은 아래 분포 상의 한 점입니다. p_hat~N(p,p(1-p)/n) 정규분포를 가정할 수 있는 조건은 n(p_hat1)≥10 과 n(1-p_hat1)≥10 을 동시에 만족하는 것입니다. .. 2020. 8. 4.
상관분석은 언제쓰는걸까 4. 상관분석은 언제쓰는걸까 우리는 a지난 세 강에 걸쳐서 아래 세가지 통게분석방법을 언제 사용하는지 알아보았습니다. '독립표본 t검정' '카이제곱 검정' '분산분석' 오늘은 상관분석을 언제 사용하는지 알아봅시다. 상관분석은 두 변수 사이에 상관관계를 알아볼 때 사용합니다. 더 정학히 말하면 '선형' 관계만을 확인할 수 있습니다. 상관분석을 하면 '상관계수'와 'p 값' 이 구해집니다. 상관계수 값이 1에 가까울 수록 두 변수의 관계는 직선에 가까워집니다. 두 변수로 산점도를 그렸을 때, 점이 완벽히 직선을 이루는 경우의 상관계수가 1입니다. p값은 상관계수가 0인지 아닌지 유의성을 판단합니다. 관계가 있다 혹은 없다를 판단하는 것이고, 관계의 강도는 상관계수로 판단합니다. 상관계수가 1에 가까울 수록 .. 2020. 7. 23.
분산분석은 언제쓰는걸까 3. 분산분석은 언제쓰는걸까 우리는 지난 두 강에 걸쳐서 '독립표본 t검정' 과 '카이제곱 검정'을 언제 사용하는지 알아보았습니다. 분산분석, 상관분석, 회귀분석, 비모수검정을 언제 하는지 정도만 더 알아본 뒤에 일반화 시키도록 하겠습니다. 오늘은 분산분석을 언제 하는지 알아봅시다. 더 정확히 말하면 일원분산분석입니다. 분산분석의 세분화에 관하여는 이후 글에서 설명하겠습니다. 분산분석은 세 집단 이상의 평균을 비교하는데 사용합니다. 예를들면 A반, B반, C반의 수학성적의 평균을 비교할 때 사용할 수 있습니다. 분산분석을 t검정의 확장판으로 생각하는 경우가 있는데, 분산분석은 t검정과는 원리가 다릅니다. 오히려 분산분석 이후에 하는 '사후분석'이 t검정의 확장판입니다. 분산분석은 '집단 간 분산'과 '집.. 2020. 7. 17.
카이제곱검정은 언제 쓰는걸까 통계분석 언제쓰나 2. 카이제곱검정은 언제 쓰는걸까 지난 글에서는 t검정을 언제 사용할 수 있는지 알아보았습니다. 어떤 상황에 어느 검정을 쓰는지 일반화하여 표나, 디시전트리로 정리하는 것이 목적인데요. 일단 감을 잡아햐 하니, 몇개의 대표적인 검정들을 살펴보고 있는 것입니다. 이번 글에서는 카이제곱검정을 언제 사용하는지 알아봅시다. 카이제곱검정의 대표적인 예시는 폐암과, 흡연입니다. 폐암환자 100명과, 정상인 100명을 모집했습니다. 폐암 환자중 흡연자는 30명이었고, 정상인 중 흡연자는 10명이었습니다. 자료를 표로 나타내면 아래와 같습니다. 폐암 정상 합계 흡연 30 10 40 비흡연 70 90 160 합계 100 100 200 카이제곱검정을 하면 폐암과 흡연의 연관성을 알 수 있습니다. 폐암에 .. 2020. 7. 12.
독립표본 t검정은 언제쓰는걸까 1. 독립표본 t검정은 언제쓰는걸까 통계 분석 방법의 종류는 정말 많습니다. 일부만 나열해도 이렇게 많습니다. 정규성검정 등분산검정 일표본 t검정 독립표본t검정 대응표본t검정 윌콕슨순위합검정 윌콕슨부호순위검정 일원분산분석 크루스칼왈리스검정 이원분산분석 다원분삭분석 반복측정분산분석 프라이드먼분석 다변량분산분석 피어슨상관분석 스피어만상관분석 단순선형회귀분석 다중선형회귀분석 다변량단순선형회귀분석 다변량다중선형회귀분석 카이제곱분석 피셔정확검정 신뢰성검정 이렇게 다양한 분석방법이 있는 이유는 상황과 조건에 따라 사용할 수 있는 검정이 다르기 때문일 것입니다. 언제 어떤 검정을 사용해야 하는지 한번쯤 정리해보려고 했는데 이제 시작하게 됐네요. 어던 통계분석을 사용할지 결정할 때 '데이터의 종류' 와 '데이터의 크기.. 2020. 7. 12.
음이항분포의 정의는 왜 여러가지일까? (+파스칼분포) 음이항분포의 정의는 왜 여러가지일까? 구독자 한 분이 이런 질문을 주셨습니다. 배웠던 음이항 분포의 정의가 제 설명과 다르고, 둘을 어떻게 연결해야할지 궁금하다는 것이었습니다. 배우는 과목에서는 파스칼분포라고 불린다고 하셨습니다. 랜덤프로세스 얘기도 하신걸 보니 통신을 공부하시는 것 같습니다. 전기전자공학과에서 배우는 통신시스템(통신공학) 이라는 과목에 랜덤프로세스가 등장합니다. 제 설명과 구독자분이 배운 음이항분포가 다른 이유는 음이항 분포의 정의가 여러가지이기 때문입니다. 무려 6종의 정의가 가능합니다. 음이항 분포는 베르누이시행을 n번 반복하는 상황에서 정의됩니다. 베르누이시행을 n번 했을 때, 성공 횟수를 k 실패횟수를 r이라고 놓겠습니다. 이때 아래 등식이 성립합니다. n=r+k 하나를 변수로,.. 2020. 6. 10.
ROC curve 직접 그려보기 ROC 곡선은 x축은 (1-specificity), y축은 sensitivity 인 곡선입니다. Receiver Operating Characteristic 의 약어입니다. 직역하면 수신자조작특성인데 신호탐지이론?에 나오는 용어라 와닿지 않네요. 통계학의 입장에서 '진단(diagnosis)'이라는 관점으로 ROC curve 를 설명드릴 것입니다. 한가지 예시를 통해 자세히 설명드리겠습니다. 체질량지수를 당뇨판정에 사용할 수 있을지 여부를 확인하고 싶습니다. 아래는 환자 10명의 체질량지수와 당뇨판정 여부에 대한 데이터입니다. 사실 10명은 너무 작은 크기이지만, 개념을 이해하는 것이 목적이므로 작게 설정했습니다. (bmi, 진단결과) 로 나타냈습니다. (33.6,Yes) (26.6,No) (28.1,No.. 2020. 6. 6.
표본분산은 꼭 불편추정량이어야 하나요?? 표본분산은 꼭 불편추정량이어야 하나요?? 표본분산을 구할 때, n이 아니라 n-1로 나누는 이유는 다들 아실 것입니다. 표본분산을 '불편추정량'으로 만들기 위함입니다. 어떤 통계량의 평균을 구했을 때, 결과가 모수(모집단의 통계량)과 같아지는 통계량이 불편추정량입니다. 표본평균을 예로 들면, 표본평균의 평균이 모평균이기 때문에 표본평균은 불편추정량입니다. 반면 표본분산은 불편추정량이 아닙니다. 표본분산을 정의할 때, n으로 나눠서 정의하면 그 평균이 모분산이 되지 않습니다. n-1로 나눠서 정의할 때 모분산이 됩니다. 구독자분들께 이런 질문을 종종 받습니다. n-1로 나누면 불편추정량이 된다는건 알겠는데 왜 불편추정량으로 만들어줘야 하는가요? 이것은 자연의 법칙이나 불변의 진리가 아니라, 사람의 필요에 .. 2020. 5. 14.
이항분포를 따르는 두 확률변수의 합의 분포 이항분포를 따르는 두 확률변수의 합의 분포 이항분포를 따르는 두 확률변수 X와 Y가 있다고 합시다. 각 확률변수가 따르는 이항분포는 아래와 같습니다. 이때 두 확률변수의 합은 어떤 분포를 따를까요?? 각 확률분포함수를 아래와 같이 놓겠습니다. 발생확률이 달라지는 경우 두 확률변수의 합의 분포가 달라집니다. 지금은 발생확률이 동일하다고 놓고 진행하고, 발생확률이 다른 경우는 뒤에서 다시 이야기하겠습니다. 유도방법은 두가지가 있습니다. 한 방법은 간단하지만 직관적으로는 받아들이기 어려운 방법이고, 다른 하나는 복잡하지만 직관적으로 받아들일 수 있는 방법입니다. 두 방법 모두 알아봅시다. 1) 특성함수 이용 먼저 특성함수를 이용하여 유도하겠습니다. 이번 글에서는 특성함수를 바로 적용할 것입니다. 특성함수에 대.. 2020. 4. 17.
중심극한정리에서 표본의 개수가 중요하지 않은 이유 중심극한정리는 모집단에서 뽑은 표본의 크기 n이 충분히 큰 경우 표본평균들의 분포가 정규분포를 따른다는 정리입니다. 기호로 나타내면 아래와 같습니다. $\bar{X} \sim N\left ( \mu,\frac{\sigma^2}{n} \right )$ 표본의 크기와 표본의 개수가 구분이 안되시는 분들은 링크의 글을 읽고 오시면 됩니다. 중심극한정리를 접한 분들 중에 이런 의문이 드는 분들이 계실겁니다. 왜 표본의 개수가 아니라 표본의 크기가 커야되나요?? 표본의 개수가 많아야 분포가 되는거 아닌가요? 왜 이런 의문이 들었는지 중심극한정리를 적용하는 상황을 통해 알아봅시다. 평균이 50이고 분산은 9라고 알려져 있는 모집단이 있습니다. 이 모집단에서 크기가 100인 표본을 뽑을 예정입니다. 표본은 아직 안뽑.. 2020. 4. 1.
회귀분석에 '회귀'라는 말이 왜 붙어있나? 회귀분석은 통계학에서 매우 중요하면서 기본이 되는 과목입니다. 통계학의 꽃이라고도 불립니다. 회귀분석을 사용하는 방법에 익숙해진 뒤에는 '회귀'라는 용어에 더이상 의문을 갖지 않습니다. 이 용어의 의미를 이해했다기 보다는 각자가 접한 예제들을 이해하고 이를 '회귀분석'이라는 이름과 단순히 연결시켰을 것입니다. 회귀분석이라는 이름에 대한 의문이 사라지기 전에 이름에 담긴 의미를 알아봅시다. 회귀라는 말의 한자 뜻은 돌아올 회, 돌아갈 귀 입니다. 어딘가로 '되돌아간다'는 뜻입니다. 회귀분석은 되돌아가는 분석이라는 말인데, 무슨 의미인지 전혀 감이 오지 않습니다. 회귀분석의 목적은 우리가 관심이 있는 종속변수들에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들의 관계를 나타내는 모델을 만드는 것입니다.. 2018. 12. 17.
반응형