본문 바로가기
반응형

@ 통계 교양/통계 Tips108

[확률과통계] 짝수눈 vs 홀수눈 배반사건일까? 짝수눈과 홀수눈이 나오는 사건은 배반사건일까요? 그럴 수도 있고 아닐 수도 있습니다. 주사위를 한번 던질 때, 홀수눈이 나오는 사건과 짝수눈이 나오는 사건은 배반사건입니다. 홀수눈이 나오면 짝수눈은 나올 수 없기 때문입니다. 주사위를 두 개로 늘려봅시다. 주사위 A와 주사위 B가 있습니다. 두 주사위를 던질 때 주사위 A에서 홀수 눈이 나오는 사건과, 주사위 B에서 짝수 눈이 나오는 사건은 배반사건이 아닙니다. 서로 전혀 영향을 주지 않습니다. 둘은 서로 독립관계입니다. 배반사건으로 보이는데 알고 보면 독립사건이라 헷갈릴 때가 있는데요. 위와 같이 구분을 해놓으면 덜 헷갈립니다. 2022. 5. 18.
자유도란 무엇이며, 표본과 모집단의 평균과 분산의 자유도는 무엇인가 통계학에서 자유도가 어떻게 정의됐는지 알기 위해 위키피디아의 정의를 가져왔습니다. In statistics, the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary. "통계량의 최종 계산에서 자유롭게 바뀔 수 있는 값의 개수" 모집단에서 표본을 뽑아 평균을 구할 때 표본의 원소는 자유롭게 바뀔 수 있습니다. 반드시 얼마여야 한다는 조건이 없습니다. 표본을 뽑을 때마다 달라집니다. n개를 뽑는다면 n개 모두 표본을 뽑을 때마다 자유롭게 바뀔 수 있습니다. 따라서 표본평균의 자유도는 n입니다. 표본분산의 자유도는 얼마일까요? 표본분산은 표본평균을 알아야.. 2022. 5. 12.
z분포 vs t분포 표본의 크기에 따른 z분포와 t분포의 차이입니다. n이 3일 때는 t분포가 z분포보다 두터운 꼬리를 갖고 있습니다. n이 커질 수록 t 분포가 z분포에 가까워져 갑니다. 꼬리가 두텁다는 말은 같은 통계량에서 p값이 더 크다는 말입니다. p값이 커서 기각을 덜하게 되므로 보수적이라 할 수 있습니다. n이 커지면서 t분포는 z분포에 가까워져 갑니다. 얼마나 더 보수적인지 수치로 알아봅시다. 표본크기 z값 (p값) t값 (p값) 3 1.644854 (0.05) 1.644854 (0.099) 10 1.644854 (0.05) 1.644854 (0.065) 30 1.644854 (0.05) 1.644854 (0.055) 50 1.644854 (0.05) 1.644854 (0.053) 표본 크기가 30 정도여도 차.. 2022. 5. 9.
히스토그램 간격 설정 원리 엑셀이나 R에서 히스토그램을 그리면 알아서 간격을 설정해주는데요. 오늘은 그 원리를 알아봅시다. 히스토그램의 간격을 설정할 때는 일반적으로 Sturge's Rule 을 사용합니다. 데이터의 크기를 n이라고 할 때 간격의 개수는 아래와 같이 계산됩니다. 막대의 개수라고 생각하시면 됩니다. bin 이라고도 부릅니다. $number \ of \ bins=\left \lceil \log_{2}n+1 \right \rceil$ 괄호 기호는 '올림' 의 의미입니다. 2022. 5. 2.
분산 구하는 두 가지 방법 (제곱의평균-평균의제곱 유도) 평균 아래와 같은 자료가 있다고 합시다. $x_{1},x_{2},...,x_{n}$ 이 자료를 변수 X로 나타낸다고 합시다. $X=\left \{ x_{1},x_{2},...,x_{n} \right \}$ X의 평균은 아래와 같이 정의됩니다. $E[X]=\frac{x_{1}+x_{2}+\dots+x_{n}}{n}$ 시그마 기호로 나타내면 아래와 같습니다. $E[X]=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{\sum_{i=1}^{n}x_{i}}{n}$ 편의상 변수 X의 평균을 $\mu$ 라고 놓겠습니다. $E[X]=\mu$ 분산 변수 X의 분산은 아래와 같이 정의됩니다. 편차의 제곱의 평균입니다. $V[X]=E\left [ \left ( X-\mu \right )^2 \ri.. 2022. 4. 27.
회귀분석 한번에 감잡기 (F값, t값) 아래는 예시 종속변수 : 성적(Y) 독립변수 : IQ, EQ, SQ 아래와 같은 모델을 가정함 $Y=a \times IQ+b \times EQ+c \times SQ+d$ F검정과 t검정 두가지를 수행함. 1) F검정은 아래 두 모델을 비교함 $Y=d$ $Y=a \times IQ+b \times EQ+c \times SQ+d$ overall 한 비교라고 할 수 있음. 둘의 차이가 있으면 우리가 가정한 모델이 의미가 있는 것임. 2) t검정은 a,b,c,d 가 0인지 아닌지 비교함. 만약 F검정에서 모델이 의미가 있었어도, t검정에서 b=0이 나오면 EQ는 무의미한 값임. + $R^{2}$은 (회귀선에 의해 설명되는 변동)/(전체변동) 을 의미함. 회귀 모델이 Y를 몇%정도 설명하는가를 알려줌. 2022. 4. 14.
카이제곱검정도 양측검정이 있을까? 이론적으로는 가능하나 쓸 일은 거의 없습니다. 카이제곱검정은 단측 검정만 사용합니다. 카이제곱검정은 관측빈도와 기대빈도가 다른지 여부를 판단할 때 사용하는 검정입니다. 예를 들어 20대와 30대의 핸드폰 선호 비율을 비교할 때 사용합니다. 우측 꼬리 검정이 사용됩니다. 카이제곱분포의 우측으로 갈 수록 기대빈도와 관측빈도가 달라지고, 좌측을 갈 수록 같아집니다. 기대빈도와 관측빈도가 완전히 같으면 확률변수가 0이 됩니다. 만약 좌측 꼬리검정을 한다면 의미가 이상해집니다. 관측빈도와 기대빈도가 너무 같아서 기각해버리는 상황이 됩니다. 이런 검정을 쓸 일은 없을 것으로 생각됩니다. 정규분포 그래프를 보면 양쪽 꼬리로 갈 수록 귀무가설의 모평균과 달라지게 됩니다. 따라서 단측 검정이 의미가 있습니다. 그러나 카.. 2022. 4. 1.
균등분포로 동전 던지기 확률, 주사위 던지기 확률 생성하기 균등분포를 이용하면 동전이나 주사위 확률 생성기를 만들 수 있습니다. 듣고 보면 간단하고 당연한 이야기 이긴 한데, 기억해 놓으면 어딘가 유용하게 써먹을 수 있을겁니다. 먼저 동전 확률을 만들어봅시다. 확률변수 X가 0~1 사이 값을 갖는 표준균등분포를 따른다고 할 때, 0~0.5 사이의 값이 나오면 앞면, 0.5~1 사이의 값이 나오면 뒷면이라고 놓으면 됩니다. $X = \begin{Bmatrix} head & 0 2021. 12. 31.
로버스트 통계 방법이란 무엇인가 로버스트(Robust)의 의미는 '강건한'입니다. Robust 통계 방법이란 강건한 통계방법입니다. 통계에서 강건하다는게 어떤 의미일까요? 통계에서 강건하다는 것은 '이상치'의 영향을 적게 받는다는 말입니다. 따라서 로버스트 통계방법은 이상치 영향을 적게 받는 통계방법입니다. 이상치 영향을 어떻게 하면 적게 받을 수 있을까요? 평균 대신 중앙값을, 표준편차 대신 중앙값 절대편차를 사용하면 됩니다. 우리가 가장 흔히 사용하는 통계량인 평균은 이상치(outlier)에 영향을 많이 받습니다. 반면 중앙값은 이상치의 영향을 덜 받습니다. 아래 데이터를 봅시다. > Sal=c(3000,3000,3000,3000,3000,3000,3000,3000,3000,100000) 어떤 회사 직원들의 연봉입니다. 9명은 연봉.. 2021. 12. 30.
상자수염그림에서 이상점(outlier)이란? 상자수염그림은 사분위수와 최댓값,최솟값으로 만든 그래프입니다. 아래 왼쪽 그림을 봅시다. 맨 위 가로선이 최댓값, 맨 아래 가로선이 최솟값입니다. 가운데 박스에 세개의 세로선이 있습니다. 자료를 크기 순으로 정렬했을 때 25%, 50%, 75% 에 해당되는 값입니다. 각각 Q1,Q2,Q3 라고 부릅니다. 50%에 해당되는 값을 중앙값이라고 합니다. Q는 Qurtile 이고 분위수라는 말입니다. Q1은 일사분위수 입니다. 오른쪽 그림을 보면 점이 하나 찍혀있습니다. 이 점을 이상치(outlier) 라고 합니다. 혼자서 아주 크거나, 아주 작은 값을 이상치로 분류합니다. 이상치는 '실수'로 입력된 값일 수도 있고 실제 값일 수도 있습니다. 예를들어 사람의 키 데이터라면 이상치는 실수일 가능성이 높습니다. 상.. 2021. 12. 30.
통계 영문자료를 이해하기 위한 통계 용어와 해석 모음(지속적 업데이트) sample space : 표본공간, 전체집합 sample outcome : 표본공간의 원소 realization : 표본공간의 원소 element : 표본공간의 원소 complement A : A의 여집합 disjoint : 교집합이 없음, 배반임 mutually exclusive : 교집합이 없음, 배반임 monotone increasing : A1, A2, A3, .... 에서 A1 ⊂ A2 ⊂ A3... 관계가 성립 monotone decreasing : monotone increasing 의 반대 bivariate distrituion : 이변량 분포 2021. 12. 2.
이항분포, 정규분포, 푸아송분포의 관계 이항분포를 정규분포로 근사할 때도 n을 무한대로 보내고, 푸아송분포로 보낼 때도 n을 무한대로 보내니 혼란이 오시는 분들이 계실겁니다. 오늘은 이 문제를 해결해봅시다. 이항분포, 푸아송분포, 정규분포 함수는 아래와 같습니다. 이항분포 : $f(x)=\binom{n}{x} p^{x}(1-p)^{n-x}$ 푸아송분포 : $f(x)=\frac{\lambda^{x}e^{-\lambda}}{x!}$ 정규분포 : $f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2}\left ( \frac{x-\mu}{\sigma} \right )^{2}}$ 이항분포를 정규분포로 근사할 때는 p를 고정한 상태로 n을 무한대로 보냅니다. 예를 들면 앞면이 나오는 확률(p)는 고정되고, 동전을 던지는.. 2021. 11. 19.
양측검정과 단측검정의 검정력은 같을까 다를까 가설검정에는 두가지 오류가 있습니다. 1종오류인 α와 2종오류인 β 입니다. 1종오류는 신뢰도와 관련 있고, 2종오류는 검정력과 관련이 있습니다. 관계는 아래와 같습니다. 1종오류(α) = 1-신뢰도 2종오류(β) = 1-검정력 양측검정에서 단측검정으로 바뀐다고 해서 1종오류가 바뀌지는 않습니다. 한쪽에 0.05를 몰아주던 것이 양쪽에 0.025씩 나뉘주는 것으로 바뀔 뿐입니다. 전체 오류는 0.05로 동일합니다. 하지만 2종오류 입장에서는 다릅니다. 단측검정이 양측검정으로 바뀌게 되면 위에 보이시는 세로 선이 우측으로 이동하게 되고, 2종오류는 커지는 결과를 낳습니다. 따라서 단측검정이 양측검정으로 바뀌면 검정력은 줄어들게 됩니다. 2021. 11. 12.
X가 U(0,1)인 균등분포를 따르면 1-X 도 그럴까 오늘 증명해볼 내용은 아래와 같습니다. X가 U(0,1)인 균등분포를 따르면 1-X 도 그럴까 직관적으로 당연하지만 수식으로 증명해보겠습니다. 두 확률분포의 적률생성함수가 같다면 두 확률변수는 같다는 성질을 이용하여 증명하겠습니다. 먼저 U(0,1)을 따르는 확률변수 X의 적률생성함수를 유도하겠습니다. X의 적률생성함수는 아래와 같습니다. $M_{X}(t)=E\left [ e^{tX} \right ]=\int_{-\infty}^{\infty}e^{tx}f(x)dx$ x는 0과 1 사이에서만 1이라는 값을 가지므로 아래와 같이 변형됩니다. $E\left [ e^{tX} \right ]=\int_{0}^{1}e^{tx}dx$ 적분합시다. $M_{X}(t)=E\left [ e^{tX} \right ]=\lef.. 2021. 10. 21.
p값의 분포는 왜 균등분포일까 (distribution of p-value) 우측꼬리 t검정을 예로 들어봅시다. 우리가 뽑은 표본의 통계량을 t라고 놓는다면 아래와 같은 그림을 그릴 수 있습니다. F(t)는 누적분포함수입니다. 아래 등식이 만족합니다. $p=1-F(T=t)$ 시행에 따라 T값이 바뀌고, T값이 바뀌면 p값도 바뀝니다. 따라서 p도 확률변수라고 할 수 있습니다. F(T)의 분포를 구하면 p의 분포를 구할 수 있습니다. F(T)가 이미 누적분포함수인데, 분포함수의 분포함수를 구한다고? 네 맞습니다. 이 분포함수 F(T)를 새로운 확률변수 Y 라고 놓겠습니다. Y의 누적분포함수를 G라고 놓겠습니다. G는 아래와 같이 정의됩니다. Pr은 확률을 의미합니다. $G(y)=Pr(Y\leq y)$ Y=F(T) 이므로 아래와 같이 변형합시다. $G(y)=Pr(F(T)\leq y).. 2021. 10. 21.
p값에 대한 미국통계협회의 입장발표 (이거 계속 써도 되는겨?) p값에 대한 논란은 꾸준히 제기되어 왔는데요. 미국통계협회에서 공식적으로 발표한 글이 있어서 가져왔습니다. 아래 제목의 글입니다. ASA Statement on Statistical Significance and P-Values 구글에 치시면 전문을 보실 수 있습니다. 여기서는 간단히 요약하도록 하겠습니다. 2014년 2월에 미국 매사추세스주에 있는 마운트 홀리오크 대학의 통계학과 교수인 George Cobb은 아래와 같은 대화형식의 글을 통해 문제를 제기했습니다. 질문자 : 왜 수많은 대학에서 p값이 0.05라고 가르치는거죠? 답변자 : 왜냐하면 과학 커뮤니티들과 논문 에디터들이 여전히 p값을 0.05로 사용하기 때문입니다. 질문자 : 그럼 왜 많은 사람들이 여전히 p값을 0.05로 사용하는 걸까요? .. 2021. 10. 20.
평균과 중앙값의 비교와 그래프의 치우침 대칭인 분포의 경우 평균과 중앙값이 같습니다. 반면 분포가 한쪽으로 치우친 경우 평균과 중앙값이 달라집니다. 아래 데이터를 봅시다. 100 100 100 150 150 150 150 150 200 200 200 이 데이터는 평균이 150 이고, 중앙값도 150입니다. 이 데이터를 오른쪽 꼬리를 가진 데이터로 바꿔보겠습니다. 오른쪽 꼬리를 가진 데이터는 right-tailed 또는 skewed to right 또는 poistive skewed 라고 부릅니다. 100 100 100 150 150 150 150 150 200 200 2000 이렇게 바꾸었을 때 왜 오른쪽 꼬리를 갖는 것인지 이해가 되지 않는 분들은 히스토그램을 떠올리시면 됩니다. 오른쪽으로 아주 먼 곳인 2000에 막대가 하나 올라와 있게 된.. 2021. 10. 19.
표준편차 vs 평균절대편차 vs 중앙값절대편차 (극단값 민감성 비교) 표준편차, 평균절대편차, 중앙값절대편차는 아래와 같이 정의됩니다. $SD=\sqrt{\frac{\sum_{i=1}^{n}\left ( X_{i}-mean \right )^{2}}{n}}$ $AAD=\frac{ \sum_{i=1}^{n}\left |X_{i}-mean \right |}{n}$ $MAD=MAD=median(X_{i}-median)$ SD : Standard deviation (표준편차) AAD : Average Absolute deviation (평균 절대편차) MAD : Median Absolute deviation (중앙값 절대편차) 극단값에 대한 민감도를 알아보기 위해 두개의 데이터를 정의했습니다. 프로그램은 R을 사용했습니다. > dt1=c(1,2,3,4,5,6,7,8,9,10) > .. 2021. 10. 19.
분산 구하는 변형공식을 표본에도 적용할 수 있을까 분산을 구하는 변형공식을 유도하는 과정은 아래와 같습니다. $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{\sum_{i=1}^{n}(X_{i}-\mu)^{2}}{n}$ $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{\sum_{i=1}^{n}X_{i}^{2}-2X_{i}\mu+\mu^{2}}{n}$ $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{ \sum_{i=1}^{n}X_{i}^{2} -2\mu\sum_{i=1}^{n}X_{i}+ \sum_{i=1}^{n}\mu^{2} }{n}$ $V(X)=E\left ( (X-\mu)^{2} \right )=\frac{ \sum_{i=1}^{n}X_{i}^{2} }{n} + \fra.. 2021. 10. 18.
카이제곱검정의 대응표본버전 (맥니마, 맥니마 보우커,코크란 Q) t검정에 '독립표본 t검정'과 '대응표본 t검정'이 있듯 카이제곱검정에도 대응표본에 사용되는 검정이 있습니다. 아래의 세 검정입니다. - 맥니마 검정 (2그룹비교, 종속변수도 2level) - 맥니바 보우커 검정 (2그룹비교, 종속변수가 3level 이상) - 코크란 Q검정 (3그룹 이상 비교 가능) 맥니마검정 먼저 맥니마 검정이 사용되는 경우를 살펴봅시다. 피험자 100명을 모집하여 무서운 영화 선호 여부를 조사했습니다. 100명 중 10명이 무서운영화를 선호했습니다. 100명에게 A라는 약을 먹인 뒤 다시 조사해보니 50명이 무서운 영화를 선호했습니다. 표로 나타내면 아래와 같을 것 같지만 아닙니다. 아래 표에는 누가 어떻게 바뀌었는지가 반영되어 있지 않습니다. 약먹기 전 약 먹은 후 합계 무서운영화.. 2021. 10. 12.
로그스케일 그래프는 언제 쓰는걸까? (로그-로그 그래프) 책이나 논문을 읽다 보면 로그스케일 그래프가 나올 때가 있습니다. 로그-로그 그래프라고도 부르는데요. 제가 가장 최근에 본 로그 그래프는 아래 그래프입니다. 「벤 버냉키, 연방준비제도와 금융위기를 말하다」라는 책의 207페이지에 나오는 그래프입니다. 실질 GDP가 매년 3% 정도의 성장률을 보이고 있다는 내용입니다. 기준 년의 GDP를 a, 매년 3%의 성장을 한다면 n년 뒤의 실질 GDP는 아래와 같은 함수로 정의할 수 있습니다. $f(n)=a(1.03)^{n}$ 지수함수입니다. 그래프로 그리려면 세로로 아주아주 긴 그래프가 될 것입니다. 값이 너무 빠르게 커지기 때문입니다. 이런 경우에 양변에 로그를 취하면 선형 그래프로 만들 수 있습니다. $\ln f(n)=n\ln a(1.03)$ 로그 그래프로 그.. 2021. 9. 24.
중심극한정리 유도하기 (요약버전) 중심극한정리 유도의 Full 버전은 아래 링크를 참고하세요. 9강~14강에 자세히 유도해 놓았습니다. https://hsm-edu.tistory.com/1193 [통계 기초 강의] 9. 중심극한정리란 무엇인가 이번 강의에서는 중심극한정리가 무엇인지 설명드리도록 하겠습니다. 수학적인 증명은 이후에 할거구요. 오늘은 개념만 설명드리는 것입니다. 모집단에서 크기가 n인 표본을 뽑았습니다. hsm-edu.tistory.com 이 글은 중심극한정리의 유도과정을 간단히 요약한 것입니다. 중심극한정리는 모집단의 분포와 상관없이 표본의 크기가 충분히 크다면 표본평균들의 분포가 정규분포를 따른다는 정리입니다. 여기서 주의할 점은 표본의 개수가 아니라 표본의 '크기'라는 것입니다. 표본의 개수는 무한하다고 가정합니다. 크.. 2021. 9. 15.
상관분석에서 독립변수와 종속변수를 서로 바꿔도 결과가 같을까 같습니다. 상관분석에서는 독립변수와 종속변수의 구분이 따로 없습니다. 2021. 9. 8.
주요 통계분석들 한번에 훑어보기 (VER.202109) 자주 사용되는 통계분석 방법들을 한번에 이해해보는 강의입니다. 다루려는 검정들은 아래와 같습니다. - 독립표본 t검정 - 대응표본 t검정 - 카이제곱검정 - 분산분석과 사후검정 - 상관분석 - 선형회귀분석 무언가를 조사하기 위해 30대 기혼 남자 100명과 여자 100명을 모집했습니다. 남녀비교를 할 예정인데 무엇을 비교할지는 아직 안정했습니다. 먼저 키를 측정해서 평균을 냈습니다. 남녀 키에 유의차가 있는지 알고 싶은 경우 어떤 검정을 사용하면 될까요? 독립표본 t검정을 사용하면 됩니다. 모집한 사람들을 대상으로 이번에 새로 개발한 키 크는 약을 테스트해 보기로 했습니다. 남자 100명에게 키크는 약을 먹이고 먹기 전과 먹은후 1달 뒤의 키를 측정했습니다. 약을 먹기 전과 후의 키의 유의차가 있는지 알.. 2021. 9. 6.
변수 관점으로 통계분석방법들 분류하기 결과부터 보기 독립변수 종속변수 t검정 범주형 수치형 분산분석 (일원분산분석) 범주형 수치형 카이제곱검정 범주형 범주형 상관분석 (피어슨) 수치형 수치형 회귀분석 (단순선형) 수치형 수치형 로지스틱 회귀분석 수치형 (or 범주형) 범주형 아래 통계분석방법들을 변수 관점에서 분류해보려고 합니다. t검정 분산분석(일원분산분석) 카이제곱검정 상관분석(피어슨상관분석) 회귀분석(단순선형회귀분석) 변수는 독립변수와 종속변수로 나뉩니다. 각 변수는 자료의 형태에 따라 수치형자료 또는 범주형자료입니다. 어떤 통계 분석 방법의 독립변수와 종속변수가 수치형 자료인지 범주형자료인지를 알아보는 것이 이번 글의 목적입니다. 수치형 자료와 범주형자료가 무엇인지 모르는 분들을 위해 간단히 설명드리겠습니다. 수치형자료는 양적자료라고.. 2021. 9. 6.
사후검정의 종류와 분류 (+주로 쓰는 방법) 사후검정은 아래 세가지 기준으로 나뉩니다. - 모수/비모수 - 등분산 여부 - 표본 크기 동일 여부 1) 모수적 방법 각 조건에 대해 주로 쓰이는 방법을 빨간색으로 표시하였습니다. 2) 비모수적 방법 Dunn's test Bonferroni Holm (공부해서 내용 보완 필요) 2021. 9. 2.
여러 등분산검정의 차이 (F test, levene's test, brown-forsythe test, barlett test) 등분산검정은 그 자체로는 많이 쓰이지 않고, 분산분석이나 t검정을 하기 전에 조건 확인용으로 쓰입니다. 만약 등분산가정이 충족되지 않는다면 Welch's t-test 나 Welch's ANOVA를 사용해야 합니다. 등분산 검정 방법은 여러가지가 있는데요. 대표적인 방법들은 아래와 같습니다. F test Levens's test brown-forsythe test barlett test 오늘은 이들을 간단히 비교해보도록 하겠습니다. F test F검정은 분산분석 그 자체에서도 사용됩니다. 이와 구분하기 위해 등분산검정에 F검정을 사용하는 것을 '등분산의 F검정' 이라고 부릅니다. F검정은 정규분포를 따르는 두 그룹의 분산 비교만 가능합니다. 두 그룹 분산의 비율을 이용하여 F 통계량을 정의하고, F분포를 .. 2021. 9. 1.
코호트연구와 환자-대조군 연구의 비교 및 장단점 논문을 읽다보면 자주 등장하는 두가지 연구방법이 있습니다. 코호트연구(Cohort study)와 환자-대조군연구(Case-control study)입니다. 먼저 연구는 크게 '관찰연구'와 '실험연구'로 나뉘는데, 위 두 연구 모두 '관찰연구'에 속합니다. 관찰연구는 연구자가 원인이 되는 요소들을 통제하지 않는 것을 말합니다. 실험자를 두 그룹으로 나누고, 한 그룹에게는 담배를 피게 하고 다른 그룹은 피지 않게 하는 것은 '관찰연구'가 아니라 '실험연구'입니다. 원인이 되는 요소를 통제했기 때문입니다. 코호트연구는 다시 전향적코호트연구(Prospective cohort study)와 후향적 코호트 연구(Retrospective cohort study)로 나뉩니다. 따라서 오늘 알아볼 연구방법은 아래의 세가.. 2021. 8. 31.
2x2 분할표의 사용예시 (진단성능,코호트연구, 실험군-대조군 연구) 2x2 분할표는 아래와 같이 데이터 입력부분이 2행 2열인 표입니다. Col1 Col2 Total Row1 Row2 Total 분할표가 사용되는 곳은 크게 세가지가 있습니다. 진단성은, 코호트연구, 실험-대조군 연구입니다. 물론 더 많은 곳에 분할표가 사용될 수 있지만, 헷갈릴 수 있어 구별이 필요한 대표적인 세 사례를 가져왔습니다. 1. 진단성능 2x2 분할표는 진단기기의 판정 결과를 나타낼 때 사용됩니다. 변수는 두개이고, 둘다 범주형 변수입니다. 변수1(실제사실) = {환자,정상} 변수2(판정결과) = {양성,음성} 진단기기를 개발중이고 성능을 평가해야하는 상황이라고 합시다. 환자 100명, 정상인 100명을 모집해서 검사를 했다면 결과를 아래와 같이 분할표로 나타낼 수 있습니다. 환자 정상 Tot.. 2021. 8. 27.
신뢰도(reliability) 와 타당도(validity)의 차이 우리가 어떤 측정을 했을 때, 측정 결과를 과연 믿을 수 있는지 반드시 확인해보아야 합니다. 이때 측정을 평가할 수 있는 두가지 기준이 신뢰도와 타당도입니다. 신뢰도와 타당도를 설명하는 유명한 그림이 있습니다. 이 그림을 통해 신뢰도와 타당도를 쉽게 이해할 수 있습니다. 신뢰도 신뢰도은 '재현이 가능한 정도'로 이해할 수 있습니다. 반복 측정에서 결과가 일치한다면 신뢰도가 높은 것입니다. 일치도(agreement), 반복성(repeatability), 재현성(reproducibility) 라도도 부릅니다. 1번 그림에 보면 반복해서 화살을 쐈을 때 같은 위치를 맞추고 있으니 신뢰도는 높은 것입니다. 하지만 과녁의 중앙을 맞추고 있지는 않아 타당도는 낮습니다. 신뢰도는 측정 방법과 관련이 있습니다. 측정 .. 2021. 8. 26.
반응형