본문 바로가기
반응형

@ OO의 이해59

[누율의 이해] 2. 누율생성함수 계산하기 1. 누율이란 무엇인가? 2. 누율생성함수 계산하기 3. 1차,2차 누율 4. 3차 누율 5. 고차 누율 6. 왜 굳이 정의했나? 7. 결합누율 지난시간에 누율이 무엇인지 배웠습니다. 누율생성함수와 누율은 아래와 같이 정의됩니다. $K_{X}(t)=\ln M_{X}(t)=\ln E\left ( e^{Xt} \right )$ $\kappa _{n}=K^{n}(0)$ 오늘은 누율생성함수를 계산해봅시다. 먼저 적률생성함수를 간단히 나타내겠습니다. 적률생성함수는 아래와 같습니다. $M_{X}(t)=E\left ( e^{Xt} \right )=\frac{1}{0!}+E\left [ X \right ]\frac{t}{1!}+E\left [ X^{2} \right ]\frac{t^{2}}{2!}+E\left [ X^.. 2021. 8. 13.
민감도, 특이도, 위양성, 위음성 쉽게 이해하기 (진단성능 #1) 암측정기계를 개발중이라고 합시다. 성능을 검증하기 위해, 암환자 100명과 정상인 100명을 모집했습니다. AI를 이용하여 진단을 수행했고 결과는 아래와 같았습니다. 진단 결과가 양성이면 암으로 판정된 것입니다. 환자 정상 합계 양성 80 30 110 음성 20 70 90 합계 100 100 200 맞게 진단한 결과에 표시해봅시다. 환자 정상 합계 양성 80 (good) 30 110 음성 20 70 (good) 90 합계 100 100 200 환자는 양성으로 진단하고 정상인은 음성으로 진단하는 AI를 만들어야 합니다. 옳게 진단할 확률이 높은 AI가 좋은 AI입니다. 민감도와 특이도는 진단 기계의 성능을 평가하는 과정에서 자연스럽게 도출되는 개념입니다. 어떤 기준으로 진단기계를 평가하면 될까요? 아래 두.. 2021. 8. 13.
[누율의 이해] 1. 누율(Culumant)이란 무엇인가? 통계학에서 등장하는 개념인 누율에 대해 공부해볼 것입니다. 아래 목차를 예상합니다. 1. 누율이란 무엇인가? 2. 누율생성함수 계산하기 3. 1차,2차 누율 4. 3차 누율 5. 고차 누율 6. 왜 굳이 정의했나? 7. 결합누율 누율이 무엇인지 알아봅시다. 누율은 적률 대신 사용할 수 있는 값입니다. 적률이 있는데 누율을 굳이 정의한 이유는 누율을 이용하여 계산하는게 더 편한 상황이 있기 때문인 것 같습니다. 누율은 독특한 방법으로 정의됩니다. 직접적으로 정의되는게 아니라 적률을 거쳐야만 정의될 수 있습니다. 아래 과정을 통해 정의됩니다. 적률생성함수 -> 누율생성함수 -> 누율 적률생섬함수를 이용하여 누율생성함수가 정의되고, 누율생성함수에서 누율이 정의됩니다. 누율보다 누율생성함수가 먼저 정의된다는 특.. 2021. 8. 11.
[왜도의 이해] 4. 왜도와 적률 1. 왜도란 무엇인가? 2. 피어슨의 정의 3. 왜도의 부호 4. 왜도와 적률 5. 왜도와 누율 6. 평균, 중앙값, 최빈값의 위치 7. 왜도 0이면 항상 대칭일까? 8. 표본의 왜도 9. 또 다른 정의들 오늘은 왜도와 적률의 관계를 알아봅시다. 적률의 정의는 아래와 같습니다. 더 정확히 말하면 n차 적률의 정의입니다. $\mu_{n}=\int_{-\infty}^{\infty}(x-c)^{n}f(x)dx$ 적률이 통계에서 사용되는 몇가지 예를 들어봅시다. n이 1이고 c가 0이면 적률은 아래와 같습니다. $\mu_{1}=\int_{-\infty}^{\infty}xf(x)dx$ 위 값은 평균입니다. $\mu_{1}=\int_{-\infty}^{\infty}xf(x)dx=E(X)$ n이 2이고, c가 평균 .. 2021. 8. 10.
[왜도의 이해] 3. 왜도의 부호 1. 왜도란 무엇인가? 2. 피어슨의 정의 3. 왜도의 부호 4. 왜도와 적률 5. 왜도와 누율 6. 평균, 중앙값, 최빈값의 위치 7. 왜도 0이면 항상 대칭일까? 8. 표본의 왜도 9. 또 다른 정의들 지난시간에 피어슨이 정의한 왜도를 배웠습니다. $\gamma _{1}=E \left [ \left ( \frac{X- \mu}{\sigma} \right )^{3} \right ]$ 이번 시간에는 왜도의 부호에 대해 알아봅시다. 아래와 같이 두개의 그래프가 있습니다. 두 그래프의 왜도 부호가 다를 것은 쉽게 예상할 수 있습니다. 어느 그래프의 왜도가 양수일까요? 왜도의 정의를 봅시다. $\gamma _{1}=E \left [ \left ( \frac{X- \mu}{\sigma} \right )^{3} .. 2021. 8. 10.
[왜도의 이해] 2. 피어슨의 정의 아래 목차로 진행하고 있습니다. 두번째 글입니다. 1. 왜도란 무엇인가? 2. 피어슨의 정의 3. 왜도의 부호 4. 왜도와 적률 5. 왜도와 누율 6. 평균, 중앙값, 최빈값의 위치 7. 왜도 0이면 항상 대칭일까? 8. 표본의 왜도 9. 또 다른 정의들 피어슨은 왜도를 아래와 같은 수식으로 정의했습니다. $\gamma _{1}=E \left [ \left ( \frac{X- \mu}{\sigma} \right )^{3} \right ]$ 피어슨은 이 수식을 어떤 과정에 의해 떠올리게 되었을까요? 분산이 편차의 제곱의 기댓값이니 편차의 세제곱의 기댓값은 쉽게 떠올릴 수 있습니다. $E \left [ \left ( X- \mu \right )^{3} \right ]$ 평균으로 부터 우측에 있는 확률변수로 .. 2021. 8. 9.
[왜도의 이해] 1. 왜도란 무엇인가? 어떤 집단의 특성을 나타내는 대표적인 통계량이 평균과 분산인데요. 그 외에도 왜도와 첨도가 있습니다. 이번 강의에서는 왜도가 무엇인지 공부해보려고 합니다. 아래는 예상 목차입니다. 1. 왜도란 무엇인가? 2. 피어슨의 정의 3. 왜도의 부호 4. 왜도와 적률 5. 왜도와 누율 6. 평균, 중앙값, 최빈값의 위치 7. 왜도 0이면 항상 대칭일까? 8. 표본의 왜도 9. 또 다른 정의들 왜도의 왜는 기울(왜)입니다. 왜도는 '기울어진 정도'입니다. 비대칭도 라도고 부릅니다. 어떤 확률분포가 한쪽으로 기울어진 정도를 나타냅니다. 왜도를 수학적으로 정의하기 전에 그래프들을 이용하여 왜도에 대한 개념을 잡아봅시다. 1) A와 B를 비교해 봅시다. A와 B는 완벽한 대칭입니다. 비대칭도를 얼마로 놓으면 될까요? 비.. 2021. 8. 8.
[최대우도법의 이해] 1. 감 잡기 최대우도법을 공부해볼 것입니다. 최우추정법이라고도 불리는데요. 우도가 최대가 되도록 모집단의 평균 등의 모수를 추정하는 방법입니다. 우도가 무엇인지, 우도를 최대화한다는게 무엇인지 자세히 이해하기 전에 아주 간단한 예제로 감을 잡아봅시다. 상자에 공이 10개 있습니다. 흰공과 검은공이 섞여있다는 사실만 알 뿐, 각각 몇개씩 들어있는지는 모릅니다. 우리는 검은공이 몇개 들어있는지 알고 싶은 상황입니다. 최대우도법을 이용하여 풀어보겠습니다. 최대우도법이 무엇인지 아직 배우지 않았지만 충분히 이해가 가능하실겁니다. 복원추출로 공을 5번 뽑았습니다. 아래와 같은 결과가 나왔습니다. (검) (검) (흰) (검) (흰) 검은공이 나올 확률을 p로 놓는다면 위와 같은 상황이 발생할 확률은 아래와 같습니다. $p \t.. 2021. 7. 30.
[신뢰도와 신뢰구간의 이해] 3. 예시 1 - 모집단과 표본추출 신뢰구간이 확률을 갖지 않는다는 것을 이해하기 위해 모집단에서 표본추출하는 예시를 하나 만들어봤습니다. 평균이 20이고, 표준편차가 10인 모집단이 있습니다. 여러분들은 모집단의 평균을 모르는 상황입니다. 모표준편차는 알려져 있습니다. 여러분들은 모평균을 모르기 때문에 표본을 뽑아서 모평균을 추정해야합니다. 크기가 100인 표본을 뽑았고, 표본평균을 구해보니 2가 나왔습니다. 95% 신뢰구간을 구해봅시다. 아래 식에 대입하면 됩니다. $\bar{X}_{1} -1.96\cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}_{1} +1.96\cdot \frac{\sigma}{\sqrt{n}}$ 대입해서 계산하면 신뢰구간은 아래와 같습니다. $0.04 \leq \mu \l.. 2021. 5. 24.
[신뢰도와 신뢰구간의 이해] 2. 오해 풀기 신뢰구간에 대한 오해를 풀기 전에 신뢰구간이 어떻게 구해지는지 먼저 알아봅시다. 신뢰도를 정하고 신뢰구간을 구하는 이유는 모집단의 평균을 추정하기 위함입니다. 신뢰구간을 구하여 모집단의 평균을 추정하는 것을 구간추정이라고 합니다. 모집단에서 표본을 뽑아서 신뢰구간을 구하는 것이므로, 모집단에서 표본을 뽑는 상황을 가정합시다. 여기 모집단이 하나 있습니다. 모집단의 평균이 얼마인지는 모르고, 표준편차는 알고 있다고 가정합시다. 물론 이것은 아주 이상적인 가정입니다. 모집단의 평균은 모르는데 표준편차를 아는 경우는 실제로 없을겁니다. 일단 이상적인 가정에서 출발하고, 이후에 모집단의 표준편차도 모르는 경우 구간추정을 어떻게 하는지 다룰 것입니다. 모집단의 평균은 $\mu$, 표준편차는 $\sigma$ 라고 .. 2021. 5. 20.
[신뢰도와 신뢰구간의 이해] 1. 흔히 하는 오해 신뢰도와 신뢰구간에 대한 내용은 고등학교 확률과 통계 과목에서 배웁니다. 자세한 내용은 뒤에서 다루기로 하고, 오늘은 신뢰도와 신뢰구간을 공부할 때 흔히 하는 오해에 대해 이야기해보려고 합니다. 평균이 얼마인지 모르는 모집단에서 크기가 $n$인 표본을 뽑았습니다. 표본 평균을 구하니 $\bar{X}_{1}$ 였습니다. 모집단의 평균은 $\mu$, 모집단의 표준편차는 $\sigma$ 라고 놓겠습니다. 놀랍게도, 모집단의 표준편차는 알려져 있는 상황입니다. 모평균을 구간추정할 때, 신뢰도 95%인 신뢰구간과 신뢰도 99%인 신뢰구간은 아래와 같습니다. $\bar{X}_{1} -1.96\cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}_{1} +1.96\cdot \fr.. 2021. 5. 18.
대부분의 논문들을 신뢰할 수 없는 이유 (스텐포드 교수의 주장) 2005년 스텐포드 교수인 John loannidis 는 PLOS Medicine 저널에 아래와 같은 제목의 논문을 발표합니다. Why Most Published Research Findings Are False (왜 게제된 연구의 발견들이 대부분 거짓인가) 굉장히 자극적인 제목입니다. 그의 주장은 상당수의 논문들이 '재현 불가능한' 결과를 담고 있다는 것입니다. 재현 불가능하다는 것을 다른 말로 하면 '우연히 발생한 특정 사건'을 포착하였다는 것입니다. 이해를 돕기 위해 극단적인 예를 들어봅시다. 어떤 약의 효능을 입증하기 위해 비교군고 대조군 50명씩, 10000쌍에서 임상시험을 하고 이 중 우연히 약의 효과(유의차)가 발생한 사례를 논문에 게재하는 것입니다. 당연히 10000번 실험하면 우연히 차이.. 2021. 2. 27.
[통계 오류의 이해] 3. 2종오류는 어떻게 계산할까 2종오류를 계산해봅시다. 2종오류는 귀무가설이 거짓임에도 기각하지 않는 것을 의미합니다. 예제를 통해 이해해봅시다. 지난 예제에서 내용이 추가되었습니다. 스마트스토어에 팔기 위해 핸드폰 케이스를 개발했다고 합시다. 공장이 없어서 외주생산을 맡겼습니다. 핸드폰 케이스의 두께는 10mm 인데, 공장에서는 실제 생산 시 평균 10mm이고 표준편차는 0.2mm 라고 했습니다. 표준편차가 0.2정도면 괜찮다고 판단했습니다. 이를 확인하기 위해 50개의 샘플을 받았습니다. 두께를 측정해보니 평균이 10.1mm가 나왔습니다. 얼핏 보기에는 괜찮은 것 같은데, 공장의 주장이 사실인지 거짓인지 통계적으로 판단해보기로 했습니다. 지난 글에서 유의수준을 5%로 하여 통계적으로 판단했고, 공장이 거짓말을 했다는 결론이 났습니.. 2020. 10. 29.
[통계 오류의 이해] 2. 1종오류는 어떻게 계산할까 1종오류는 유의수준(significant level)에 따라 정해집니다. 가설검정을 할 때 유의수준을 설정하게 되는데, 유의수준을 정한다는 것은 '1종오류를 얼마까지 감수할 것인가'를 정하는 것입니다. 유의수준이 무엇인지 먼저 알아봅시다. 예를 들어봅시다. 스마트스토어에 팔기 위해 핸드폰 케이스를 개발했다고 합시다. 공장이 없어서 외주생산을 맡겼습니다. 핸드폰 케이스의 두께는 10mm 인데, 공장에서는 실제 생산 시 평균 10mm이고 표준편차는 0.2mm 라고 했습니다. 표준편차가 0.2정도면 괜찮다고 판단했습니다. 이를 확인하기 위해 50개의 샘플을 받았습니다. 두께를 측정해보니 평균이 10.1mm가 나왔습니다. 얼핏 보기에는 괜찮은 것 같은데, 공장의 주장이 사실인지 거짓인지 통계적으로 판단해보기로 .. 2020. 10. 28.
[통계 오류의 이해] 1. 1종오류와 2종오류 오류관련한 질문이 많아서 강의를 따로 만들었습니다. 아래 목차로 진행할 예정입니다. 1. 1종오류와 2종오류 2. 1종오류는 어떻게 계산할까 3. 2종오류는 어떻게 계산할까 4. 1종오류와 2종오류의 관계 5. 위키피디아 예제 6. 2종오류는 어디에 쓸까 (검정력) 7. 어느 오류가 더 중요할까 1종오류와 2종오류는 가설검정에서 발생하는 오류입니다. 가설검정은 귀무가설과 대립가설을 정하고, 뽑은 표본평균의 발생확률을 이용하여 귀무가설의 기각여부를 결정하는 방법입니다. 이때 네가지 결과가 나올 수 있습니다. 귀무가설이 참, 기각 O 귀무가설이 참, 기각 X 귀무가설이 거짓, 기각 O 귀무가설이 거짓, 기각 X 표로 나타내면 아래와 같습니다. 귀무가설 참 귀무가설 거짓 기각X 옳은결정 2종오류(β) 기각O .. 2020. 10. 28.
[조건부확률의 이해] Law of iterated expection (조건부 평균의 평균에 관한 법칙) 조건부 평균의 성질 중 아래 성질을 유도해봅시다. E(E(X|Y))=E(X) Law of Iterated Expectations 라고 부릅니다. X와 Y는 확률변수입니다. 두 확률변수가 독립인 경우와 종속인 경우로 나눠서 이해해봅시다. 예시를 통해 이해해하고 일반화합시다. 1) 두 확률변수가 독립 X는 주사위를 던졌을 때 눈의 수를 변수로 하는 확률변수라고 합시다. Y는 동전을 던졌을 때, 앞면을 0, 뒷면을 1로 하는 확률변수라고 합시다. 먼저 E(X|Y) 를 구해봅시다. 하나의 값으로 나오지 않고, 이 평균 자체가 변수입니다. 왜냐하면 Y가 0일 때와 Y가 1일 때로 나눠지기 때문입니다. Y가 0이 나와도, 주사위 눈금에 영향을 주지 않기 때문에 E(X)와 같습니다. E(X|Y=0)=E(X) Y가 1.. 2020. 10. 12.
[조건부확률의 이해] 3. 조건부평균 맛보기 제목을 조건부평균 맛보기라고 붙인 이유는 이번 시간에 조건부평균을 유도할 것이 아니기 때문입니다. 조건부평균 유도를 시도하며, 개념을 확장할 필요성에 대해 이야기해볼 것입니다. 시난시간에 배운 첫번째 예제로 갑시다. 사건 X : 주사위를 던져서 3의 눈이 나옴 사건 Y : 주사위를 던져서 홀수의 눈이 나옴 위 예제에서 E(X|Y) 는 어떻게 구할까요?? 5분정도 시도해보시기 바랍니다. 저는 막막했습니다. 조건부확률도 이해했고, 기댓값도 이해했는데 여전히 막막했습니다. 그 이유를 밝혀봅시다. 먼저 E(X)를 이용하여 기댓값이 어떻게 구해지는지 리뷰해봅시다. X는 확률변수이고, 1,2,3을 갖는다고 합시다. 각각의 확률은 1/3로 놓겠습니다. 기대값은 아래와 같이 구합니다. E(X)=1x(1/3)+2x(1/.. 2020. 10. 8.
[조건부확률의 이해] 2. 조건부확률이 무엇인가? 조건부확률은 하나의 사건이 이미 발생한 상황에서, 다른 사건이 발생할 확률입니다. 문자를 이용해 표현하면 사건 Y가 발생한 상황에서, 사건 X가 발생할 확률입니다. 수식으로 표현하면 아래와 같습니다. P(X|Y) : Y라는 사건이 발생했을 때, X라는 사건이 발생할 확률 예를들어 봅시다. 1) 주사위 예시 사건 X : 주사위를 던져서 3의 눈이 나옴 사건 Y : 주사위를 던져서 홀수의 눈이 나옴 P(X|Y)는 아래와 같이 정의됩니다. P(X|Y) = 홀수의 눈이 나온 것 까진 아는 상황, 이때 3의 눈이 나올 확률. 홀수의 눈 1,3,5 중에서 3이 나올 확률이므로, 1/3입니다. 사건 X와 Y의 교집합의 원소수를 사건 Y의 원소수로 나눠준 값과 동일합니다. 2) 성별과 직업 예시 방안에 남자 10명, .. 2020. 10. 7.
[조건부확률의 이해] 1. 조건부확률, 무엇을 공부할 것인가? 조건부 확률에 대해 공부하는 강의입니다. 주된 내용은 조건부 평균과 관련된 공식을 유도하는 것입니다. 제가 찾은 공식들은 아래와 같습니다. 이외 다른공식이 있다면, 알려주시면 추가하겠습니다. (1) E[a|Y ] = a (2) E[c(X)|X]=c(X) for any function c(X) (2) E[a(X)Y+b(X)|X]=a(X)E(Y|X)+b(X) (3) E(X|Y)=E(X) if X and Y are independent (4) E[E[X|Y ]] = E[X] (5) E(Y|X)=E[E(Y|X,Z)|X] (6) If E(Y|X)=E(Y) , Cov(X,Y)=0 (7) E[aX + bZ|Y ] = aE[X|Y ] + bE[Z|Y ] (8) E[X|Y ] ≥ 0 if X ≥ 0. (9) E[Xg(Y.. 2020. 10. 7.
[분할표와 ROC curve의 이해] 6. ROC curve 그려보기 우리가 풀고 있는 문제는 아래와 같습니다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 진단 기준이 되는 k값 몇으로 해야할까요? k를 바꿔가면서 민감도와 특이도를 구했고, 결과는 아래와 같습니다. k 범위 환자 양성/정상 양성 환자 음성/정상 음성 민감도 특이도 k 2020. 9. 15.
[분할표와 ROC curve의 이해] 5. 민감도와 특이도의 trade-off 관계 지난시간에 k값을 바꿔가며 민감도와 특이도를 구했습니다. 민감도도 높고 특이도도 높은 k값을 선정해야하는데요. 민감도와 특이도는 서로 trade-off 관계가 있었습니다. 하나가 높아지면 다른 하나가 낮아집니다. 이런 경우에는 어떤 k값으로 정해야 할까요? 해결 방법은 아래와 같습니다. 민감도와 특이도가 동일하게 중요하다는 가정을 하고 둘의 합을 최대로 만드는 k값을 찾으면 됩니다. 아래 수식에서 response 를 최대로 하는 k값을 구하는 것입니다. sensitivity + specificity = response 또는 어느 한쪽이 더 중요하다고 판단되면, 가중치를 줄 수도 있습니다. 둘의 중요도를 6:4로 설정하였습니다. sensitivity*0.6 + specificity*0.4 = respons.. 2020. 9. 14.
[분할표와 ROC curve의 이해] 4. 최적의 진단기준은 어떻게 정할까? 우리는 지금까지 분할표, 민감도, 특이도에 대해서 배웠습니다. 이제 다시 첫시간의 문제로 돌아가서 k를 구하는 방법을 고민해봅시다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 진단 기준이 되는 k값 몇으로 해야할까요? 최적의 k를 구하는 방법은 간단합니다. 먼저 환자와 정상인의 k수치를 크기 순서대로 배열합시다. 3.3(정상) 3.. 2020. 9. 8.
[분할표와 ROC curve의 이해] 3. 민감도와 특이도 지난시간에 만든 분할표는 아래와 같습니다. 환자 정상 합계 양성 TP FP TP+FP 음성 FN TN FN+TN 합계 TP+FN FP+TN TP+FP+FN+TN 이 분할표를 이용하여 아래와 같은 다양한 지표들을 계산할 수 있습니다. - Sensitivity(민감도) - Specificity(특이도) - Positive Predictive Value(양성예측도) - Negative Predictive Value(음성예측도) - Positive Likelihood Ratio(양의 가능도비) - Negative Likelihood Ratio(음의 가능도비) - Odds Ratio(오즈비) - Relative Risk(상대위험도) - Accuraycy(정확도) - Prevalence(유병률) - ROC curv.. 2020. 9. 8.
[ 분할표와 ROC curve의 이해] 2. 분할표 용어정리 지난시간에 만든 분할표는 아래와 같습니다. 환자 정상 합계 양성 환자를 환자로 진단 정상을 환자로 진단 음성 환자를 정상으로 진단 정상을 정상으로 진단 합계 오늘은 분할표의 용어를 정리해봅시다. 분할표 각 셀의 용어를 일반화시키는 것입니다. 환자를 환자로 진단하는 것을 TP 라고 합니다. True Positive 라는 뜻인데요. 양성으로 진단했고 그것이 참이라는 말입니다. 실제 양성인 사람을 양성으로 진단했다는 뜻입니다. 환자를 정상으로 진단하는 것은 무엇일까요? False Negative 입니다. 음성으로 진단했는데 그것이 거짓인 것입니다. FN 이라고 합니다. 정상인을 정상인으로 진단하는 것은 True Negative 입니다. TN 입니다. 정상인을 환자로 진단하는 것은 False Positive 입.. 2020. 9. 8.
[ 분할표와 ROC curve의 이해] 1. 진단키트와 분할표 한가지 실제 문제 상황을 가정하고, 이 문제를 해결하면서 분할표와 ROC curve를 이해해보겠습니다. 우리는 A라는 병을 진단하는 진단키트를 개발하는 연구원입니다. 혈액에서 채취한 어떤 수치 k가 병과 연관이 있었고, k를 이용해서 병을 진단하려고 시도하는 상황입니다. 정상인과 병에 걸린사람을 각각 5명식 모집하고, 수치 k를 측정하였습니다. 결과는 아래와 같습니다. (사람 수가 작은 이유는 손으로 풀기 위함입니다.) 정상 : 3.3, 3.6, 5.2, 4.6, 4.9 환자 : 5.3, 6.8, 7.7, 8.3, 4.7 병을 판정하는 기준을 k값 몇으로 해야할까요? 우리가 풀어야할 문제입니다. 먼저 아무 k값이나 하나 정해봅시다. 7로 정해보겠습니다. 7이라는 기준으로 진단을 해봅시다. k값이 7보다 .. 2020. 9. 7.
[데이터 없이 하는 검정] 3. 데이터는 없고 평균,분산,표본크기만 알아요. 대응표본 t검정 가능한가요? *데이터가 없는 상황을 가정하고 t검정의 절차를 이해하는 강의입니다. t검정이 무엇인지는 알고 있다고 전제합니다. 한가지 상황을 가정합시다. 탈모약을 개발했고, 임상시험 단계입니다. 탈모환자 50명을 대상으로 투약 전과 후 환자의 모발수를 측정하였습니다. 평균,표준편차를 구해놓고 잠깐 눈을 붙인 사이에 데이터가 날아갔습니다. 대응표본 t검정을 해야하는데 가능할까요? 결론부터 말씀드리면 가능합니다. 우리가 대응표본 t검정을 하는 절차를 생각해봅시다. 표본1과 표본2의 데이터를 엑셀에 입력하고, 통계 도구를 이용하여 검정을 합니다. p값이 계산되어 나오고, 우리는 기각 여부를 결정합니다. Step 2의 과정은 엑셀이 알아서 계산해줍니다. 우리는 black box에 데이터를 집어넣고 버튼만 누르면 됩니다. 그.. 2019. 10. 25.
[데이터 없이 하는 검정] 2. 데이터는 없고 평균,분산,표본크기만 알아요. 독립표본 t검정 가능한가요? *데이터가 없는 상황을 가정하고 t검정의 절차를 이해하는 강의입니다. t검정이 무엇인지는 알고 있다고 전제합니다. 한가지 상황을 가정합시다. 두 집단의 데이터를 이용해서 평균,표준편차를 구해놓고 잠깐 눈을 붙인 사이에 데이터가 날아갔습니다. 데이터의 크기는 알고 있는 상태입니다. F검정을 하고 나서 t검정을 할 생각이었습니다. 가능할까요? 결론부터 말씀드리면 가능합니다. 지난 강의에서 F검정을 했구요. 오늘은 t검정을 해봅시다. 우리가 t검정을 하는 절차를 생각해봅시다. 표본1과 표본2의 데이터를 엑셀에 입력하고, 통계 도구를 이용하여 검정을 합니다. p값이 계산되어 나오고, 우리는 기각 여부를 결정합니다. Step 2의 과정은 엑셀이 알아서 계산해줍니다. 우리는 black box에 데이터를 집어넣고 버.. 2019. 10. 24.
[데이터 없이 하는 검정] 1. 데이터는 없고 평균,분산,표본크기만 알아요. F검정 가능한가요? *데이터가 없는 상황을 가정하고 F검정의 절차를 이해하는 강의입니다. F검정이 무엇인지는 알고 있다고 전제합니다. 한가지 상황을 가정합시다. 두 집단의 데이터를 이용해서 평균,표준편차를 구해놓고 잠깐 눈을 붙인 사이에 데이터가 날아갔습니다. 데이터의 크기는 알고 있는 상태입니다. F검정을 하고 나서 t검정을 할 생각이었습니다. 가능할까요? 결론부터 말씀드리면 가능합니다. 우리가 F검정을 하는 절차를 생각해봅시다. 표본1과 표본2의 데이터를 엑셀에 입력하고, 통계 도구를 이용하여 검정을 합니다. p값이 계산되어 나오고, 우리는 기각 여부를 결정합니다. Step 2의 과정은 엑셀이 알아서 계산해줍니다. 우리는 black box에 데이터를 집어넣고 버튼만 누르면 됩니다. 그런데 지금은 이 black box에서.. 2019. 10. 22.
[통계 적률의 이해] 1. 적률이 뭔가요? 목차 1. 적률이 뭔가요 2. 통계에서의 적률 3. 중심적률 4. 표준화적률 5. 적률생성함수 적률은 수학에서 정의된 개념입니다. 함수의 모양을 수학적으로 표현하는 하나의 척도입니다. 수학에서 정의된 적률이 물리학과 통계학에서 사용되는 것입니다. 처음부터 의도한 것은 아니지만 만들어 놓고 보니 적률이 물리적인, 통계적인 어떤 개념과 일치했던 것입니다. 물리학에서는 질량(0차적률), 질량중심(1차적률), 관성모멘트(2차적률)로 사용됩니다. 통계학에서는 평균(1차적률), 분산(2차적률), 왜도(3차 적률), 첨도(4차 적률)로 사용됩니다. 더 정확이 이야기하면, 결과적 일치라고 할 수 있습니다. 수학에서 적률을 정의하고 그 후에 물리와 통계에서 가져다 썼다고 보는 것은 이해의 편의를 위한 해석에 가깝습니다... 2019. 9. 21.
반응형