본문 바로가기
반응형

전체 글647

[확률과 통계 기초] 3-32. 누적분포함수를 미분해보았다 우리는 연속확률변수에서 ‘가능성’이라고 부르는 어떤 것의 정체를 밝혀내는 중입니다. 이를 이해하기 위해 아래 예시를 다시 봅시다. 먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 약을 먹고 나서 각 몸무게로 변할 가능성은 동일합니다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 합시다. 이 상황을 나타낸 그래프도 그려보았지만, 우리가 말하는 '가능성'이 무엇인지 이해할 수 없었습니다 .  사람들은 누적분포함수를 미분해 보는 방법을 선택했습니다. 위 예시의 누적분포함수는 다움과 같습니다. $$ F(x)=P[X \leq x]=\frac{x-60}{40} \ \ (60\leq x \leq 100) $$ 이 함수를 미분한 결과를 f(x)라고 놓으면 다음과 같습니다.  $$ f(x)=\f.. 2024. 11. 28.
[확률과 통계 기초] 3-31. 확률은 아니지만 확률 같은 무언가 우리가 매번 사용하고 있는 예제를 다시 살펴봅시다.  먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 약을 먹고 나서 각 몸무게로 변할 가능성은 동일합니다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 합시다.  여기서 확률변수 X는 확률을 갖지 않습니다. 확률을 갖는 순간 전체 확률이 무한대가 되기 때문입니다. 그런데 우리는 X각 60~100kg 사이로 변할 ‘가능성’이 같다고 말했습니다. 어느 값으로 변하던 그 가능성이 동일하다는 가정을 하고 싶었기 때문입니다. 이 가능성은 확률은 아닙니다. 현재까지 배운 내용으로는 뭐라고 표현할 말이 없어서 가능성이라고 이야기한 것입니다. 하지만 느낌상 확률과 비슷한 무언가라는 것은 알 수 있습니다. 우리는 이 ‘가능성’이 의미하는 것이 무.. 2024. 11. 25.
[확률과 통계 기초] 3-30. 가능성이 변하는 연속확률변수 지난시간에 함께 해결해보려고 했던 궁금증을 다시 살펴봅시다. 먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 지금까지는 이 약을 먹고 나서 각 몸무게로 변할 가능성이 동일하다고 했었습니다. 60kg 로 변할 가능성과 100kg로 변할 가능성이 동일하다고 놓은 것입니다. 각 몸무게가 발생할 확률은 정의할 수가 없었고, 구간의 확률만 정의할 수 있었습니다. 그래서 누적분포함수를 구했었습니다. 아래와 같습니다.  $$ F(x)=P[X \leq x]=\frac{x-60}{40} \ \ (60\leq x \leq 100) $$ 이번에는 생각을 달리해봅시다. 60kg으로 변할 가능성이 가장 낮고, 100kg로 갈 수록 가능성이 서서히 높아지다가 100kg 으로 변할 가능성이 가장 높다고.. 2024. 11. 16.
[확률과 통계 기초] 3-29. 누적분포 함수 익숙해지기 지난시간에 배운 누적분포함수의 정의를 복습해봅시다. 구간이 $a\leq X \leq b$ 인 확률변수가 있다고 합시다. 확률변수 X가 각 값이 될 가능성은 동일하다고 가정하겠습니다. 확률변수 X의 누적분포함수는 아래와 같습니다. $$ F(x)=P[X \leq x]=\frac{x-a}{b-a} \ \ (a\leq x \leq b) $$ 오늘은 이 누적분포함수에 익숙해지는 시간을 갖겠습니다. 우리가 계속 사용하던 예시를 다시 살펴보겠습니다. 먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 약을 먹고 나서 각 몸무게로 변할 가능성은 동일합니다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 합시다. 확률변수 X의 누적분포 함수는 아래와 같습니다. $$ F(x)=P[X \leq x]=\f.. 2024. 11. 14.
[확률과 통계 기초] 3-28. 연속확률변수의 누적분포함수 연속확률변수에서는 구간의 확률만 정의할 수 있고 개별 값에 대한 확률은 정의되지 않았습니다. 개별 값의 확률이 0이기 때문입니다. 그럼 연속확률변수에서는 확률과 관련된 함수를 정의할 수 없는걸까요. 연속확률변수에서 구간의 확률을 정의할 수 있다는 성질을 이용하면 함수를 정의할 수 있습니다. 지난시간에 사용하던 예시를 가져옵시다. 먹으면 몸무게가 랜덤하게 60~100kg 으로 바뀌는 약이 있다고 합시다. 각 몸무게가 될 가능성은 동일합니다. 이때 약을 먹고 몸무게가 60이상 $x$ 이하가 될 확률을 정의할 수 있습니다. $$P[60 \leq X \leq x]$$ 확률은 얼마일까요? 위 구간의 길이인 $x-60$ 을 전체 길이인 40으로 나눠주면 됩니다. 아래와 같습니다. $$P[60 \leq X \leq .. 2024. 11. 4.
두사람이 데이터를 두번씩 측정했다면 ICC는 어떻게 비교해야 할까? 두 사람 A와 B가 있습니다. 어떤 측정을 하는데, 한 사람당 두번 반복했다고 합시다.  측정 데이터는 아래와 같이 네가지가 생깁니다.  A1,A2,B1,B2 모두 같은 대상을 측정한 데이터입니다.  1. 측정자 간 신뢰도 (inter-rater reliability)측정자 간 신뢰도는 아래 데이터를 비교합니다.  [A1,A2] vs [B1,B2] ICC(2,1)를 주로 사용합니다.   2. 측정자 내 신뢰도 (intra-rater reliability)측정자 내 신뢰도는 아래 데이터를 비교합니다.  A1 vs A2 B1 vs B2 ICC(3,1)을 주로 사용합니다. 2024. 10. 23.
[확률과 통계 기초] 3-27. 연속확률변수에서 구간의 확률은 정의할 수 있다 지난 시간에 우리는 연속확률변수의 개별 원소에 대해 확률을 정의할 수 없다는 것을 배웠습니다. 이는 각 원소의 확률을 정의하게 되면 전체 확률의 합이 무한대로 발산하기 때문입니다. 그렇다면 연속확률변수에서 확률은 어떻게 정의할 수 있을까요? 연속확률변수에서는 개별 값의 확률이 아닌, 구간의 확률을 정의할 수 있습니다. 이를 통해 전체 확률이 1로 유지되면서도 각 구간의 확률을 계산할 수 있습니다. 예시를 들어보겠습니다. 지난번에 사용한 예시입니다. 먹으면 몸무게가 랜덤하게 60~100kg 으로 바뀌는 약이 있다고 합시다. 각 몸무게가 될 가능성은 동일하다고 가정합시다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 하겠습니다.  확률변수 X가 60~70kg 사이가 될 확률은 아래와 같이 정의할 수 있습니다. .. 2024. 9. 6.
[오즈비와 상대위험도의 이해] 2. 오즈가 왜 필요한가 지난시간에 오즈가 무엇인지 배웠습니다. 오즈는 아래와 같이 정의되며, 오즈가 크다는 것은 발생확률이 크다는 것을 의미했습니다.  $odds=\frac{p}{1-p}$ 지난 시간 끝부분에 다음과 같은 질문을 던졌습니다.  "어차피 발생확률을 비교하는게 목적이면, 그냥 발생 확률 p로 비교하면 되지 왜 굳이 오즈를 정의한거야?" 이 질문에 답을 하려면 오즈와 오즈비가 등장하게 된 과정을 알아야 합니다. 아래와 같은 과정을 거쳐 오즈와 오즈비가 등장합니다.  1. 코호트 연구2. 상대위험도3. 사례-대조군 연구4. 상대위험도의 한계5. 오즈와 오즈비 오즈와 오즈비가 등장한 이유에 대해 결론만 짧게 말하면 이렇습니다. 코호트 연구에 사용하던 상대위험도를 사례-대조군 연구에 사용하려고 했을 때 문제가 발생했고, .. 2024. 8. 29.
[오즈비와 상대위험도의 이해] 1. 오즈란 무엇인가 오즈비(Odds Ratio)와 상대위험도(Relative Risk)가 무엇인지 이해하는 강의입니다. 먼저 오즈비가 무엇인지부터 살펴보겠습니다.  오즈비란? 오즈비는 오즈(odds)의 비(ratio)입니다. 오즈비가 무엇인지 이해하려면 먼저 오즈(odds)라는 개념을 알아야 합니다.  오즈란? 어떤 사건이 발생할 확률을 p라고 할 때, 오즈(odds)는 다음과 같이 정의됩니다.  $odds=\frac{p}{1-p}$ 즉, 오즈는 사건이 발생할 확률을 발생하지 않을 확률로 나눈 값입니다.  오즈의 성질사건이 발생할 확률이 높아지면 odds도 증가합니다. 반대로, odds가 높다는 것은 해당 사건이 발생할 확률이 높다것을 의미합니다.  사건이 발생할 확률과 오즈의 관계를 그래프로 그려보면 다음과 같습니다.  .. 2024. 8. 29.
[확률과 통계 기초] 3-26. 연속확률변수에서는 확률이 정의되지 않는 이유 우리는 지난시간에 연속확률변수를 배웠습니다. 연속확률변수는 3-5강에서 이미 한번 배웠었는데요. 시간이 많이 지났기 때문에 지난 강의에서 한번 더 복습을 했습니다.  오늘은 연속확률변수에서 각 원소의 확률이 정의되지 않는다는 내용을 배워볼겁니다. 그전에 이산확률변수의 확률분포를 하나 살펴보겠습니다.  이산확률변수에 속하는 이항분포를 배웠던 기억을 떠올려 봅시다. 자유투 성공률이 70%인 농구선수가 자유투를 5번 던졌을 때 성공한 횟수를 X로 놓을 때, 확률함수는 아래와 같았습니다.  $p(x)=_5C_x \ (0.7)^x(0.3)^{5-x}$ 확률함수를 구해놓으면 원하는 확률변수의 확률을 쉽게 구할 수 있습니다. X에 궁금한 값을 대입하면 확률이 구해집니다.  연속확률변수에도 이런 확률함수를 구할 수 있.. 2024. 8. 23.
[확률과 통계 기초] 3-25. 연속확률변수 복습 지금까지 우리는 이산확률변수를 배웠습니다.  이산확률변수는 셀 수 있는 확률변수였습니다. 동전을 던져서 나오는 앞면의 수도, 들어간 자유투 개수도 셀 수 있습니다. 하나, 둘, 셋 이렇게 번호를 붙여서 셀 수가 있습니다.  확률변수가 하나 더 있었는데요. 연속확률변수입니다. 앞으로는 연속확률변수에 대해서 배워볼겁니다. 연속확률변수는 셀 수 없는 확률변수입니다. 번호 붙여서 셀 수 없다는 뜻인데요. 예를 한번 들어보겠습니다.  어떤 약이 있습니다. 먹으면 40~100kg 사이의 몸무게로 랜덤하게 바뀌는 약입니다. 각 몸무게가 될 확률은 동일합니다.  여기서 40~100은 40이상 100이하의 '실수'를 의미합니다.  이 약을 먹었을 때 변하는 몸무게를 확률변수 X라고 놓겠습니다. 확률변수 X를 셀 수 있나.. 2024. 8. 12.
[확률과 통계 기초] 3-24. 자료의 분산 vs 확률변수의 분산 우리는 두가지 분산을 배웠습니다.  자료의 분산과 확률변수의 분산입니다. 오늘은 두 분산을 비교해보겠습니다.  자료의 분산은 중학교 수학에서 처음 등장합니다. 우리는 3-21강에서 다뤘습니다. 자료를 예를 들면 아래와 같습니다. {174,177,183,165,157} 다섯 사람의 키 입니다. 다섯사람 키의 평균은 171.4입니다. 분산은 아래와 같이 구할 수 있습니다.  $\frac{(174-171.4)^2+(177-171.4)^2+(183-171.4)^2+(165-171.4)^2+(157-171.4)^2}{5}$ 일반화 시켜봅시다. 아래와 같이 원소 개수가 n개인 자료가 있습니다.  $\left \{ x_{1},x_{2},...,x_{n} \right \}$ 이 자료의 평균을 m이라고 놓으면 분산은 아.. 2024. 7. 29.
[확률과 통계 기초] 3-23. 표준편차 기호가 시그마인 이유 우리는 지난시간에 표준편차가 아래와 같이 정의된다는 것을 배웠습니다.  $\sigma [X]=\sqrt{\sum_{i=1}^{n}(x_{i}-m)^2 p_{i}}$표준편차에는 왜 그리스어 시그마를 사용하는걸까요.  표준편차는 영어로 standard deviation 입니다. 첫 글자인 s를 따서 지으려고 하다가 그리스어가 더 멋있어 보였던것 같습니다. 아니면 그리스어를 따서 이름을 붙이는 유행(?)같은게 있었을 수도 있구요.  영어 s와 발음이 같은 그리스어 시그마의 소문자 $\sigma$ 를 표준편차를 나타내는 기호로 사용하게 되었습니다. 대문자 시그마 $\sum$는 합의 시그마기호로 사용된다는걸 배웠었죠.   이후에 모집단과 표본을 배우게 되면 표준편차 기호가 하나 더 필요해집니다. 이때부터는 모집단.. 2024. 7. 18.
[확률과 통계 기초] 3-22. 확률변수의 분산과 표준편차 아래와 같은 확률변수 X가 있다고 합시다.  이 확률변수의 기댓값은 아래와 같이 구합니다.  $E[X]=\sum_{i=1}^{n}x_{i}p_{i}$                                                                                                                            확률변수의 분산은 어떻게 구할까요. 분산의 정의를 생각해봅시다. 분산의 정의는 아래와 같았습니다 . “편차의 제곱의 평균” 확률변수에서는 이렇게 바꿔볼 수 있습니다.  “편차 제곱의 기댓값” 확률변수의 기댓값은 확률변수에 각 확률을 곱해서 더하는 방식으로 구했습니다. 편차제곱의 기댓값도 같은 방식으로 정의할 수 있습니다. 아래와 같습니다 ... 2024. 7. 17.
[확률과 통계 기초] 3-21. 분산과 표준편차 분산과 표준편차가 무엇인지는 중학교 수학에서 배웠습니다. 내용을 잊으신 분들을 위해 분산과 표준편차가 무엇인지 복습하겠습니다.  아래와 같은 자료가 있다고 합시다.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10 사람들은 자료를 요약하고 싶었습니다. 자료를 요약하기 위해 자료를 대표하는 값(대푯값)과 자료가 흩어진 정도(분산도)를 정의하고 싶었습니다. 가장 많이 사용되는 대푯값은 평균이고 분산도는 분산입니다.  위 자료의 평균은 아래와 같이 구합니다.  $\frac{1+2+3+4+5+6+7+8+9+10}{10}$ 자료의 흩어진 정도를 나타내기 위해 사람들이 처음 생각한 것은 편차였습니다. 편차는 (변량-평균)입니다. 각 값들이 평균에서 얼마나 떨어져 있는가를 이용해서 분산도를 정의하려고 한 것입니.. 2024. 6. 26.
반응형