본문 바로가기
반응형

전체 글645

[확률과 통계 기초] 3-30. 가능성이 변하는 연속확률변수 지난시간에 함께 해결해보려고 했던 궁금증을 다시 살펴봅시다. 먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 이전 글에서는 약을 먹고 나서 각 몸무게로 변할 가능성이 동일하다고 했습니다. 60kg 로 변할 가능성과 100kg로 변할 가능성이 동일하다고 놓은 것입니다. 이번에는 생각을 달리해봅시다. 60kg으로 변할 가능성이 가장 낮고, 100kg로 갈 수록 가능성이 서서히 높아지다가 100kg 으로 변할 가능성이 가장 높다고 해봅시다. 약을 먹었을 때 변한 몸무게를 확률변수 X라고 놓겠습니다. 확률변수 X의 누적분포함수는 어떻게 구할까요? 잠깐 시간을 갖고 한번 시도해 보세요. (몇분 뒤) 우리가 지금까지 배운 내용만 가지고는 구하기가 쉽지 않다는걸 느끼셨을 것입니다. 여기서.. 2024. 11. 16.
[확률과 통계 기초] 3-29. 누적분포 함수 익숙해지기 지난시간에 배운 누적분포함수의 정의를 복습해봅시다. 구간이 $a\leq X \leq b$ 인 확률변수가 있다고 합시다. 확률변수 X가 각 값이 될 가능성은 동일하다고 가정하겠습니다. 확률변수 X의 누적분포함수는 아래와 같습니다. $$ F(x)=P[X \leq x]=\frac{x-a}{b-a} \ \ (a\leq x \leq b) $$ 오늘은 이 누적분포함수에 익숙해지는 시간을 갖겠습니다. 우리가 계속 사용하던 예시를 다시 살펴보겠습니다. 먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 약을 먹고 나서 각 몸무게로 변할 가능성은 동일합니다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 합시다. 확률변수 X의 누적분포 함수는 아래와 같습니다. $$ F(x)=P[X \leq x]=\f.. 2024. 11. 14.
[확률과 통계 기초] 3-28. 연속확률변수의 누적분포함수 연속확률변수에서는 구간의 확률만 정의할 수 있고 개별 값에 대한 확률은 정의되지 않았습니다. 개별 값의 확률이 0이기 때문입니다. 그럼 연속확률변수에서는 확률과 관련된 함수를 정의할 수 없는걸까요. 연속확률변수에서 구간의 확률을 정의할 수 있다는 성질을 이용하면 함수를 정의할 수 있습니다. 지난시간에 사용하던 예시를 가져옵시다. 먹으면 몸무게가 랜덤하게 60~100kg 으로 바뀌는 약이 있다고 합시다. 각 몸무게가 될 가능성은 동일합니다. 이때 약을 먹고 몸무게가 60이상 $x$ 이하가 될 확률을 정의할 수 있습니다. $$P[60 \leq X \leq x]$$ 확률은 얼마일까요? 위 구간의 길이인 $x-60$ 을 전체 길이인 40으로 나눠주면 됩니다. 아래와 같습니다. $$P[60 \leq X \leq .. 2024. 11. 4.
두사람이 데이터를 두번씩 측정했다면 ICC는 어떻게 비교해야 할까? 두 사람 A와 B가 있습니다. 어떤 측정을 하는데, 한 사람당 두번 반복했다고 합시다.  측정 데이터는 아래와 같이 네가지가 생깁니다.  A1,A2,B1,B2 모두 같은 대상을 측정한 데이터입니다.  1. 측정자 간 신뢰도 (inter-rater reliability)측정자 간 신뢰도는 아래 데이터를 비교합니다.  [A1,A2] vs [B1,B2] ICC(2,1)를 주로 사용합니다.   2. 측정자 내 신뢰도 (intra-rater reliability)측정자 내 신뢰도는 아래 데이터를 비교합니다.  A1 vs A2 B1 vs B2 ICC(3,1)을 주로 사용합니다. 2024. 10. 23.
[확률과 통계 기초] 3-27. 연속확률변수에서 구간의 확률은 정의할 수 있다 지난 시간에 우리는 연속확률변수의 개별 원소에 대해 확률을 정의할 수 없다는 것을 배웠습니다. 이는 각 원소의 확률을 정의하게 되면 전체 확률의 합이 무한대로 발산하기 때문입니다. 그렇다면 연속확률변수에서 확률은 어떻게 정의할 수 있을까요? 연속확률변수에서는 개별 값의 확률이 아닌, 구간의 확률을 정의할 수 있습니다. 이를 통해 전체 확률이 1로 유지되면서도 각 구간의 확률을 계산할 수 있습니다. 예시를 들어보겠습니다. 지난번에 사용한 예시입니다. 먹으면 몸무게가 랜덤하게 60~100kg 으로 바뀌는 약이 있다고 합시다. 각 몸무게가 될 가능성은 동일하다고 가정합시다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 하겠습니다.  확률변수 X가 60~70kg 사이가 될 확률은 아래와 같이 정의할 수 있습니다. .. 2024. 9. 6.
[오즈비와 상대위험도의 이해] 2. 오즈가 왜 필요한가 지난시간에 오즈가 무엇인지 배웠습니다. 오즈는 아래와 같이 정의되며, 오즈가 크다는 것은 발생확률이 크다는 것을 의미했습니다.  $odds=\frac{p}{1-p}$ 지난 시간 끝부분에 다음과 같은 질문을 던졌습니다.  "어차피 발생확률을 비교하는게 목적이면, 그냥 발생 확률 p로 비교하면 되지 왜 굳이 오즈를 정의한거야?" 이 질문에 답을 하려면 오즈와 오즈비가 등장하게 된 과정을 알아야 합니다. 아래와 같은 과정을 거쳐 오즈와 오즈비가 등장합니다.  1. 코호트 연구2. 상대위험도3. 사례-대조군 연구4. 상대위험도의 한계5. 오즈와 오즈비 오즈와 오즈비가 등장한 이유에 대해 결론만 짧게 말하면 이렇습니다. 코호트 연구에 사용하던 상대위험도를 사례-대조군 연구에 사용하려고 했을 때 문제가 발생했고, .. 2024. 8. 29.
[오즈비와 상대위험도의 이해] 1. 오즈란 무엇인가 오즈비(Odds Ratio)와 상대위험도(Relative Risk)가 무엇인지 이해하는 강의입니다. 먼저 오즈비가 무엇인지부터 살펴보겠습니다.  오즈비란? 오즈비는 오즈(odds)의 비(ratio)입니다. 오즈비가 무엇인지 이해하려면 먼저 오즈(odds)라는 개념을 알아야 합니다.  오즈란? 어떤 사건이 발생할 확률을 p라고 할 때, 오즈(odds)는 다음과 같이 정의됩니다.  $odds=\frac{p}{1-p}$ 즉, 오즈는 사건이 발생할 확률을 발생하지 않을 확률로 나눈 값입니다.  오즈의 성질사건이 발생할 확률이 높아지면 odds도 증가합니다. 반대로, odds가 높다는 것은 해당 사건이 발생할 확률이 높다것을 의미합니다.  사건이 발생할 확률과 오즈의 관계를 그래프로 그려보면 다음과 같습니다.  .. 2024. 8. 29.
[확률과 통계 기초] 3-26. 연속확률변수에서는 확률이 정의되지 않는 이유 우리는 지난시간에 연속확률변수를 배웠습니다. 연속확률변수는 3-5강에서 이미 한번 배웠었는데요. 시간이 많이 지났기 때문에 지난 강의에서 한번 더 복습을 했습니다.  오늘은 연속확률변수에서 각 원소의 확률이 정의되지 않는다는 내용을 배워볼겁니다. 그전에 이산확률변수의 확률분포를 하나 살펴보겠습니다.  이산확률변수에 속하는 이항분포를 배웠던 기억을 떠올려 봅시다. 자유투 성공률이 70%인 농구선수가 자유투를 5번 던졌을 때 성공한 횟수를 X로 놓을 때, 확률함수는 아래와 같았습니다.  $p(x)=_5C_x \ (0.7)^x(0.3)^{5-x}$ 확률함수를 구해놓으면 원하는 확률변수의 확률을 쉽게 구할 수 있습니다. X에 궁금한 값을 대입하면 확률이 구해집니다.  연속확률변수에도 이런 확률함수를 구할 수 있.. 2024. 8. 23.
[확률과 통계 기초] 3-25. 연속확률변수 복습 지금까지 우리는 이산확률변수를 배웠습니다.  이산확률변수는 셀 수 있는 확률변수였습니다. 동전을 던져서 나오는 앞면의 수도, 들어간 자유투 개수도 셀 수 있습니다. 하나, 둘, 셋 이렇게 번호를 붙여서 셀 수가 있습니다.  확률변수가 하나 더 있었는데요. 연속확률변수입니다. 앞으로는 연속확률변수에 대해서 배워볼겁니다. 연속확률변수는 셀 수 없는 확률변수입니다. 번호 붙여서 셀 수 없다는 뜻인데요. 예를 한번 들어보겠습니다.  어떤 약이 있습니다. 먹으면 40~100kg 사이의 몸무게로 랜덤하게 바뀌는 약입니다. 각 몸무게가 될 확률은 동일합니다.  여기서 40~100은 40이상 100이하의 '실수'를 의미합니다.  이 약을 먹었을 때 변하는 몸무게를 확률변수 X라고 놓겠습니다. 확률변수 X를 셀 수 있나.. 2024. 8. 12.
[확률과 통계 기초] 3-24. 자료의 분산 vs 확률변수의 분산 우리는 두가지 분산을 배웠습니다.  자료의 분산과 확률변수의 분산입니다. 오늘은 두 분산을 비교해보겠습니다.  자료의 분산은 중학교 수학에서 처음 등장합니다. 우리는 3-21강에서 다뤘습니다. 자료를 예를 들면 아래와 같습니다. {174,177,183,165,157} 다섯 사람의 키 입니다. 다섯사람 키의 평균은 171.4입니다. 분산은 아래와 같이 구할 수 있습니다.  $\frac{(174-171.4)^2+(177-171.4)^2+(183-171.4)^2+(165-171.4)^2+(157-171.4)^2}{5}$ 일반화 시켜봅시다. 아래와 같이 원소 개수가 n개인 자료가 있습니다.  $\left \{ x_{1},x_{2},...,x_{n} \right \}$ 이 자료의 평균을 m이라고 놓으면 분산은 아.. 2024. 7. 29.
[확률과 통계 기초] 3-23. 표준편차 기호가 시그마인 이유 우리는 지난시간에 표준편차가 아래와 같이 정의된다는 것을 배웠습니다.  $\sigma [X]=\sqrt{\sum_{i=1}^{n}(x_{i}-m)^2 p_{i}}$표준편차에는 왜 그리스어 시그마를 사용하는걸까요.  표준편차는 영어로 standard deviation 입니다. 첫 글자인 s를 따서 지으려고 하다가 그리스어가 더 멋있어 보였던것 같습니다. 아니면 그리스어를 따서 이름을 붙이는 유행(?)같은게 있었을 수도 있구요.  영어 s와 발음이 같은 그리스어 시그마의 소문자 $\sigma$ 를 표준편차를 나타내는 기호로 사용하게 되었습니다. 대문자 시그마 $\sum$는 합의 시그마기호로 사용된다는걸 배웠었죠.   이후에 모집단과 표본을 배우게 되면 표준편차 기호가 하나 더 필요해집니다. 이때부터는 모집단.. 2024. 7. 18.
[확률과 통계 기초] 3-22. 확률변수의 분산과 표준편차 아래와 같은 확률변수 X가 있다고 합시다.  이 확률변수의 기댓값은 아래와 같이 구합니다.  $E[X]=\sum_{i=1}^{n}x_{i}p_{i}$                                                                                                                            확률변수의 분산은 어떻게 구할까요. 분산의 정의를 생각해봅시다. 분산의 정의는 아래와 같았습니다 . “편차의 제곱의 평균” 확률변수에서는 이렇게 바꿔볼 수 있습니다.  “편차 제곱의 기댓값” 확률변수의 기댓값은 확률변수에 각 확률을 곱해서 더하는 방식으로 구했습니다. 편차제곱의 기댓값도 같은 방식으로 정의할 수 있습니다. 아래와 같습니다 ... 2024. 7. 17.
[확률과 통계 기초] 3-21. 분산과 표준편차 분산과 표준편차가 무엇인지는 중학교 수학에서 배웠습니다. 내용을 잊으신 분들을 위해 분산과 표준편차가 무엇인지 복습하겠습니다.  아래와 같은 자료가 있다고 합시다.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10 사람들은 자료를 요약하고 싶었습니다. 자료를 요약하기 위해 자료를 대표하는 값(대푯값)과 자료가 흩어진 정도(분산도)를 정의하고 싶었습니다. 가장 많이 사용되는 대푯값은 평균이고 분산도는 분산입니다.  위 자료의 평균은 아래와 같이 구합니다.  $\frac{1+2+3+4+5+6+7+8+9+10}{10}$ 자료의 흩어진 정도를 나타내기 위해 사람들이 처음 생각한 것은 편차였습니다. 편차는 (변량-평균)입니다. 각 값들이 평균에서 얼마나 떨어져 있는가를 이용해서 분산도를 정의하려고 한 것입니.. 2024. 6. 26.
[확률과 통계 기초] 3-20. 합의 시그마 기호 설명 아래와 같은 시그마 기호를 많이 보셨을겁니다.  $\sum$ 이 기호에 아직 익숙하지 않은 분들이 계실 수도 있어서 오늘은 시그마 기호를 설명드리겠습니다. 시그마 기호는 우리를 편하게 해주기 위해 고안되었습니다. 과거도 돌아가서 다른 유니버스를 산다고 해도 반드시 등장했을 기호일겁니다. 수학에서 아주 자주 사용되므로 익숙해지는 것이 좋습니다.  아래 식을 봅시다. 1부터 10까지 더하는 식입니다.  1+2+3+4+5+6+7+8+9+10 이 정도는 손으로 다 써도 힘들지 않습니다. 만약 1부터 100까지 더하는 식을 표현하고 싶다고 합시다. 어떻게 쓰실건가요? 저라면 이렇게 쓸 것 같습니다.  1+2+...+99+100 이번에는 다른 예시를 들어봅시다. 1부터 시작해서 3씩 커지는 숫자를 30개 더하고 싶.. 2024. 6. 21.
[확률과 통계 기초] 3-19. 기댓값과 평균은 같을까 다를까? 우리는 평균을 먼저 배웠습니다. 아마 초등학교 시절에 배웠던 것으로 기억합니다. 평균은 모든 값을 더해서 전체 개수로 나눈 것입니다. 고등학교에 가면 평균에 세 종류가 있다는 것을 배웁니다. 산술평균, 기하평균, 조화평균입니다. 우리가 흔히 평균이라고 말하는 것은 산술평균입니다. 본 강의에서는 편의상 산술평균을 평균이라고 부르겠습니다.  우리는 지난시간까지 기댓값이라는 것을 배웠습니다. 기댓값을 공부하며 평균과 비슷하다는 생각이 드셨을겁니다. 동전 던지기 내기를 한번 생각해봅시다. 앞면이 나오면 500원 뒷면이 나오면 1000원을 받습니다. 얼마를 기대할 수 있었나요? 750원입니다.  이번에는 다른 상황을 생각해봅시다. 두 사람 철수와 영희가 있는데 한 사람은 1000원을 가지고 있고 다른 사람은 50.. 2024. 6. 21.
반응형