본문 바로가기
반응형

분류 전체보기643

[확률과 통계 기초] 3-28. 연속확률변수의 누적분포함수 연속확률변수에서는 구간의 확률만 정의할 수 있고 개별 값에 대한 확률은 정의되지 않았습니다. 개별 값의 확률이 0이기 때문입니다. 그럼 연속확률변수에서는 확률과 관련된 함수를 정의할 수 없는걸까요. 연속확률변수에서 구간의 확률을 정의할 수 있다는 성질을 이용하면 함수를 정의할 수 있습니다. 지난시간에 사용하던 예시를 가져옵시다. 먹으면 몸무게가 랜덤하게 60~100kg 으로 바뀌는 약이 있다고 합시다. 각 몸무게가 될 가능성은 동일합니다. 이때 약을 먹고 몸무게가 60이상 $x$ 이하가 될 확률을 정의할 수 있습니다. $$P[60 \leq X \leq x]$$ 확률은 얼마일까요? 위 구간의 길이인 $x-60$ 을 전체 길이인 40으로 나눠주면 됩니다. 아래와 같습니다. $$P[60 \leq X \leq .. 2024. 11. 4.
두사람이 데이터를 두번씩 측정했다면 ICC는 어떻게 비교해야 할까? 두 사람 A와 B가 있습니다. 어떤 측정을 하는데, 한 사람당 두번 반복했다고 합시다.  측정 데이터는 아래와 같이 네가지가 생깁니다.  A1,A2,B1,B2 모두 같은 대상을 측정한 데이터입니다.  1. 측정자 간 신뢰도 (inter-rater reliability)측정자 간 신뢰도는 아래 데이터를 비교합니다.  [A1,A2] vs [B1,B2] ICC(2,1)를 주로 사용합니다.   2. 측정자 내 신뢰도 (intra-rater reliability)측정자 내 신뢰도는 아래 데이터를 비교합니다.  A1 vs A2 B1 vs B2 ICC(3,1)을 주로 사용합니다. 2024. 10. 23.
[확률과 통계 기초] 3-27. 연속확률변수에서 구간의 확률은 정의할 수 있다 지난 시간에 우리는 연속확률변수의 개별 원소에 대해 확률을 정의할 수 없다는 것을 배웠습니다. 이는 각 원소의 확률을 정의하게 되면 전체 확률의 합이 무한대로 발산하기 때문입니다. 그렇다면 연속확률변수에서 확률은 어떻게 정의할 수 있을까요? 연속확률변수에서는 개별 값의 확률이 아닌, 구간의 확률을 정의할 수 있습니다. 이를 통해 전체 확률이 1로 유지되면서도 각 구간의 확률을 계산할 수 있습니다. 예시를 들어보겠습니다. 지난번에 사용한 예시입니다. 먹으면 몸무게가 랜덤하게 60~100kg 으로 바뀌는 약이 있다고 합시다. 각 몸무게가 될 가능성은 동일하다고 가정합시다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 하겠습니다.  확률변수 X가 60~70kg 사이가 될 확률은 아래와 같이 정의할 수 있습니다. .. 2024. 9. 6.
[오즈비와 상대위험도의 이해] 2. 오즈가 왜 필요한가 지난시간에 오즈가 무엇인지 배웠습니다. 오즈는 아래와 같이 정의되며, 오즈가 크다는 것은 발생확률이 크다는 것을 의미했습니다.  $odds=\frac{p}{1-p}$ 지난 시간 끝부분에 다음과 같은 질문을 던졌습니다.  "어차피 발생확률을 비교하는게 목적이면, 그냥 발생 확률 p로 비교하면 되지 왜 굳이 오즈를 정의한거야?" 이 질문에 답을 하려면 오즈와 오즈비가 등장하게 된 과정을 알아야 합니다. 아래와 같은 과정을 거쳐 오즈와 오즈비가 등장합니다.  1. 코호트 연구2. 상대위험도3. 사례-대조군 연구4. 상대위험도의 한계5. 오즈와 오즈비 오즈와 오즈비가 등장한 이유에 대해 결론만 짧게 말하면 이렇습니다. 코호트 연구에 사용하던 상대위험도를 사례-대조군 연구에 사용하려고 했을 때 문제가 발생했고, .. 2024. 8. 29.
[오즈비와 상대위험도의 이해] 1. 오즈란 무엇인가 오즈비(Odds Ratio)와 상대위험도(Relative Risk)가 무엇인지 이해하는 강의입니다. 먼저 오즈비가 무엇인지부터 살펴보겠습니다.  오즈비란? 오즈비는 오즈(odds)의 비(ratio)입니다. 오즈비가 무엇인지 이해하려면 먼저 오즈(odds)라는 개념을 알아야 합니다.  오즈란? 어떤 사건이 발생할 확률을 p라고 할 때, 오즈(odds)는 다음과 같이 정의됩니다.  $odds=\frac{p}{1-p}$ 즉, 오즈는 사건이 발생할 확률을 발생하지 않을 확률로 나눈 값입니다.  오즈의 성질사건이 발생할 확률이 높아지면 odds도 증가합니다. 반대로, odds가 높다는 것은 해당 사건이 발생할 확률이 높다것을 의미합니다.  사건이 발생할 확률과 오즈의 관계를 그래프로 그려보면 다음과 같습니다.  .. 2024. 8. 29.
[확률과 통계 기초] 3-26. 연속확률변수에서는 확률이 정의되지 않는 이유 우리는 지난시간에 연속확률변수를 배웠습니다. 연속확률변수는 3-5강에서 이미 한번 배웠었는데요. 시간이 많이 지났기 때문에 지난 강의에서 한번 더 복습을 했습니다.  오늘은 연속확률변수에서 각 원소의 확률이 정의되지 않는다는 내용을 배워볼겁니다. 그전에 이산확률변수의 확률분포를 하나 살펴보겠습니다.  이산확률변수에 속하는 이항분포를 배웠던 기억을 떠올려 봅시다. 자유투 성공률이 70%인 농구선수가 자유투를 5번 던졌을 때 성공한 횟수를 X로 놓을 때, 확률함수는 아래와 같았습니다.  $p(x)=_5C_x \ (0.7)^x(0.3)^{5-x}$ 확률함수를 구해놓으면 원하는 확률변수의 확률을 쉽게 구할 수 있습니다. X에 궁금한 값을 대입하면 확률이 구해집니다.  연속확률변수에도 이런 확률함수를 구할 수 있.. 2024. 8. 23.
[확률과 통계 기초] 3-25. 연속확률변수 복습 지금까지 우리는 이산확률변수를 배웠습니다.  이산확률변수는 셀 수 있는 확률변수였습니다. 동전을 던져서 나오는 앞면의 수도, 들어간 자유투 개수도 셀 수 있습니다. 하나, 둘, 셋 이렇게 번호를 붙여서 셀 수가 있습니다.  확률변수가 하나 더 있었는데요. 연속확률변수입니다. 앞으로는 연속확률변수에 대해서 배워볼겁니다. 연속확률변수는 셀 수 없는 확률변수입니다. 번호 붙여서 셀 수 없다는 뜻인데요. 예를 한번 들어보겠습니다.  어떤 약이 있습니다. 먹으면 40~100kg 사이의 몸무게로 랜덤하게 바뀌는 약입니다. 각 몸무게가 될 확률은 동일합니다.  여기서 40~100은 40이상 100이하의 '실수'를 의미합니다.  이 약을 먹었을 때 변하는 몸무게를 확률변수 X라고 놓겠습니다. 확률변수 X를 셀 수 있나.. 2024. 8. 12.
[확률과 통계 기초] 3-24. 자료의 분산 vs 확률변수의 분산 우리는 두가지 분산을 배웠습니다.  자료의 분산과 확률변수의 분산입니다. 오늘은 두 분산을 비교해보겠습니다.  자료의 분산은 중학교 수학에서 처음 등장합니다. 우리는 3-21강에서 다뤘습니다. 자료를 예를 들면 아래와 같습니다. {174,177,183,165,157} 다섯 사람의 키 입니다. 다섯사람 키의 평균은 171.4입니다. 분산은 아래와 같이 구할 수 있습니다.  $\frac{(174-171.4)^2+(177-171.4)^2+(183-171.4)^2+(165-171.4)^2+(157-171.4)^2}{5}$ 일반화 시켜봅시다. 아래와 같이 원소 개수가 n개인 자료가 있습니다.  $\left \{ x_{1},x_{2},...,x_{n} \right \}$ 이 자료의 평균을 m이라고 놓으면 분산은 아.. 2024. 7. 29.
[확률과 통계 기초] 3-23. 표준편차 기호가 시그마인 이유 우리는 지난시간에 표준편차가 아래와 같이 정의된다는 것을 배웠습니다.  $\sigma [X]=\sqrt{\sum_{i=1}^{n}(x_{i}-m)^2 p_{i}}$표준편차에는 왜 그리스어 시그마를 사용하는걸까요.  표준편차는 영어로 standard deviation 입니다. 첫 글자인 s를 따서 지으려고 하다가 그리스어가 더 멋있어 보였던것 같습니다. 아니면 그리스어를 따서 이름을 붙이는 유행(?)같은게 있었을 수도 있구요.  영어 s와 발음이 같은 그리스어 시그마의 소문자 $\sigma$ 를 표준편차를 나타내는 기호로 사용하게 되었습니다. 대문자 시그마 $\sum$는 합의 시그마기호로 사용된다는걸 배웠었죠.   이후에 모집단과 표본을 배우게 되면 표준편차 기호가 하나 더 필요해집니다. 이때부터는 모집단.. 2024. 7. 18.
[확률과 통계 기초] 3-22. 확률변수의 분산과 표준편차 아래와 같은 확률변수 X가 있다고 합시다.  이 확률변수의 기댓값은 아래와 같이 구합니다.  $E[X]=\sum_{i=1}^{n}x_{i}p_{i}$                                                                                                                            확률변수의 분산은 어떻게 구할까요. 분산의 정의를 생각해봅시다. 분산의 정의는 아래와 같았습니다 . “편차의 제곱의 평균” 확률변수에서는 이렇게 바꿔볼 수 있습니다.  “편차 제곱의 기댓값” 확률변수의 기댓값은 확률변수에 각 확률을 곱해서 더하는 방식으로 구했습니다. 편차제곱의 기댓값도 같은 방식으로 정의할 수 있습니다. 아래와 같습니다 ... 2024. 7. 17.
[확률과 통계 기초] 3-21. 분산과 표준편차 분산과 표준편차가 무엇인지는 중학교 수학에서 배웠습니다. 내용을 잊으신 분들을 위해 분산과 표준편차가 무엇인지 복습하겠습니다.  아래와 같은 자료가 있다고 합시다.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10 사람들은 자료를 요약하고 싶었습니다. 자료를 요약하기 위해 자료를 대표하는 값(대푯값)과 자료가 흩어진 정도(분산도)를 정의하고 싶었습니다. 가장 많이 사용되는 대푯값은 평균이고 분산도는 분산입니다.  위 자료의 평균은 아래와 같이 구합니다.  $\frac{1+2+3+4+5+6+7+8+9+10}{10}$ 자료의 흩어진 정도를 나타내기 위해 사람들이 처음 생각한 것은 편차였습니다. 편차는 (변량-평균)입니다. 각 값들이 평균에서 얼마나 떨어져 있는가를 이용해서 분산도를 정의하려고 한 것입니.. 2024. 6. 26.
[확률과 통계 기초] 3-20. 합의 시그마 기호 설명 아래와 같은 시그마 기호를 많이 보셨을겁니다.  $\sum$ 이 기호에 아직 익숙하지 않은 분들이 계실 수도 있어서 오늘은 시그마 기호를 설명드리겠습니다. 시그마 기호는 우리를 편하게 해주기 위해 고안되었습니다. 과거도 돌아가서 다른 유니버스를 산다고 해도 반드시 등장했을 기호일겁니다. 수학에서 아주 자주 사용되므로 익숙해지는 것이 좋습니다.  아래 식을 봅시다. 1부터 10까지 더하는 식입니다.  1+2+3+4+5+6+7+8+9+10 이 정도는 손으로 다 써도 힘들지 않습니다. 만약 1부터 100까지 더하는 식을 표현하고 싶다고 합시다. 어떻게 쓰실건가요? 저라면 이렇게 쓸 것 같습니다.  1+2+...+99+100 이번에는 다른 예시를 들어봅시다. 1부터 시작해서 3씩 커지는 숫자를 30개 더하고 싶.. 2024. 6. 21.
[확률과 통계 기초] 3-19. 기댓값과 평균은 같을까 다를까? 우리는 평균을 먼저 배웠습니다. 아마 초등학교 시절에 배웠던 것으로 기억합니다. 평균은 모든 값을 더해서 전체 개수로 나눈 것입니다. 고등학교에 가면 평균에 세 종류가 있다는 것을 배웁니다. 산술평균, 기하평균, 조화평균입니다. 우리가 흔히 평균이라고 말하는 것은 산술평균입니다. 본 강의에서는 편의상 산술평균을 평균이라고 부르겠습니다.  우리는 지난시간까지 기댓값이라는 것을 배웠습니다. 기댓값을 공부하며 평균과 비슷하다는 생각이 드셨을겁니다. 동전 던지기 내기를 한번 생각해봅시다. 앞면이 나오면 500원 뒷면이 나오면 1000원을 받습니다. 얼마를 기대할 수 있었나요? 750원입니다.  이번에는 다른 상황을 생각해봅시다. 두 사람 철수와 영희가 있는데 한 사람은 1000원을 가지고 있고 다른 사람은 50.. 2024. 6. 21.
[확률과 통계 기초] 3-18. 이산확률변수의 기댓값 우리가 지금까지 배운 이항분포는 이산확률변수에 속합니다. 지난시간에 배웠던 이항분포의 기댓값 개념을 이산확률변수로 확장해보겠습니다. 아래와 같은 이산확률변수 X가 있다고 합시다.  X$x_{1}$$x_{2}$...$x_{n-1}$$x_{n}$P(X)$p_{1}$$p_{2}$...$p_{n-1}$$p_{n}$ 이 이산확률변수의 기댓값을 구해봅시다. 확률변수 X의 기댓값은 아래와 같이 계산됩니다.  확률변수 X의 기댓값 = $x_{1}p_{1}+x_{2}p_{2}+\cdots+x_{n-1}p_{n-1}+x_{n}p_{n}$ 기댓값은 각 확률변수 값과 해당 확률을 곱한 후, 이를 모두 더하여 구하는 것입니다. 시그마 기호를 이용하여 아래와 같이 간단히 나타낼 수도 있습니다. 확률변수 X의 기댓값 = $\sum.. 2024. 6. 19.
[확률과 통계 기초] 3-17. 이항분포의 기댓값 지난시간에 살펴본 이항분포 예시를 다시 가져와봅시다.  어떤 농구선수가 있고 자유투 성공률이 70% 라고 합시다. 이 농구선수가 자유투를 5번 던져서 성공한 횟수를 X라고 놓겠습니다. X의 확률분포가 이항분포를 따릅니다. X의 확률분포를 구해보면 아래와 같습니다.  $p(x)=_5C_x \ (0.7)^x(0.3)^{5-x}$ 여기서 한가지 질문을 던질 수 있습니다. 이 농구선수가 자유투를 5번 던졌을 때 자유투가 몇번정도 들어갈 것이라고 기대할 수 있을 것인가? 라는 질문입니다.  이 질문에 답하기 위해 조금 더 간단한 상황을 가정해보겠습니다. 우리가 동전을 하나 던져서 앞면이 나오면 100원을, 뒷면이 나오면 500원을 받는 게임을 한다고 해봅시다. 동전을 하나 던질 때 얼마를 받을 것으로 기대할 수 .. 2024. 6. 19.
[확률과통계 기초] 3-16. 이항분포 예시 지난시간에 이항분포가 무엇인지 배웠습니다. 이항분포는 베르누이 시행을 n번 반복했을 때 성공이 나온 횟수인 x를 확률변수로 하는 분포이고, 분포함수는 아래와 같습니다.  $p(x)=_nC_x \ p^x(1-p)^{n-x}$ 이번시간에는 이항분포의 예시를 알아봅시다.  어떤 농구선수가 있고 자유투 성공률이 70% 라고 합시다. 이 농구선수가 자유투를 5번 던져서 성공한 횟수를 X라고 놓겠습니다. X의 확률분포가 이항분포를 따릅니다. X의 확률분포를 구해보면 아래와 같습니다.  $p(x)=_5C_x \ (0.7)^x(0.3)^{5-x}$ 자유투는 0번부터 5번까지 성공할 수 있습니다. 각각의 확률을 표로 나타내보면 아래와 같습니다.   값을 계산해보면 아래와 같습니다.   그래프로 그려보면 아래와 같습니다... 2024. 5. 13.
[확률과통계 기초] 3-15. 이항분포 수식 자세한 설명 이항분포는 베르누이 시행을 n번 반복했을 때 성공이 나온 횟수인 x를 확률변수로 하는 분포라는 것을 지난시간에 배웠습니다. 이항분포의 확률분포함수도 아래와 같다는 것을 배웠습니다. $p(x)=_nC_x \ p^x(1-p)^{n-x}$위 식의 유도과정을 자세히 다루지는 않았는데요. 어떻게 위 식이 유도된건지 이해하지 못한 분들이 계실 수도 있어서 이번 시간에 자세히 설명하겠습니다.  1. 예시아주 간단한 예시를 이용해서 위 식을 이해해봅시다. 주사위 던지기 예시입니다. 주사위를 한번 던져서 3이 나오는 사건을 '성공' 나머지를 '실패'라고 두겠습니다. 주사위를 한번 던지는 시행에서 성공할 확률과 실패할 확률은 아래와 같습니다. 성공확률 = $\frac{1}{6}$실패확률 = $\frac{5}{6}$주사위 .. 2024. 4. 24.
[확률과통계 기초] 3-14. 베르누이분포에서 이항분포로 시행의 결과가 성공과 실패 두가지인 시행을 베르누이 시행이라고 부릅니다. 예를 들면 동전던지기가 있습니다. 동전던지기 시행의 결과는 앞면과 뒷면 두가지입니다.   앞,뒤 앞면을 성공, 뒷면을 실패로 놓는다면 동전던지기는 베르누이시행입니다.  앞(성공),뒤(실패) 어떤 베르누이 시행의 성공 확률이 p이고 실패확률이 1-p 이라고 합시다. 이 베르누이 시행을 n번 반복한다고 합시다. 각 시행은 독립시행이라고 가정하겠습니다(독립시행이 무엇인지는 2-9강에서 배웠습니다). 베르누이 시행을 n번 반복했을 때 성공이 x번 나올 확률은 아래와 같습니다.  $_nC_x \ p^x(1-p)^{n-x}$ $_nC_x$는 n번 중 성공이 x번 나오는 경우의 수 입니다. $p^x(1-p)^{n-x}$은 성공이 x번 나오고, .. 2024. 2. 21.
[확률과통계 기초] 3-13. 이항분포 배우기 전에 베르누이분포 먼저 우리는 지난시간에 이항분포에서 '이항'이 어떤 의미인지 배웠습니다. 이항은 두개의 항이라는 뜻입니다. 이항분포가 무엇인지 배울 차례인데요. 그 전에 베르누이분포를 먼저 배우겠습니다. 이유는 다음 강의에서 알게되실겁니다.  시행과 사건 기억하시나요? 세번째 시간에 배웠던 시행, 표본공간, 사건의 정의를 가져옵시다.  시행 : 무한히 반복될 수 있고, 잘 정의된 결과 집합을 갖는 행위  표본공간 : 어떤 시행에서 발생할 수 있는 모든 결과를 모아놓은 집합  사건 : 어떤 시행의 결과들의 집합. 확률이 할당되어 있음. 표본공간의 부분집합.  시행,표본공간,사건을 쉽게 기억하는 방법은 주사위 던지기 예시로 기억하는 것입니다. 시행은 주사위던지기이고, 표본공간은 1부터6 까지의 집합이고, 사건은 짝수의 눈이 나오.. 2024. 1. 3.
[확률과통계 기초] 3-12. 이항분포에서 '이항' 이 무슨 뜻일까 이번 시간부터 이항분포를 공부할 것입니다. 확률분포는 이산확률분포와 연속확률분포로 나뉘는데, 이항분포는 이산확률분포에 속합니다.  '이항'이라는 말을 들으셨을 때 어떤 것이 떠오르셨나요? 방정식이 떠오르셨을 겁니다. 방정식에서 항을 옮기는 것을 '이항'이라고 불렀으니까요. 이항분포의 '이항'은 방정식의 '이항'과 다른 의미입니다.  방정식에서의 이항은 영어로 transposition 이고, 한자로 移項 인데 이동할 (이), 항 (항) 입니다. 이항분포에서 이항은 영어로 binomial 이고, 한자로 二項 입니다. 두개의 항이라는 뜻입니다.  따라서 이항분포를 직역하면 '두개의 항으로 된 분포'라는 뜻입니다. 두개의 항으로 된 분포라는게 어떤 의미인지는 다음시간 부터 알아봅시다.  https://www.y.. 2023. 12. 27.
[확률과통계 기초] 3-11. 우리가 배울 두가지 분포 우리는 확률분포를 배우고 있습니다. 확률분포가 두가지로 나눈다는 것도 배웠는데요. 확률분포는 이산확률분포와 연속확률분포로 나뉩니다. 이산확률분포와 연속확률분포에는 여러가지가 있습니다. 대표적인 분포들은 아래와 같습니다.  이산확률분포 : 이항분포, 기하분포, 음이항분포, 포아송분포, 초기하분포, 다항분포연속확률분포 : 균등분포, 정규분포, t분포, 카이제곱분포, F분포, 감마분포, 베타분포 뭐가 이렇게 많은건가 싶으실텐데 다 사용되는 분포입니다. 각각의 분포가 어떤 상황에 사용되는지 궁금하신 분들은 [손으로 푸는 확률분포] 강의를 들어보시면 됩니다.  이 강의는 확률과 통계 기초 강의이므로 이산확률분포와 연속확률변수 중에서 각각 하나씩만 배웁니다. 이산확률분포에서는 이항분포, 연속확률분포에서는 정규분포를.. 2023. 12. 20.
오즈비 95% 신뢰구간 직접 구하는 방법 이 글의 목적은 오즈비의 의미를 설명하는 것이 아니라 계산하는 방법을 설명하는데 있습니다. 아래와 같은 분할표가 있다고 합시다. disease non-disease exposed a b non-exposed c d 오즈비는 아래와 같이 계산됩니다. $OR=\frac{a/b}{c/d}$ 오즈비의 신뢰구간을 구하기 정규분포를 가정해야합니다. 먼저 로그오즈비를 아래와 같이 정의합니다. 오즈비에 로그를 씌운 형태입니다. $L=\log\left ( \frac{a/b}{c/d} \right )$ 로그오즈비가 근사적으로 정규분포를 따른다고 가정합니다. 이때 표준오차는 아래와 같이 근사적으로 계산됩니다. $SE=\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}$ 로그오즈.. 2023. 12. 15.
[손으로 푸는 카이제곱검정] 1. 프롤로그 이 강의는 카이제곱검정에 대한 강의입니다. 카이제곱 검정의 원리를 수학적으로 자세하게 이해하는 것이 목적입니다. 카이제곱검정이 언제 사용되는지 알아볼건데요. 먼저 질문을 하나 던지겠습니다. 30대 남자와 여자의 흡연율에 차이가 있는지 알아보고 싶다면 어떻게 해야 할까요? 30대 남자 집단과 30대 여자 집단 전체를 조사하고 흡연율을 비교하는 것이 가장 정확한 방법일 것입니다. 하지만 아직까지 전수조사는 쉽지 않습니다. 기술적으로는 거의 가능해보이지만 시행하는 것은 또다른 문제 같습니다. 한달에 한번 의무적으로 조사에 참여하도록 하는 법이 생기면 가능할 수도 있겠습니다. 아무튼 전수조사는 어렵기 때문에 표본을 뽑습니다. 표본도 잘 뽑아야 됩니다. 남자 표본은 흡연실에서 뽑고, 여자 표본은 임산부 중에서 뽑.. 2023. 12. 14.
[확률과통계 기초] 3-10. P[X=x] 와 p(x)의 차이 확률변수 X의 확률질량함수의 정의는 아래와 같습니다. $P\left [ X=x_{i} \right ]=p_{i} \ \ (i=1,2,...,n)$ 위 식의 좌변에서 P[ ] 는 대괄호 안의 사건이 발생할 확률을 나타냅니다. 좌변은 $X=x_{i}$ 일 확률이라는 뜻입니다. 예를 들어봅시다. 주사위를 한번 던질 때 나오는 눈의 값을 확률변수 X라고 한다면, X의 확률질량함수는 아래와 같습니다. $P\left [ X=x \right ]=\frac{1}{6} \ \ (x=1,2,...,6)$ 위와 같은 표현을 더 간단히 나타낼 수 있습니다. 함수이름를 사용하는 것입니다. 함수 이름은 원하는 것을 사용하면 되는데 주로 p나 f를 사용합니다. 확률변수 X의 확률질량함수를 p(x)라고 한다면, p(x)의 의미는 '.. 2023. 12. 8.
[확률과통계 기초] 3-9. 확률질량함수의 성질 이산확률변수 X의 확률질량함수는 아래와 같습니다. $P\left [ X=x_{i} \right ]=p_{i} \ \ (i=1,2,...,n)$ 이번시간에는 확률질량함수의 세가지 성질을 알아봅시다. 확률은 0이상 1이하의 값을 가지므로 아래와 같은 조건이 성립합니다. (1) $0\leq p_{i} \leq 1$ 각 사건이 발생할 확률의 총 합은 1이므로 아래 조건이 성립합니다. (2) $p_{1}+p_{2}+\cdots+p_{n}=1$ 이번에는 확률변수 X가 어떤 범위 내에 있을 확률을 구해봅시다. X가 $x_{3}$이상이고 $x_{5}$이하일 확률은 아래와 같습니다. $P\left [ x_{3}\leq X\leq x_{5} \right ]=p_{3}+p_{4}+p_{5}$ 위 식을 일반화시키면 아래와 같.. 2023. 11. 15.
[확률과통계 기초] 3-8. 확률질량함수 (이산확률변수의 확률함수) 우리는 확률변수가 둘로 나뉜다는 것을 배웠습니다. 확률변수는 이산확률변수와 연속확률변수 두 가지로 구분됩니다. 이산확률변수는 확률변수 각각이 확률값을 갖습니다. 연속확률변수는 어떤 구간의 확률만 정의가 가능했습니다. 이산확률변수와 연속확률변수의 확률함수는 정의가 다릅니다. 이산확률변수의 확률함수는 확률질량함수이고 연속확률변수의 확률함수는 확률밀도함수입니다. 이번 시간에는 이산확률변수의 확률함수인 확률질량함수에 대해 배워봅시다. 간단한 예시를 통해 확률질량함수가 무엇인지 알아봅시다. 주사위를 한번 던져서 나오는 눈의 수를 확률변수 X라고 놓으면 X는 이산확률변수입니다. 확률함수는 확률변수를 확률과 대응시킨 것을 말합니다. 확률변수 X의 확률함수는 표로 나타낼 수도 있고 그래프로 나타낼 수도 있습니다. 먼저.. 2023. 11. 15.
마르코브 연쇄 쉽게 이해하기 마르코브 연쇄 예시 마르코브 연쇄와 관련된 간단한 예시를 먼저 살펴봅시다. 날씨가 두가지만 있는 세상에 살고 있다고 합시다. 맑은날(S)과 비오는날(R) 두가지만 있습니다. 확률은 아래와 같이 정의됩니다. 맑은 날 다음날 맑을 확률 = 0.9 맑은 날 다음날 비올 확률 = 0.1 비온 다음 날 맑을 확률 = 0.6 비온 다음 날 비올 확률 = 0.4 오늘 비가 왔다면, 내일 맑을 확률과 비올 확률은 0.6과 0.4입니다. 어제 날씨가 어떠했건 상관없이, 그 전날 날씨가 어떠했건 상관 없이 오늘 날씨에 따라 내일 날씨의 확률이 결정됩니다. 이러한 성질을 마르코브 연쇄라고 부릅니다. 마르코브 연쇄란? 마르코브 연쇄의 정의는 아래와 같습니다. 마르코브 연쇄 : 미래 상태의 확률분포가 과거 상태와는 독립적으로 .. 2023. 11. 9.
자기회귀모델 (Autoregressive model) 쉽게 이해하기 자기회귀모델이 무엇인지 배워봅시다. 영어로는 Autoregressive model 입니다. Auto+regressive model 입니다. regressive model 은 회귀모델인데 auto 는 무슨 뜻일까요? 자동이라고 해석하면 의미가 이상해집니다. auto 에는 ‘스스로’라는 의미가 있습니다. 여기서 auto 는 스스로라는 뜻입니다. 자귀회귀모델에는 회귀모델이라는 말이 들어 있습니다. 회귀모델가 뭔가 비슷해서 겠죠? 회귀모델은 독립변수들의 선형조합으로 종속변수를 예측합니다. 자기회귀모델에서는 다른 변수들이 아닌 자기자신으로 자기자신을 예측합니다. 이것이 어떻게 가능할까요? 자기 자신의 과거를 이용하면 가능합니다. 과거 값을 이용하여 특정 시점 t의 값을 에측하는 모델이 자기회귀모델입니다. 자기회귀.. 2023. 11. 6.
다중공선성 확인하는 방법 (분산팽창요인 VIF) 다중공선성이란? 독립변수들로 종속변수를 예측하고 싶은 상황입니다. 회귀분석을 이용할 겁니다. 독립변수는 X1,X2,X3가 있다고 합시다. 이때 독립변수 X1이 X2와 X3로 설명이 가능한 경우를 다중공선성이라고 합니다. 설명이 가능하다는 것을 연관성이 크다로 이해해도 됩니다. 다중공선성의 문제 다중공선성이 있을 경우 모형이 좋은데도 불구하고 유의한 독립변수가 없게 나올 수 있습니다. 모형이 좋다는 것은 결정계수값이 높다는 것입니다. 이런 이유로 다중공선성 문제는 해결해주어야 합니다. 다중공선성 진단 방법 1) 위에서 언급했듯 결정계수가 높은데도 유의한 독립변수가 없는지 확인함 2) 변수들 간의 산점도를 그려보고 상관계수를 계산함 3) 분산팽창요인 (Variance Inflation Factor, VIF).. 2023. 10. 30.
표준화 회귀계수가 뭔가요? 독립변수 X1,X2,X3 를 사용하고 종속변수 Y를 사용하여 다중회귀분석을 했다고 합시다. 다중 회귀분석 결과는 아래와 같습니다. $Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}$ 위 식에서 베타들을 회귀계수라고 부릅니다. 값을 한번 넣어봅시다. $Y=2+10X_{1}+2X_{2}+5X_{3}$ 여기서 계수가 가장 큰 X_{1}의 영향이 가장 크다고 잘못 해석할 소지가 생깁니다. $X_{1}$이 1만큼 증가했을 때 Y의 변화가 가장 크기 때문입니다. 그런데 만약 $X_{1}$이 몸무게이고 단위가 톤이라고 해봅시다. 몸무게가 1톤씩 차이날 일은 없으므로 1만큼 증가할 수가 없습니다. $X_{1}$은 아주 작은 값 만큼씩 변할 것입니다. 만약 몸무게의 .. 2023. 10. 25.
반응형