Processing math: 100%
본문 바로가기
반응형

전체 글648

[확률과 통계 기초] 3-21. 분산과 표준편차 분산과 표준편차가 무엇인지는 중학교 수학에서 배웠습니다. 내용을 잊으신 분들을 위해 분산과 표준편차가 무엇인지 복습하겠습니다.  아래와 같은 자료가 있다고 합시다.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10 사람들은 자료를 요약하고 싶었습니다. 자료를 요약하기 위해 자료를 대표하는 값(대푯값)과 자료가 흩어진 정도(분산도)를 정의하고 싶었습니다. 가장 많이 사용되는 대푯값은 평균이고 분산도는 분산입니다.  위 자료의 평균은 아래와 같이 구합니다.  1+2+3+4+5+6+7+8+9+1010 자료의 흩어진 정도를 나타내기 위해 사람들이 처음 생각한 것은 편차였습니다. 편차는 (변량-평균)입니다. 각 값들이 평균에서 얼마나 떨어져 있는가를 이용해서 분산도를 정의하려고 한 것입니.. 2024. 6. 26.
[확률과 통계 기초] 3-20. 합의 시그마 기호 설명 아래와 같은 시그마 기호를 많이 보셨을겁니다.   이 기호에 아직 익숙하지 않은 분들이 계실 수도 있어서 오늘은 시그마 기호를 설명드리겠습니다. 시그마 기호는 우리를 편하게 해주기 위해 고안되었습니다. 과거도 돌아가서 다른 유니버스를 산다고 해도 반드시 등장했을 기호일겁니다. 수학에서 아주 자주 사용되므로 익숙해지는 것이 좋습니다.  아래 식을 봅시다. 1부터 10까지 더하는 식입니다.  1+2+3+4+5+6+7+8+9+10 이 정도는 손으로 다 써도 힘들지 않습니다. 만약 1부터 100까지 더하는 식을 표현하고 싶다고 합시다. 어떻게 쓰실건가요? 저라면 이렇게 쓸 것 같습니다.  1+2+...+99+100 이번에는 다른 예시를 들어봅시다. 1부터 시작해서 3씩 커지는 숫자를 30개 더하고 싶.. 2024. 6. 21.
[확률과 통계 기초] 3-19. 기댓값과 평균은 같을까 다를까? 우리는 평균을 먼저 배웠습니다. 아마 초등학교 시절에 배웠던 것으로 기억합니다. 평균은 모든 값을 더해서 전체 개수로 나눈 것입니다. 고등학교에 가면 평균에 세 종류가 있다는 것을 배웁니다. 산술평균, 기하평균, 조화평균입니다. 우리가 흔히 평균이라고 말하는 것은 산술평균입니다. 본 강의에서는 편의상 산술평균을 평균이라고 부르겠습니다.  우리는 지난시간까지 기댓값이라는 것을 배웠습니다. 기댓값을 공부하며 평균과 비슷하다는 생각이 드셨을겁니다. 동전 던지기 내기를 한번 생각해봅시다. 앞면이 나오면 500원 뒷면이 나오면 1000원을 받습니다. 얼마를 기대할 수 있었나요? 750원입니다.  이번에는 다른 상황을 생각해봅시다. 두 사람 철수와 영희가 있는데 한 사람은 1000원을 가지고 있고 다른 사람은 50.. 2024. 6. 21.
[확률과 통계 기초] 3-18. 이산확률변수의 기댓값 우리가 지금까지 배운 이항분포는 이산확률변수에 속합니다. 지난시간에 배웠던 이항분포의 기댓값 개념을 이산확률변수로 확장해보겠습니다. 아래와 같은 이산확률변수 X가 있다고 합시다.  Xx1x2...xn1xnP(X)p1p2...pn1pn 이 이산확률변수의 기댓값을 구해봅시다. 확률변수 X의 기댓값은 아래와 같이 계산됩니다.  확률변수 X의 기댓값 = x1p1+x2p2++xn1pn1+xnpn 기댓값은 각 확률변수 값과 해당 확률을 곱한 후, 이를 모두 더하여 구하는 것입니다. 시그마 기호를 이용하여 아래와 같이 간단히 나타낼 수도 있습니다. 확률변수 X의 기댓값 = $\sum.. 2024. 6. 19.
[확률과 통계 기초] 3-17. 이항분포의 기댓값 지난시간에 살펴본 이항분포 예시를 다시 가져와봅시다.  어떤 농구선수가 있고 자유투 성공률이 70% 라고 합시다. 이 농구선수가 자유투를 5번 던져서 성공한 횟수를 X라고 놓겠습니다. X의 확률분포가 이항분포를 따릅니다. X의 확률분포를 구해보면 아래와 같습니다.  p(x)=5Cx (0.7)x(0.3)5x 여기서 한가지 질문을 던질 수 있습니다. 이 농구선수가 자유투를 5번 던졌을 때 자유투가 몇번정도 들어갈 것이라고 기대할 수 있을 것인가? 라는 질문입니다.  이 질문에 답하기 위해 조금 더 간단한 상황을 가정해보겠습니다. 우리가 동전을 하나 던져서 앞면이 나오면 100원을, 뒷면이 나오면 500원을 받는 게임을 한다고 해봅시다. 동전을 하나 던질 때 얼마를 받을 것으로 기대할 수 .. 2024. 6. 19.
[확률과통계 기초] 3-16. 이항분포 예시 지난시간에 이항분포가 무엇인지 배웠습니다. 이항분포는 베르누이 시행을 n번 반복했을 때 성공이 나온 횟수인 x를 확률변수로 하는 분포이고, 분포함수는 아래와 같습니다.  p(x)=nCx px(1p)nx 이번시간에는 이항분포의 예시를 알아봅시다.  어떤 농구선수가 있고 자유투 성공률이 70% 라고 합시다. 이 농구선수가 자유투를 5번 던져서 성공한 횟수를 X라고 놓겠습니다. X의 확률분포가 이항분포를 따릅니다. X의 확률분포를 구해보면 아래와 같습니다.  p(x)=5Cx (0.7)x(0.3)5x 자유투는 0번부터 5번까지 성공할 수 있습니다. 각각의 확률을 표로 나타내보면 아래와 같습니다.   값을 계산해보면 아래와 같습니다.   그래프로 그려보면 아래와 같습니다... 2024. 5. 13.
[확률과통계 기초] 3-15. 이항분포 수식 자세한 설명 이항분포는 베르누이 시행을 n번 반복했을 때 성공이 나온 횟수인 x를 확률변수로 하는 분포라는 것을 지난시간에 배웠습니다. 이항분포의 확률분포함수도 아래와 같다는 것을 배웠습니다. p(x)=nCx px(1p)nx위 식의 유도과정을 자세히 다루지는 않았는데요. 어떻게 위 식이 유도된건지 이해하지 못한 분들이 계실 수도 있어서 이번 시간에 자세히 설명하겠습니다.  1. 예시아주 간단한 예시를 이용해서 위 식을 이해해봅시다. 주사위 던지기 예시입니다. 주사위를 한번 던져서 3이 나오는 사건을 '성공' 나머지를 '실패'라고 두겠습니다. 주사위를 한번 던지는 시행에서 성공할 확률과 실패할 확률은 아래와 같습니다. 성공확률 = 16실패확률 = 56주사위 .. 2024. 4. 24.
[확률과통계 기초] 3-14. 베르누이분포에서 이항분포로 시행의 결과가 성공과 실패 두가지인 시행을 베르누이 시행이라고 부릅니다. 예를 들면 동전던지기가 있습니다. 동전던지기 시행의 결과는 앞면과 뒷면 두가지입니다.   앞,뒤 앞면을 성공, 뒷면을 실패로 놓는다면 동전던지기는 베르누이시행입니다.  앞(성공),뒤(실패) 어떤 베르누이 시행의 성공 확률이 p이고 실패확률이 1-p 이라고 합시다. 이 베르누이 시행을 n번 반복한다고 합시다. 각 시행은 독립시행이라고 가정하겠습니다(독립시행이 무엇인지는 2-9강에서 배웠습니다). 베르누이 시행을 n번 반복했을 때 성공이 x번 나올 확률은 아래와 같습니다.  nCx px(1p)nx nCx는 n번 중 성공이 x번 나오는 경우의 수 입니다. px(1p)nx은 성공이 x번 나오고, .. 2024. 2. 21.
[확률과통계 기초] 3-13. 이항분포 배우기 전에 베르누이분포 먼저 우리는 지난시간에 이항분포에서 '이항'이 어떤 의미인지 배웠습니다. 이항은 두개의 항이라는 뜻입니다. 이항분포가 무엇인지 배울 차례인데요. 그 전에 베르누이분포를 먼저 배우겠습니다. 이유는 다음 강의에서 알게되실겁니다.  시행과 사건 기억하시나요? 세번째 시간에 배웠던 시행, 표본공간, 사건의 정의를 가져옵시다.  시행 : 무한히 반복될 수 있고, 잘 정의된 결과 집합을 갖는 행위  표본공간 : 어떤 시행에서 발생할 수 있는 모든 결과를 모아놓은 집합  사건 : 어떤 시행의 결과들의 집합. 확률이 할당되어 있음. 표본공간의 부분집합.  시행,표본공간,사건을 쉽게 기억하는 방법은 주사위 던지기 예시로 기억하는 것입니다. 시행은 주사위던지기이고, 표본공간은 1부터6 까지의 집합이고, 사건은 짝수의 눈이 나오.. 2024. 1. 3.
[확률과통계 기초] 3-12. 이항분포에서 '이항' 이 무슨 뜻일까 이번 시간부터 이항분포를 공부할 것입니다. 확률분포는 이산확률분포와 연속확률분포로 나뉘는데, 이항분포는 이산확률분포에 속합니다.  '이항'이라는 말을 들으셨을 때 어떤 것이 떠오르셨나요? 방정식이 떠오르셨을 겁니다. 방정식에서 항을 옮기는 것을 '이항'이라고 불렀으니까요. 이항분포의 '이항'은 방정식의 '이항'과 다른 의미입니다.  방정식에서의 이항은 영어로 transposition 이고, 한자로 移項 인데 이동할 (이), 항 (항) 입니다. 이항분포에서 이항은 영어로 binomial 이고, 한자로 二項 입니다. 두개의 항이라는 뜻입니다.  따라서 이항분포를 직역하면 '두개의 항으로 된 분포'라는 뜻입니다. 두개의 항으로 된 분포라는게 어떤 의미인지는 다음시간 부터 알아봅시다.  https://www.y.. 2023. 12. 27.
[확률과통계 기초] 3-11. 우리가 배울 두가지 분포 우리는 확률분포를 배우고 있습니다. 확률분포가 두가지로 나눈다는 것도 배웠는데요. 확률분포는 이산확률분포와 연속확률분포로 나뉩니다. 이산확률분포와 연속확률분포에는 여러가지가 있습니다. 대표적인 분포들은 아래와 같습니다.  이산확률분포 : 이항분포, 기하분포, 음이항분포, 포아송분포, 초기하분포, 다항분포연속확률분포 : 균등분포, 정규분포, t분포, 카이제곱분포, F분포, 감마분포, 베타분포 뭐가 이렇게 많은건가 싶으실텐데 다 사용되는 분포입니다. 각각의 분포가 어떤 상황에 사용되는지 궁금하신 분들은 [손으로 푸는 확률분포] 강의를 들어보시면 됩니다.  이 강의는 확률과 통계 기초 강의이므로 이산확률분포와 연속확률변수 중에서 각각 하나씩만 배웁니다. 이산확률분포에서는 이항분포, 연속확률분포에서는 정규분포를.. 2023. 12. 20.
오즈비 95% 신뢰구간 직접 구하는 방법 이 글의 목적은 오즈비의 의미를 설명하는 것이 아니라 계산하는 방법을 설명하는데 있습니다. 아래와 같은 분할표가 있다고 합시다. disease non-disease exposed a b non-exposed c d 오즈비는 아래와 같이 계산됩니다. OR=a/bc/d 오즈비의 신뢰구간을 구하기 정규분포를 가정해야합니다. 먼저 로그오즈비를 아래와 같이 정의합니다. 오즈비에 로그를 씌운 형태입니다. L=log(a/bc/d) 로그오즈비가 근사적으로 정규분포를 따른다고 가정합니다. 이때 표준오차는 아래와 같이 근사적으로 계산됩니다. SE=1a+1b+1c+1d 로그오즈.. 2023. 12. 15.
[손으로 푸는 카이제곱검정] 1. 프롤로그 이 강의는 카이제곱검정에 대한 강의입니다. 카이제곱 검정의 원리를 수학적으로 자세하게 이해하는 것이 목적입니다. 카이제곱검정이 언제 사용되는지 알아볼건데요. 먼저 질문을 하나 던지겠습니다. 30대 남자와 여자의 흡연율에 차이가 있는지 알아보고 싶다면 어떻게 해야 할까요? 30대 남자 집단과 30대 여자 집단 전체를 조사하고 흡연율을 비교하는 것이 가장 정확한 방법일 것입니다. 하지만 아직까지 전수조사는 쉽지 않습니다. 기술적으로는 거의 가능해보이지만 시행하는 것은 또다른 문제 같습니다. 한달에 한번 의무적으로 조사에 참여하도록 하는 법이 생기면 가능할 수도 있겠습니다. 아무튼 전수조사는 어렵기 때문에 표본을 뽑습니다. 표본도 잘 뽑아야 됩니다. 남자 표본은 흡연실에서 뽑고, 여자 표본은 임산부 중에서 뽑.. 2023. 12. 14.
[확률과통계 기초] 3-10. P[X=x] 와 p(x)의 차이 확률변수 X의 확률질량함수의 정의는 아래와 같습니다. P[X=xi]=pi  (i=1,2,...,n) 위 식의 좌변에서 P[ ] 는 대괄호 안의 사건이 발생할 확률을 나타냅니다. 좌변은 X=xi 일 확률이라는 뜻입니다. 예를 들어봅시다. 주사위를 한번 던질 때 나오는 눈의 값을 확률변수 X라고 한다면, X의 확률질량함수는 아래와 같습니다. P[X=x]=16  (x=1,2,...,6) 위와 같은 표현을 더 간단히 나타낼 수 있습니다. 함수이름를 사용하는 것입니다. 함수 이름은 원하는 것을 사용하면 되는데 주로 p나 f를 사용합니다. 확률변수 X의 확률질량함수를 p(x)라고 한다면, p(x)의 의미는 '.. 2023. 12. 8.
[확률과통계 기초] 3-9. 확률질량함수의 성질 이산확률변수 X의 확률질량함수는 아래와 같습니다. P[X=xi]=pi  (i=1,2,...,n) 이번시간에는 확률질량함수의 세가지 성질을 알아봅시다. 확률은 0이상 1이하의 값을 가지므로 아래와 같은 조건이 성립합니다. (1) 0pi1 각 사건이 발생할 확률의 총 합은 1이므로 아래 조건이 성립합니다. (2) p1+p2++pn=1 이번에는 확률변수 X가 어떤 범위 내에 있을 확률을 구해봅시다. X가 x3이상이고 x5이하일 확률은 아래와 같습니다. P[x3Xx5]=p3+p4+p5 위 식을 일반화시키면 아래와 같.. 2023. 11. 15.
반응형