본문 바로가기
반응형

통계 기초20

[확률과 통계 기초] 3-32. 누적분포함수를 미분해보았다 우리는 연속확률변수에서 ‘가능성’이라고 부르는 어떤 것의 정체를 밝혀내는 중입니다. 이를 이해하기 위해 아래 예시를 다시 봅시다. 먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 약을 먹고 나서 각 몸무게로 변할 가능성은 동일합니다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 합시다. 이 상황을 나타낸 그래프도 그려보았지만, 우리가 말하는 '가능성'이 무엇인지 이해할 수 없었습니다 .  사람들은 누적분포함수를 미분해 보는 방법을 선택했습니다. 위 예시의 누적분포함수는 다움과 같습니다. $$ F(x)=P[X \leq x]=\frac{x-60}{40} \ \ (60\leq x \leq 100) $$ 이 함수를 미분한 결과를 f(x)라고 놓으면 다음과 같습니다.  $$ f(x)=\f.. 2024. 11. 28.
[확률과 통계 기초] 3-29. 누적분포 함수 익숙해지기 지난시간에 배운 누적분포함수의 정의를 복습해봅시다. 구간이 $a\leq X \leq b$ 인 확률변수가 있다고 합시다. 확률변수 X가 각 값이 될 가능성은 동일하다고 가정하겠습니다. 확률변수 X의 누적분포함수는 아래와 같습니다. $$ F(x)=P[X \leq x]=\frac{x-a}{b-a} \ \ (a\leq x \leq b) $$ 오늘은 이 누적분포함수에 익숙해지는 시간을 갖겠습니다. 우리가 계속 사용하던 예시를 다시 살펴보겠습니다. 먹으면 몸무게가 랜덤하게 60~100kg 사이로 변하는 약이 있다고 합시다. 약을 먹고 나서 각 몸무게로 변할 가능성은 동일합니다. 약을 먹은 뒤의 몸무게를 확률변수 X라고 합시다. 확률변수 X의 누적분포 함수는 아래와 같습니다. $$ F(x)=P[X \leq x]=\f.. 2024. 11. 14.
[확률과 통계 기초] 3-28. 연속확률변수의 누적분포함수 연속확률변수에서는 구간의 확률만 정의할 수 있고 개별 값에 대한 확률은 정의되지 않았습니다. 개별 값의 확률이 0이기 때문입니다. 그럼 연속확률변수에서는 확률과 관련된 함수를 정의할 수 없는걸까요. 연속확률변수에서 구간의 확률을 정의할 수 있다는 성질을 이용하면 함수를 정의할 수 있습니다. 지난시간에 사용하던 예시를 가져옵시다. 먹으면 몸무게가 랜덤하게 60~100kg 으로 바뀌는 약이 있다고 합시다. 각 몸무게가 될 가능성은 동일합니다. 이때 약을 먹고 몸무게가 60이상 $x$ 이하가 될 확률을 정의할 수 있습니다. $$P[60 \leq X \leq x]$$ 확률은 얼마일까요? 위 구간의 길이인 $x-60$ 을 전체 길이인 40으로 나눠주면 됩니다. 아래와 같습니다. $$P[60 \leq X \leq .. 2024. 11. 4.
[확률과 통계 기초] 3-26. 연속확률변수에서는 확률이 정의되지 않는 이유 우리는 지난시간에 연속확률변수를 배웠습니다. 연속확률변수는 3-5강에서 이미 한번 배웠었는데요. 시간이 많이 지났기 때문에 지난 강의에서 한번 더 복습을 했습니다.  오늘은 연속확률변수에서 각 원소의 확률이 정의되지 않는다는 내용을 배워볼겁니다. 그전에 이산확률변수의 확률분포를 하나 살펴보겠습니다.  이산확률변수에 속하는 이항분포를 배웠던 기억을 떠올려 봅시다. 자유투 성공률이 70%인 농구선수가 자유투를 5번 던졌을 때 성공한 횟수를 X로 놓을 때, 확률함수는 아래와 같았습니다.  $p(x)=_5C_x \ (0.7)^x(0.3)^{5-x}$ 확률함수를 구해놓으면 원하는 확률변수의 확률을 쉽게 구할 수 있습니다. X에 궁금한 값을 대입하면 확률이 구해집니다.  연속확률변수에도 이런 확률함수를 구할 수 있.. 2024. 8. 23.
[확률과 통계 기초] 3-25. 연속확률변수 복습 지금까지 우리는 이산확률변수를 배웠습니다.  이산확률변수는 셀 수 있는 확률변수였습니다. 동전을 던져서 나오는 앞면의 수도, 들어간 자유투 개수도 셀 수 있습니다. 하나, 둘, 셋 이렇게 번호를 붙여서 셀 수가 있습니다.  확률변수가 하나 더 있었는데요. 연속확률변수입니다. 앞으로는 연속확률변수에 대해서 배워볼겁니다. 연속확률변수는 셀 수 없는 확률변수입니다. 번호 붙여서 셀 수 없다는 뜻인데요. 예를 한번 들어보겠습니다.  어떤 약이 있습니다. 먹으면 40~100kg 사이의 몸무게로 랜덤하게 바뀌는 약입니다. 각 몸무게가 될 확률은 동일합니다.  여기서 40~100은 40이상 100이하의 '실수'를 의미합니다.  이 약을 먹었을 때 변하는 몸무게를 확률변수 X라고 놓겠습니다. 확률변수 X를 셀 수 있나.. 2024. 8. 12.
[확률과 통계 기초] 3-24. 자료의 분산 vs 확률변수의 분산 우리는 두가지 분산을 배웠습니다.  자료의 분산과 확률변수의 분산입니다. 오늘은 두 분산을 비교해보겠습니다.  자료의 분산은 중학교 수학에서 처음 등장합니다. 우리는 3-21강에서 다뤘습니다. 자료를 예를 들면 아래와 같습니다. {174,177,183,165,157} 다섯 사람의 키 입니다. 다섯사람 키의 평균은 171.4입니다. 분산은 아래와 같이 구할 수 있습니다.  $\frac{(174-171.4)^2+(177-171.4)^2+(183-171.4)^2+(165-171.4)^2+(157-171.4)^2}{5}$ 일반화 시켜봅시다. 아래와 같이 원소 개수가 n개인 자료가 있습니다.  $\left \{ x_{1},x_{2},...,x_{n} \right \}$ 이 자료의 평균을 m이라고 놓으면 분산은 아.. 2024. 7. 29.
[확률과 통계 기초] 3-22. 확률변수의 분산과 표준편차 아래와 같은 확률변수 X가 있다고 합시다.  이 확률변수의 기댓값은 아래와 같이 구합니다.  $E[X]=\sum_{i=1}^{n}x_{i}p_{i}$                                                                                                                            확률변수의 분산은 어떻게 구할까요. 분산의 정의를 생각해봅시다. 분산의 정의는 아래와 같았습니다 . “편차의 제곱의 평균” 확률변수에서는 이렇게 바꿔볼 수 있습니다.  “편차 제곱의 기댓값” 확률변수의 기댓값은 확률변수에 각 확률을 곱해서 더하는 방식으로 구했습니다. 편차제곱의 기댓값도 같은 방식으로 정의할 수 있습니다. 아래와 같습니다 ... 2024. 7. 17.
[확률과 통계 기초] 3-21. 분산과 표준편차 분산과 표준편차가 무엇인지는 중학교 수학에서 배웠습니다. 내용을 잊으신 분들을 위해 분산과 표준편차가 무엇인지 복습하겠습니다.  아래와 같은 자료가 있다고 합시다.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10 사람들은 자료를 요약하고 싶었습니다. 자료를 요약하기 위해 자료를 대표하는 값(대푯값)과 자료가 흩어진 정도(분산도)를 정의하고 싶었습니다. 가장 많이 사용되는 대푯값은 평균이고 분산도는 분산입니다.  위 자료의 평균은 아래와 같이 구합니다.  $\frac{1+2+3+4+5+6+7+8+9+10}{10}$ 자료의 흩어진 정도를 나타내기 위해 사람들이 처음 생각한 것은 편차였습니다. 편차는 (변량-평균)입니다. 각 값들이 평균에서 얼마나 떨어져 있는가를 이용해서 분산도를 정의하려고 한 것입니.. 2024. 6. 26.
[확률과 통계 기초] 3-20. 합의 시그마 기호 설명 아래와 같은 시그마 기호를 많이 보셨을겁니다.  $\sum$ 이 기호에 아직 익숙하지 않은 분들이 계실 수도 있어서 오늘은 시그마 기호를 설명드리겠습니다. 시그마 기호는 우리를 편하게 해주기 위해 고안되었습니다. 과거도 돌아가서 다른 유니버스를 산다고 해도 반드시 등장했을 기호일겁니다. 수학에서 아주 자주 사용되므로 익숙해지는 것이 좋습니다.  아래 식을 봅시다. 1부터 10까지 더하는 식입니다.  1+2+3+4+5+6+7+8+9+10 이 정도는 손으로 다 써도 힘들지 않습니다. 만약 1부터 100까지 더하는 식을 표현하고 싶다고 합시다. 어떻게 쓰실건가요? 저라면 이렇게 쓸 것 같습니다.  1+2+...+99+100 이번에는 다른 예시를 들어봅시다. 1부터 시작해서 3씩 커지는 숫자를 30개 더하고 싶.. 2024. 6. 21.
[확률과통계 기초] 3-13. 이항분포 배우기 전에 베르누이분포 먼저 우리는 지난시간에 이항분포에서 '이항'이 어떤 의미인지 배웠습니다. 이항은 두개의 항이라는 뜻입니다. 이항분포가 무엇인지 배울 차례인데요. 그 전에 베르누이분포를 먼저 배우겠습니다. 이유는 다음 강의에서 알게되실겁니다.  시행과 사건 기억하시나요? 세번째 시간에 배웠던 시행, 표본공간, 사건의 정의를 가져옵시다.  시행 : 무한히 반복될 수 있고, 잘 정의된 결과 집합을 갖는 행위  표본공간 : 어떤 시행에서 발생할 수 있는 모든 결과를 모아놓은 집합  사건 : 어떤 시행의 결과들의 집합. 확률이 할당되어 있음. 표본공간의 부분집합.  시행,표본공간,사건을 쉽게 기억하는 방법은 주사위 던지기 예시로 기억하는 것입니다. 시행은 주사위던지기이고, 표본공간은 1부터6 까지의 집합이고, 사건은 짝수의 눈이 나오.. 2024. 1. 3.
[확률과통계 기초] 3-10. P[X=x] 와 p(x)의 차이 확률변수 X의 확률질량함수의 정의는 아래와 같습니다. $P\left [ X=x_{i} \right ]=p_{i} \ \ (i=1,2,...,n)$ 위 식의 좌변에서 P[ ] 는 대괄호 안의 사건이 발생할 확률을 나타냅니다. 좌변은 $X=x_{i}$ 일 확률이라는 뜻입니다. 예를 들어봅시다. 주사위를 한번 던질 때 나오는 눈의 값을 확률변수 X라고 한다면, X의 확률질량함수는 아래와 같습니다. $P\left [ X=x \right ]=\frac{1}{6} \ \ (x=1,2,...,6)$ 위와 같은 표현을 더 간단히 나타낼 수 있습니다. 함수이름를 사용하는 것입니다. 함수 이름은 원하는 것을 사용하면 되는데 주로 p나 f를 사용합니다. 확률변수 X의 확률질량함수를 p(x)라고 한다면, p(x)의 의미는 '.. 2023. 12. 8.
[확률과통계 기초] 3-7. 연속확률변수에서 확률이 정의되지 않는 이유 이산확률변수에서는 변수가 가질 수 있는 값의 개수가 무한한데도 변수가 어떤 값을 가질 확률이 정의되는 경우가 있었습니다. 아래와 같이 확률변수가 커지면 확률이 0으로 수렴하는 경우가 대표적인 예시입니다. $P\left [ X=x \right ]=\left ( \frac{1}{2} \right )^x$ 연속확률변수도 확률변수가 가질 수 있는 값의 개수가 무한합니다. 이산확률변수와 달리 연속확률변수에서는 확률변수가 어떤 값을 가질 확률이 확률이 항상 정의되지 않습니다. 왜 그런지 같이 생각해봅시다. 연속확률변수가 확률을 갖는다고 가정하고 아래와 같은 그래프를 그려봅시다. 양 끝 값은 0이라고 합시다. 구간 안에 있는 값들이 발생할 확률이 0이 아닌 어떤 구간을 하나 정의합시다. 이 구간의 발생 확률의 최솟값.. 2023. 8. 4.
[확률과통계 기초] 3-3. 확률함수와 확률분포 우리가 계속 사용하고 있는 동전 두개 던지는 예시를 가져옵시다. 동전을 두개 던져서 앞면이 나오는 횟수를 확률변수로 놓을 수 있었습니다. 확률변수를 X로 놓으면 X가 가질 수 있는 값은 아래와 같습니다. X={0,1,2} 확률변수 X가 각 값을 가질 확률은 아래와 같습니다. $P[X=0]=\frac{1}{4}$ $P[X=1]=\frac{1}{2}$ $P[X=2]=\frac{1}{4}$ 확률변수 X가 가질 수 있는 값들과, 각 값을 가질 확률 사이에 대응관계가 존재합니다. 이 대응관계를 표로 나타내면 아래와 같습니다. X 0 1 2 합계 $P[X=x]$ $\frac{1}{4}$ $\frac{1}{2}$ $\frac{1}{4}$ 1 이와 같은 대응관계를 '확률분포'라고 부릅니다. 이 대응관계를 p(x)라는 .. 2023. 7. 2.
[확률과통계 기초] 2-7. 사건의 독립 예시 사건의 독립과 관련된 예제를 두가지 풀어봅시다. 예제1. 주사위를 던질 때 2 이하의 눈이 나오는 사건을 A, 짝수의 눈이 나오는 사건을 B라고 하자. 사건 A와 B가 서로 독립인지 판단하시오. 풀이) 사건 A와 B가 발생할 확률은 각각 아래와 같습니다. $P(A)=\frac{1}{3}$ $P(B)=\frac{1}{2}$ 사건 A와 B가 동시에 발생할 확률은 아래와 같습니다. $P(A\cap B)=\frac{1}{6}$ $P(A\cap B)=P(A)P(B)$ 가 성립하므로 두 사건은 독립입니다. 예제2. 동전 한개와 주사위 한 개를 동시에 던질 때, 동전은 앞면이 나오고 주사위는 홀수가 나올 확률을 구하시오. 풀이) 이번 문제는 위 문제와 다르게 독립임을 확인하는게 아니라 독립 조건을 사용하면 됩니다. .. 2023. 5. 6.
[손으로 푸는 통계 ver1.0] 64. 표본분산의 분포 유도 (29) 감마 1/2 계산하기 감마함수 적분형을 이용하여 $\Gamma \left ( \frac{1}{2} \right)$ 을 계산해봅시다. 지난 60강에서 $\frac{1}{2}!$이 $\frac{\sqrt{\pi}}{2}$ 인 것을 증명했었는데요. 이 결과와도 비교해봅시다. 감마함수 적분형은 아래와 같습니다. $\Gamma (z)=\int_{0}^{\infty}t^{z-1}e^{-t}dt$ $\Gamma (\frac{1}{2})$ 계산하기 위해 z에 1/2 을 대입합시다. $\Gamma \left ( \frac{1}{2} \right)=\int_{0}^{\infty}t^{-\frac{1}{2}}e^{-t}dt$ t를 $x^{2}$으로 치환합시다. $\begin{align} t&=x^{2}\\ dt&=2xdx \end{align}$.. 2021. 8. 1.
변수 A,B,C 의 상관관계 변수 A와 변수 B가 강한 상관관계가 있고, 변수 B와 변수 C가 강한 상관관계가 있다고 하자. 이때 변수 A와 C 사이에는 반드시 상관관계가 있을까? 대답은 아니오이다. 간단한 반례를 들어보자. 김,이,박 세 사람이 있다고 하자. 세 사람의 주식 보유량은 아래와 같다. 김 : 삼성전자10주, 엘지전자10주 이 : 삼성전자10주, 셀트리온10주 박 : 셀트리온10주, 네이버10주 삼성전자라는 같은 보유주식이 있으므로, 김의 수익률과 이의 수익률은 강한 상관관계가 있다. 셀트리온이라는 같은 보유주식이 있으므로 이와 박의 수익률도 강한 상관관계가 있다. 그러나 김과 박의 보유주식은 전혀 겹치지 않는다. 따라서 김과 박의 수익률에 반드시 상관관계가 있다고 말할 수 없다. 2021. 3. 17.
[통계] 줄기-잎 그림 예시 줄기 잎 그림이 무엇인지 이해하고, 장점이 무엇인지를 알 수 있도록 준비한 예제입니다. 어떤 반 20명 학생들의 수학 점수가 아래와 같다고 합시다. 78, 72, 50, 95, 75, 51, 43, 80, 64, 83, 79, 32, 38, 55, 44, 86, 94, 30, 80, 44 이 점수를 줄기-잎 그림으로 나타내면 아래와 같습니다. 줄기 잎 도수 3 02 2 4 344 3 5 015 3 6 4 1 7 2589 4 8 0036 4 9 45 2 줄기-잎 그림을 이용하면 줄기의 변량을 한 눈에 파악할 수 있고, 도수도 한눈에 파악할 수 있습니다. 2021. 3. 16.
[손으로 푸는 확률분포] 푸아송분포 (2-2) 미분방정식으로 유도 ② 유도 (2-2) 미분방정식으로 유도 ② 유도 지난시간에 세개의 식을 유도했습니다. 본격적으로 푸아송분포를 유도합시다. 길냥이 예제를 이어서 사용하겠습니다. 아래와 같은 확률을 정의해봅시다. 이 확률은 t+Δt 라는 시간동안 길냥이를 x번 만날 확률입니다. 이 확률은 아래와 같이 다른 두 확률의 곱으로 표현할 수 있습니다. t+Δt 라는 시간동안 길냥이를 x번 만날 확률은 t라는 시간동안 x번 만나고 이후 Δt라는 시간동안 0번 만날 확률과 t라는 시간동안 x-1번 만나고 이후 Δt라는 시간동안 1번 만날 확률의 합과 같습니다. 1,2번식(맨 위 빨간식)을 대입하여 정리합시다. 전개하겠습니다. 이항하여 아래와 같이 정리합시다. Δt로 양변을 나눠줍시다. Δt를 0으로 보내면 아래와 같은 미분방정식이 됩니다. 이.. 2019. 11. 7.
[손으로 푸는 확률분포] 푸아송분포 (2-2) 미분방정식으로 유도 ① 준비 (2-2) 미분방정식으로 유도 ① 준비 지난시간에는 이산확률분포를 이용하여 포아송분포를 유도했는데요. 이번에는 미분방정식을 세워서 포아송분포를 유도해보겠습니다. 푸아송분포 첫번째 시간에 소개한 예시를 떠올려봅시다. 24시간 동안 길냥이를 만날 확률분포를 포아송분포의 예로 들었습니다. 길냥이를 만나는 사건이 최대 1번 일어날 수 있을 만큼 작은 시간을 Δt 라고 놓읍시다. Δt 라는 시간 동안 길냥이를 만날 사건이 1번 일어날 확률을 아래와 같이 놓겠습니다. 이 확률은 Δt에 비례할 것입니다. Δt가 길 수록 길냥이를 만날 확률이 높아질 것이기 때문입니다. 따라서 아래와 같이 놓을 수 있습니다. 비례상수를 k라고 합시다. 이때, Δt 동안 길냥이를 만나지 않을 확률은 아래와 같습니다. 전체확률이 1이므로 .. 2019. 11. 5.
[손으로 푸는 통계] 10. 테일러 급수 유도하기 (중심극한정리 재료 #1) 중심극한정리를 증명하는 과정에서 테일러급수가 사용됩니다. 오늘은 테일러급수를 유도해보도록 하겠습니다. 테일러급수 설명 테일러급수는 브룩 테일러(Brook Taylor)가 1715년에 처음 소개했습니다. 테일러급수는 무한급수입니다. 어떤 함수를 다항함수로 만들어진 무한급수로 바꿔줍니다. 어떤 함수 $f(x)$에 테일러급수를 적용하면 아래와 같습니다. $f(x)=f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f''(a)}{2!}(x-a)^{2}+\frac{f'''(a)}{3!}(x-a)^{3}+...$ 임의의 점 a에서의 미분값을 이용해서 함수 값을 계산할 수 있게 해줍니다. a근처에서의 함수값을 구할 경우 고차항(H.O.T)들의 크기가 아주 작아지기 때문에, 고차항들을 날려버리고 함수의 근사값.. 2018. 3. 24.
반응형