본문 바로가기
@ 통계 교양/통계 Tips (영상)

이산 vs 연속확률변수 (3) 확률 밀도가 등장한 맥락

by bigpicture 2022. 10. 14.
반응형

연속확률변수는 실수 구간에서 정의된 확률변수입니다. 아래 구간에서 임의로 하나의 실수 값을 출력해주는 기계를 만들었다고 합시다. 

$0 \leq X \leq 3$

각 숫자가 나올 확률은 동일하다고 합시다. 이때 숫자들이 각각 발생할 확률을 갖는다면 확률 전체의 합이 1이 될 수 없습니다. 확률 전체의 합이 무한대가 됩니다. 따라서 각 숫자들은 확률을 가질 수 없습니다. 대신 범위는 확률을 가질 수 있습니다. 예를들어 $0 \leq X \leq 1$ 은 전체 영역의 1/3이므로, 발생 확률이 1/3입니다. 기호로 나타내면 아래와 같습니다. 

$P[0 \leq X \leq 1]=\frac{1}{3}$

이때 누적적분포함수는 아래와 같이 구할 수 있습니다. 

$P[0 \leq X \leq x]=\frac{1}{3}x$

 

위 확률변수의 누적분포 함수를 F(x) 라고 놓겠습니다. 

 

$P[0 \leq X \leq x]=F(x)=\frac{1}{3}x$

 

연속확률변수의 누적분포함수에서는 미분을 적용할 수가 있습니다. 미분가능의 조건은 '연속'입니다. 따라서 이산확률변수에서는 미분이 불가능하지만 연속확률변수에서는 미분이 가능합니다. 연속확률변수의 누적분포함수를 한번 미분해 봅시다. 

 

$F'(x)=\frac{1}{3}$

 

이 함수는 어떤 의미를 가질까요? 위 함수를 일단 $f(x)$ 라고 놓고 아래 적분의 의미를 생각해봅시다. 

 

$\int_{a}^{b}f(x)dx$

 

위 적분은 아래와 같이 계산됩니다. 

 

$\int_{a}^{b}f(x)dx=F(b)-F(a)$

 

F(b)와 F(a) 는 각각 아래와 같습니다. 

 

$F(b)=P[0 \leq X \leq b]$

$F(a)=P[0 \leq X \leq a]$

 

따라서 $F(b)-F(a)$ 는 $P[a \leq X \leq b]$ 입니다. 우리가 유도하던 식에 대입합시다. 

 

$\int_{a}^{b}f(x)dx=P[a \leq X \leq b]$

 

확률밀도함수를 어떤 구간에 대해 적분하면 해당 구간에서 사건이 발생할 확률값을 구해줍니다. 확률밀도함수를 두가지로 이해할 수 있습니다. 

 

1) 연속확률변수의 누적분포함수를 미분한 함수

2) 어떤 구간에 대해 적분한 결과가 해당 구간에서 사건이 발생할 확률이 되는 함수

 

 

강의 영상

 

반응형

댓글