정규분포를 유도하는 방법은 두 가지가 있습니다. 과녁 맞추기를 이용한 유도와 이항분포를 이용한 유도입니다. 두 유도방법 모두 '정규분포가 무엇인가' 라는 질문에 좋은 답변을 제공해줍니다. 오늘은 첫번째 방법인 '과녁 맞추기를 이용한 유도'를 알아봅시다.
우리가 어떤 물체의 길이를 측정하는 상황이라고 해봅시다. 우리가 측정할 때 마다 측정값은 조금씩 달라질 것입니다. 측정에는 항상 오차가 있기 때문입니다. 측정을 무한히 반복했다고 가정하고, 측정된 값들을 확률분포로 만들고 싶었습니다. 실제로 측정을 무한 번 하지는 않을 거구요. 그럴듯한 수학 모델을 만들어 볼 겁니다.
그럴듯한 수학 모델을 만들기 위해 물체의 길이를 측정하는 것과 비슷한 상황 하나를 생각해냈습니다. 바로 '과녁 맞추기' 입니다. 아래와 같은 과녁이 있다고 합시다.

우리는 이 과녁의 중심을 맞추고 싶은 상황입니다. 우리가 화살쏘기에 숙련된 전문가라고 가정합시다. 중앙을 겨냥해서 화살을 쏠 것입니다. 그러나 아무리 전문가라고 해도 항상 과녁 중앙에 화살을 맞출 수는 없습니다. 아래 그림 처럼 화살이 빗나가는 경우도 있을 것입니다.

이러한 상황을 확률분포로 만들어봅시다. 위 상황을 확률분포로 만들기 위해 아래와 같은 두가지 가정을 하겠습니다.
1) 과녁의 중심에서 멀어질 수록 맞출 확률이 낮다.
2) 과녁의 중심에서 거리가 같은 두 점이 있다면, 이 두 점의 확률은 동일하다.
딱 이 두가지 조건만을 이용해서 확률분포를 유도해 보았습니다. 어떤 분포가 하나 유도 됐는데요. 그 분포가 바로 정규분포입니다. 정규분포가 무엇인지 감이 오시나요? 과녁의 중심은 참값, 과녁에서 벗어나는 값이 생기는 이유를 오차라고 할 수 있습니다. 따라서 정규분포는 참값과 오차의 분포라고 할 수 있습니다. 우리가 원하는 어떤 참값이 있는데, 오차 때문에 참값에서 떨어지 값들도 발생하게 되는 겁니다. 참값에서 멀어질 수록 발생 확률은 낮습니다. 이런 상황을 수학적으로 표현해보았더니 오늘날 우리가 잘 아는 정규분포가 된 것입니다.
정규분포가 무엇인지는 이미 이해했습니다. 수학적인 유도는 재미삼아 해봅시다.
과녁 위 어느 한 점 f(x,y)f(x,y)에 화살이 맞을 확률밀도를 f(x,y)f(x,y)라고 놓겠습니다. 확률밀도함수를 전체 구간(도메인)에 대해 적분한 값은 1이므로 아래 등식이 성립합니다.
∫∞−∞∫∞−∞f(x,y)dxdy=1∫∞−∞∫∞−∞f(x,y)dxdy=1
우리는 지금부터 f(x,y)f(x,y)를 유도할 것이구요. 증명은 아래 순서로 진행됩니다.
1. x의 주변확률분포
2. y의 주변확률분포
3. 독립성가정
4. 거리가 r인 곳의 확률밀도함수
5. 계수 A 구하기
6. 계수 C 구하기
7. f(x)f(x) 구하기
1. x의 주변확률분포
확률밀도함수 f(x,y)f(x,y)를 y의 전체구간에 대해 적분해봅시다.
∫∞−∞f(x,y)dy∫∞−∞f(x,y)dy
y에 대해 정적분을 한 것이므로, 결과는 x만의 함수가 됩니다. 계산 결과를 fx(x)fx(x) 라고 놓겠습니다.
∫∞−∞f(x,y)dy=fx(x)∫∞−∞f(x,y)dy=fx(x)
fx(x)fx(x)를 x의 주변확률분포라고 합니다. 이 함수의 의미를 생각해봅시다. x에 어떤 값 a를 대입해봅시다. fx(a)fx(a)인데요. fx(a)fx(a)는 아래 그림과 같이 x=ax=a 인 선 위에 화살이 맞을 확률밀도를 의미합니다.

2. y의 주변확률분포
확률밀도함수 f(x,y)f(x,y)를 x의 전체구간에 대해 적분해봅시다.
∫∞−∞f(x,y)dx∫∞−∞f(x,y)dx
x에 대해 정적분을 한 것이므로, 결과는 y만의 함수가 됩니다. 계산 결과를 fy(y)fy(y) 라고 놓겠습니다.
∫∞−∞f(x,y)dx=fy(y)∫∞−∞f(x,y)dx=fy(y)
fy(y)fy(y)를 y의 주변확률분포라고 합니다. 이 함수의 의미를 생각해봅시다. y에 어떤 값 a를 대입해봅시다. fy(a)fy(a)인데요. fy(a)fy(a)는 y=ay=a 인 선 위에 화살이 맞을 확률밀도를 의미합니다.
원점으로 부터의 거리에 따라 확률이 변한다고 가정했기 때문에, x방향으로 멀어지는 것과 y방향으로 멀어지는 것의 영향이 동일합니다. 따라서 fx(x)fx(x) 와 fy(y)fy(y) 는 동일한 함수입니다. 앞으로는 아래첨자를 생략하고 f(x),f(y)f(x),f(y) 라고 놓겠습니다.
fx(x)=f(x)fx(x)=f(x)
fy(y)=f(y)fy(y)=f(y)
3. 독립성 가정
한가지 가정을 추가합시다. 확률변수 x와 y가 서로 독립이라는 가정입니다. 독립성 가정에 의해 아래 등식이 성립합니다. (참고: hsm-edu.tistory.com/1178?category=770915)
f(x,y)=f(x∩y)=f(x)f(y)f(x,y)=f(x∩y)=f(x)f(y)
사실은 위 수식을 얻기 위해 1,2,3번 과정을 거친 것입니다.
4. 거리가 r인 곳의 확률밀도 함수
함수를 하나 더 정의하겠습니다. 과녁의 중심에서 부터 거리가 rr인 곳의 확률밀도를 g(r)g(r) 이라고 놓겠습니다. 원점에서 부터의 거리가 rr인 어떤 좌표를 (x,y)(x,y)라고 놓는다면 아래 등식이 성립합니다.
g(r)=f(x,y)g(r)=f(x,y)

확률변수 x,y가 서로 독립이므로 아래 등식이 성립합니다.
g(r)=f(x)f(y)g(r)=f(x)f(y)
이때 x축과 r방향 사이의 각도를 θθ 라고 놓는다면 x와 y를 아래와 같이 나타낼 수 있습니다.
x=rcos(θ)x=rcos(θ)
y=rsin(θ)y=rsin(θ)
g(r)=f(x)f(y)g(r)=f(x)f(y) 식의 양변을 θθ로 미분하겠습니다. g(r)g(r)은 θθ와 무관한 함수이므로 미분하면 0이 됩니다.
0=df(x)dθf(y)+f(x)df(y)dθ0=df(x)dθf(y)+f(x)df(y)dθ
체인룰을 적용합시다.
0=df(x)dxdxdθf(y)+f(x)df(y)dydydθ0=df(x)dxdxdθf(y)+f(x)df(y)dydydθ
아래와 같이 변형합시다.
0=f′(x)dxdθf(y)+f(x)f′(y)dydθ
아래와 같이 θ로 미분된 항에 있는 x와 y를 r과 θ에 대한 식으로 바꿔줍니다.
0=f′(x)drcos(θ)dθf(y)+f(x)f′(y)drsin(θ)dθ
θ로 미분합시다.
0=f′(x)(−rsinθ)f(y)+f(x)f′(y)(rcosθ)
아래와 같이 양변을 정리합시다.
f′(x)f(x)rsinθrcosθ=f′(y)f(y)
r을 약분합시다.
f′(x)f(x)sinθcosθ=f′(y)f(y)
sinθcosθ는 tanθ이므로 아래와 같이 변형합시다.
f′(x)f(x)tanθ=f′(y)f(y)
tanθ 는 yx이므로 아래와 같이 변형할 수 있습니다.
f′(x)f(x)yx=f′(y)f(y)
y로 양변을 나눠줍시다.
f′(x)f(x)1x=f′(y)f(y)1y
x와 y에는 모든 실수가 올 수 있기 때문에, 어떤 값을 넣어도 위 등식이 성립한다는 의미입니다. 만약 좌변이 x에 대한 변수이고, 우변이 y에 대한 변수라면 등식이 성립하지 않는 경우가 존재하게 됩니다. 따라서 좌변과 우변은 상수입니다.
f′(x)f(x)1x=f′(y)f(y)1y=C
x에 대해서만 생각해봅시다. 아래 등식입니다.
f′(x)f(x)1x=C
양변에 x를 곱해줍시다.
f′(x)f(x)=Cx
양변을 x에 대해 적분합시다.
lnf(x)=12Cx2+D
f(x)에 대해 정리하면 아래와 같습니다.
f(x)=eC2x2eD
eD는 상수이므로, 상수 A로 간단히 표현하겠습니다.
f(x)=AeC2x2
벌써 모양이 정규분포스러워 졌습니다.
5. 계수 A 구하기
먼저 A의 부호를 판별해봅시다. f(x)는 확률밀도함수이기 때문에 음수값을 가질 수 없습니다. 따라서 항상 양수여야 합니다. eC2x2 는 항상 양수이므로, A도 항상 양수입니다.
A>0
C의 부호도 판별해봅시다. f(x)=AeC2x2에서 만약 C가 양수라면 x가 커질 수록 f(x)는 한없이 커집니다. x가 커질 수록 전체 값은 작아지는 것이 초기에 설정한 조건이었습니다. x가 커질 수록 전체 값이 작아지려면 C는 음수여야 합니다.
C<0
유도를 편하게 하기 위해 -c를 k 로 치환하여 양수 k를 사용하겠습니다. 치환한 함수는 아래와 같습니다.
f(x)=Ae−k2x2
f(x)는 확률밀도함수이므로, 전체 x값에 대해 적분하면 1이 됩니다. 수식으로 나타내면 아래와 같습니다.
∫∞−∞f(x)dx=1
우리는 아래 두가지 가정을 했습니다.
1) 과녁의 중심에서 멀어질 수록 맞출 확률이 낮다.
2) 과녁의 중심에서 거리가 같은 두 점이 있다면, 이 두 점의 확률은 동일하다.
두번째 가정에 의해 중심에서 거리가 같으면 확률이 동일합니다. 따라서 f(x) 는 대칭함수입니다. 대칭함수에서는 적분구간을 0부터 무한대로 바꾸고 적분값을 1/2 로 놓을 수 있습니다.
∫∞0f(x)dx=12
f(x) 자리에 우리가 유도한 수식을 대입합시다.
∫∞0Ae−k2x2dx=12
양변을 A로 나눠줍니다. 아래 식을 1번식이라고 놓겠습니다.
∫∞0e−k2x2dx=12A (1번식)
위 식의 좌변은 쉽게 적분 되지 않습니다. 적분 테크닉을 하나 사용하겠습니다. 가우스적분이라고 불리는 방법입니다. x대신 다른 문자 y를 대입하겠습니다. y도 실수 전체 구간을 갖는다고 가정하면 아래 등식이 성립합니다.
∫∞0e−k2y2dy=12A
두 식을 곱해줍니다.
(∫∞0e−k2x2dx)(∫∞0e−k2y2dy)=12A×12A=14A2
x와 y가 서로 독립이므로 좌변을 하나의 적분식으로 합쳐줄 수 있습니다.
∫∞0∫∞0e−k2(x2+y2)dxdy=14A2
극좌표계로 바꿔줍니다.
∫π20∫∞0e−k2r2rdrdθ=14A2
r에 대한 적분을 먼저 계산하면 아래와 같습니다.
∫∞0e−k2r2rdr=[−1ke−k2r2]∞0=1k
적분하던 원래 식에 대입합니다.
∫π201kdθ=14A2
k는 적분변수와 무관하므로 밖으로 꺼내줍니다.
1k∫π201dθ=14A2
적분합니다.
1kπ2=14A2
A2에 대해 정리합시다.
A2=k2π
A를 구하면 아래와 같습니다.
A=±√k2π
A는 양수이므로 플러스만 해당됩니다.
A=√k2π (2번식)
지금까지 구한 f(x)는 아래와 같습니다.
f(x)=√k2πe−k2x2 (3번식)
6. 계수 C 구하기
확률변수 x의 분산은 아래와 같이 계산됩니다.
V[X]=∫∞−∞(x−μ)2f(x)dx
확률변수 X의 확률분포 f(x) 는 x축에 대해 대칭이므로 평균은 0입니다.
V[X]=∫∞−∞x2f(x)dx
X의 표준편차를 σ2으로 놓으면 아래와 같이 변형할 수 있습니다.
σ2=∫∞−∞x2f(x)dx
f(x)는 x축에 대해 대칭이므로 적분구간을 0부터로 놓고 아래와 같이 변형합니다.
σ2=2∫∞0x2f(x)dx
양변을 2로 나눕니다.
σ22=∫∞0x2f(x)dx
3번 식의 f(x)를 대입합니다.
σ22=∫∞0x2√k2πe−k2x2dx
적분변수와 무관한 항을 앞으로 꺼내줍니다.
σ22=√k2π∫∞0x2e−k2x2dx
부분적분법을 이용하여 적분합니다.
σ22=√k2π{[−x1ke−k2x2]∞0−∫∞0−1ke−k2x2dx}
우변 괄호 안의 첫 항은 0입니다.
σ22=√k2π{∫∞01ke−k2x2dx}
적분 안의 1k를 밖으로 꺼내줍니다.
σ22=1k√k2π{∫∞0e−k2x2dx}
우변의 적분항은 A를 계산할 때 한번 다뤘던 식입니다. 1번식을 이용하면 아래와 같이 변형됩니다.
σ22=1k√k2π12A
2번식을 이용하여 한번 더 변형합시다.
σ22=1kA12A
A가 약분됩니다.
σ22=1k12
k에 대해 정리합시다.
k=1σ2 (4번식)
7. f(x) 구하기
3번식의 f(x) 를 가져옵시다.
f(x)=√k2πe−k2x2
k 대신 우리가 구한 4번 식을 넣어줍니다.
f(x)=√12πσ2e−12σ2x2
아래와 같이 변형합니다.
f(x)=1√2πσe−12σ2x2
확률변수 X의 평균이 0이고 분산이 σ2인 경우에 유도된 확률밀도함수입니다. 평균이 μ 라면 아래와 같이 변형됩니다.
f(x)=1√2πσe−(x−μ)22σ2
위 식이 평균이 μ이고 표준편차가 σ인 정규분포입니다.
#강의 영상
'@ 필수과목 > 손으로 푸는 확률분포' 카테고리의 다른 글
[손으로 푸는 확률분포] 정규분포 (1) 풀리지 않았던 의문 (0) | 2021.09.25 |
---|---|
[손으로 푸는 확률분포] 지수분포 (8) 비기억성 (무기억성) (0) | 2021.09.25 |
[손으로 푸는 확률분포] 지수분포 (7) 누적분포함수 (0) | 2021.01.18 |
[손으로 푸는 확률분포] 지수분포 (6) 분산 (0) | 2020.11.23 |
[손으로 푸는 확률분포] 지수분포 (5) 평균 (2) | 2020.11.16 |
[손으로 푸는 확률분포] 지수분포 (4) 예시 : 카페 대기시간 (0) | 2020.11.03 |
[손으로 푸는 확률분포] 지수분포 (3) 예시 : 전자제품 고장확률 (6) | 2020.10.26 |
[손으로 푸는 확률분포] 지수분포 (2) 유도 (0) | 2020.10.01 |
댓글
bigpicture님의
글이 좋았다면 응원을 보내주세요!
이 글이 도움이 됐다면, 응원 댓글을 써보세요. 블로거에게 지급되는 응원금은 새로운 창작의 큰 힘이 됩니다.
응원 댓글은 만 14세 이상 카카오계정 이용자라면 누구나 편하게 작성, 결제할 수 있습니다.
글 본문, 댓글 목록 등을 통해 응원한 팬과 응원 댓글, 응원금을 강조해 보여줍니다.
응원금은 앱에서는 인앱결제, 웹에서는 카카오페이 및 신용카드로 결제할 수 있습니다.