본문 바로가기
@기초과목/확률과통계 기초

[확률과 통계 기초] 3-21. 분산과 표준편차

by bigpicture 2024. 6. 26.
반응형

분산과 표준편차가 무엇인지는 중학교 수학에서 배웠습니다. 내용을 잊으신 분들을 위해 분산과 표준편차가 무엇인지 복습하겠습니다. 

 

아래와 같은 자료가 있다고 합시다. 

 

1, 2, 3, 4, 5, 6, 7, 8, 9, 10

 

사람들은 자료를 요약하고 싶었습니다. 자료를 요약하기 위해 자료를 대표하는 값(대푯값)과 자료가 흩어진 정도(분산도)를 정의하고 싶었습니다. 가장 많이 사용되는 대푯값은 평균이고 분산도는 분산입니다. 

 

위 자료의 평균은 아래와 같이 구합니다. 

 

$\frac{1+2+3+4+5+6+7+8+9+10}{10}$

 

자료의 흩어진 정도를 나타내기 위해 사람들이 처음 생각한 것은 편차였습니다. 편차는 (변량-평균)입니다. 각 값들이 평균에서 얼마나 떨어져 있는가를 이용해서 분산도를 정의하려고 한 것입니다. 각 값에서 편차를 구하고 평균을 내서 분산도를 정의했는데 문제가 발생했습니다. 결과가 항상 0이 된다는 문제였습니다. 결과가 왜 항상 0이 되는지 증명해보겠습니다. 아래와 같은 자료가 있다고 합시다. 

 

$x_{1},x_{2},\cdots,x_{n}$

 

이 자료의 평균은 m이라고 놓겠습니다. 편차를 구해보면 아래와 같습니다. 

 

$x_{1}-m,x_{2}-m,\cdots,x_{n}-m$

 

편차의 평균은 아래와 같습니다. 

 

$\frac{x_{1}-m+x_{2}-m+\cdots+x_{n}-m}{n}$

 

아래와 같이 두 항으로 분리할 수 있습니다. 

 

$\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}+\frac{nm}{n}$

 

왼쪽 항은 m이고 오른쪽 항도 m입니다. 결과는 0이 됩니다. 

 

이런 문제를 해결하기 위해 편차를 제곱해서 평균을 구했습니다. 제곱하면 항상 양수가 되므로 합이 0이 되는 문제가 발생하지 않습니다. 

 

$\frac{\left ( x_{1}-m \right )^2+\left ( x_{2}-m \right )^2+\cdots+\left ( x_{n}-m \right )^2}{n}$

 

위 식이 분산의 정의입니다. 이 값이 클 수록 각 값들이 평균에서 멀리 떨어져 있는 것이므로 흩어진 정도가 커집니다. 

 

이때 한가지 문제가 있습니다. 분산은 자료의 값을 제곱해서 만든 값이기 때문에 단위 또한 제곱이 됩니다. 원래 단위가 m 였다면 $m^2$이 되는 것입니다. 자료와 단위를 같게 만들기 위해 분산에 루트를 씌운 표준편차를 정의하였습니다. 

 

$\sqrt{\frac{\left ( x_{1}-m \right )^2+\left ( x_{2}-m \right )^2+\cdots+\left ( x_{n}-m \right )^2}{n}}$

 

자료의 분산과 표준편차를 복습해보았습니다. 확률변수의 분산과 표준편차를 구하는 방법은 조금 다른데요. 다음 시간에 배워보겠습니다.

 

 

https://www.youtube.com/watch?v=V626NJm5f0Q

 

반응형

댓글