본문 바로가기
@ 필수과목/손으로 푸는 통계

[손으로 푸는 통계] 1. 평균, 편차, 분산, 표준편차

by bigpicture 2018. 3. 23.
반응형

평균, 편차, 분산, 표준편차

통계학은 데이터를 다루는 학문입니다. 데이터를 모으고, 정리하고, 분석하고, 추측하고, 어떤 결론을 도출하는 것이 통계학의 역할입니다.

데이터를 요약해주는 특징들을 알 수 있다면 데이터를 파악하는데 도움이 됩니다. 데이터의 특징을 수치화한 값을 통계량이라고 합니다. 대표적인 통계량에는 '평균(mean)', '분산(variance)', '표준편차(standard deviation)' 등이 있습니다. 

어떤 집단이 궁금한 상황을 가정해봅시다. 우리는 그 집단 전체가 궁금합니다. 전체집단을 모집단(Population)이라고 부릅니다. 이 모집단의 평균,편차,분산,표준편차와 같은 모집단의 특성을 모수(Parameter)라고 합니다. 하지만 전체집단을 모두 조사할 수는 없습니다. 그래서 표본(Sample)을 추출합니다. 추출한 표본의 평균,편차,분산,표준편차와 같은 표본의 특성을 통계량(statistic)이라고 합니다. 

오늘은 모집단의 평균, 분산, 표준편차를 계산하는 방법을 알아봅시다. 

크기가 n인 모집단 X가 있다고 해봅시다. 모집단의 원소를 $x_{k}$라고 합시다. 집합으로 나타내면 아래와 같습니다. 

$X=\left \{ x_{1},x_{2},...,x_{n} \right \}$

이 모집단의 평균, 편차, 분산, 표준편차는 아래와 같이 구합니다.


1. 평균

평균은 아래와 같이 계산합니다. 

 

$E(X)=\frac{\sum_{i=1}^{n}x_{i}}{n}$

 

고등학교때는 평균을 나타내는 기호로 m을 사용했습니다. mean의 앞글자를 딴 것입니다. 대학에서는 뮤(μ)라는 그리스어를 사용합니다. m과 발음이 같습니다.  

 

여기서 말하는 평균은 산술평균(arithmetic mean)입니다. 평균에는 산술평균, 기하평균(geometric mean), 조화평균(harmonic mean)이 있습니다. 또 평균을 의미하는 단어는 mean, average, expectation value 가 있는데요. 셋의 차이는 다음 링크를 참고해주세요. 

 

평균은 어떤 자료를 대표하는 대푯값중 하나입니다. 다른 대푯값에는 중앙값, 최빈값이 있습니다. 물론 평균이 가장 많이 사용되기는 하지만 평균이 항상 좋은 대푯값은 아닙니다. 상황에 맞게 사용해야합니다. 예를들어 어떤회사의 평균 월급이 2억인데, 알고보니 대표가 100억 나머지 직원들은 최저임금일 수 있고 이 경우는 중앙값을 사용하는게 집단을 더 잘 대표할 수 있습니다. 


2. 편차

편차는 편차는 (변량-평균)입니다. 변량은 집단의 원소들입니다. 편차는 각 변량들이 평균에서 얼마나 떨어져 있는지를 알려줍니다. 예를들어 {1,2,3,4,5} 라는 집단이 있을 때, 평균은 3입니다. 따라서 편차는 {-2,-1,0,1,2} 입니다. 편차의 합이 0임을 알 수 있습니다. 

사람들은 편차를 대표할 수 있는 값을 만들고 싶었습니다. 자료가 평균에서 얼마나 흩어져 있는지를 알려줄 수 있으니까요. 편차의 평균을 사용하려고 했는데, 편차의 합이 항상 0이 되는 문제가 있었습니다. 그래서 두가지 대안을 생각합니다. 편차를 제곱해서 평균하는 것과, 편차에 절댓값을 붙여서 평균하는 것입니다. 편차를 제곱해서 평균할 경우 단위(cm, kg등)도 함께 제곱이 됩니다. 따라서 루트를 씌워서 단위를 되돌려주었습니다. 편차의 제곱의 평균에 루트를 씌운 값을 '표준편차', 편차의 절댓값의 평균을 '절대편차' 라고 부릅니다. 이들은 자료가 평균에서 얼마나 흩어져있는지를 알려주는 값입니다. 


3. 분산

분산은 편차의 제곱의 평균입니다. 아래와 같이 계산합니다. 

 

$\begin{align}V(X)&=E\left [ \left ( X-\mu  \right )^2 \right ]\\&=\frac{\sum_{i=1}^{n}\left ( x_{i}-\mu  \right )^{2}}{n} \end{align}$

 

아래와 같이 변형된 형태로도 많이 사용합니다. 

 

$\begin{align}V(X)&=E\left [ \left ( X-\mu  \right )^2 \right ] \\&=\frac{\sum_{i=1}^{n}\left ( x_{i}-\mu  \right )^{2}}{n} \\&=\frac{\sum_{i=1}^{n}\left ( {x_{i}}^{2}-2 \mu x_{i}+m^{2}\right )}{n} \\&=\frac{\sum_{i=1}^{n}{x_{i}}^{2}-2\mu\sum_{i=1}^{n}x_{i}+\sum_{i=1}^{n}\mu^{2}}{n} \\&=\frac{\sum_{i=1}^{n}{x_{i}}^{2}}{n}-2m^{2}+m^{2} \\&=E(X^{2})-\mu^{2} \end{align}$


4. 표준편차

표준편차는 분산에 루트를 씌운 값입니다. 

 

$\sigma (X)=\sqrt{V(X)}$

 

자료의 흩어짐의 정도를 나타내는 값으로는 분산 보다 표준편차를 더 많이 사용합니다. 표준편차의 장점은 단위가 변량과 같다는 것입니다. 변량이 키여서 cm 단위를 갖고 있다면, 분산은 $cm^{2}$이라는 단위를 갖습니다. 분산에 루트를 씌워주게 되면 단위가 다시 cm가 됩니다. 

 

#강의 영상

 

반응형

댓글