본문 바로가기
@ OO의 이해/대푯값의 이해

[대푯값의 이해] 1. 평균과 중앙값의 발견

by bigpicture 2022. 6. 14.
반응형

평균과 중앙값이 발견된 경로를 생각해봅시다. 아마 어떤 자료를 요약하는 과정에서 그 자료를 대표하는 값이 필요했고, 평균과 중앙값을 생각해냈을 것입니다. 더 나아가서 자료가 흩어진 정도를 알기 위해 분산, 표준편차, 중앙값절대편차 등을 생각했을 겁니다. 이것이 우리가 일반적으로 생각할 수 있는 발견 경로입니다. 

이 글에서 다루려는 이야기는 우리가 일반적으로 생각할 수 있는 경로가 아닌 '측정'이라는 특수한 상황에서 평균과 중앙값이 발견된 과정을 다루려고 합니다. 

무언가를 측정하는 상황을 가정합시다. 어떤 물체의 길이를 측정한다고 합시다. 측정 길이에는 참값이 존재할 것이지만, 측정 오차 때문에 측정 할 때마다 값이 조금씩 달라질 겁니다. 
 
측정의 결과 아래와 같이 다섯개의 값이 얻어졌다고 해봅시다. 
 
10,14,16,18,15
 
물체 길이의 참값은 무엇일까요? 선배들은 '오차를 최소화하는 값'이 참값일 것이라고 생각했습니다. 참값을 a라고 놓고 오차를 정의해봅시다. 

오차는 참값과 측정값의 차이입니다. 측정값에서 참값을 빼봅시다. 

10-a
14-a
16-a
18-a
15-a

그런데 각 오차를 최소화하는 값이 전부 다릅니다. 첫번째 오차를 최소화하려면 a가 10이 되면 되지만, 두번째는 14가 되어야 합니다. 어떻게해야 할까요? 가장 쉽게 떠올릴 수 있는 방법은 오차를 전부 더하는 것입니다. 

10+14+16+18+15-5a

그리고 오차의 합을 최소로 만들어주는 a값을 찾습니다. 오차를 0으로 만들 수도 있겠네요. 오차의 합 0으로 만드는 a를 찾아줍니다. 

10+14+16+18+15-5a=0

$\frac{10+14+16+18+15}{5}=a$

재밌게도 평균이 나옵니다. 그런데 이 방법에는 문제가 좀 있습니다. 오차를 단순히 더하는 과정에서 문제가 발생합니다. 

오차를 전부 더해서 0이 된다고 오차가 가장 적은 것일까요? 

 

대답을 찾기 위해 자료를 더 단순화해봅시다. 아래와 같이 두개의 측정값이 있다고 합시다. 

 

10, 20

 

위 방법대로라면 오차의 합을 최소화하는 값은 15입니다. a를 15라고 놓았을 때 오차는 5와 -5 입니다. 만약 a를 12라고 놓는다면 오차는 2와 8입니다. 5와 -5라는 오차는 평균에서 5만큼 덜어진 오차인데 부호가 달라서 도하면 0이 됩니다. 부호가 달라서 더하면 0이 된다고 해서 오차가 작은 것이라 할 수 있을까요? 오차를 단순하 더하는 방법으로는 어떤 오차가 더 큰지 비교하기가 어렵습니다. 다른 방법이 필요합니다. 선배들은 두가지 방법을 생각해냅니다. 

 

1. 오차를 제곱해서 더하기

2. 오차에 절댓값을 씌워서 더하기

 

다시 원래 예제로 돌아갑시다. 자료는 10,14,16,18,15 이고 참값은 a입니다. 1번식을 계산하면 아래와 같습니다. 

 

$\left ( 10-a \right )^{2}+\left ( 14-a \right )^{2}+\left ( 16-a \right )^{2}a+\left ( 18-a \right )^{2}+\left ( 15-a \right )^{2}$

 

2번 식을 계산하면 아래와 같습니다. 

 

$\left | 10-a \right |+\left | 14-a \right |+\left | 16-a \right |+\left | 18-a \right |+\left | 15-a \right |$

 

1번 식을 최소화하는 값을 계산해보면 평균이 나오고, 2번 식을 최소화하는 값을 계산해보면 중앙값이 나옵니다. 계산은 다음시간에 하겠습니다. 

반응형

댓글