본문 바로가기
@ 통계 교양/통계 Tips

평균과 중앙값의 비교와 그래프의 치우침

by bigpicture 2021. 10. 19.
반응형

대칭인 분포의 경우 평균과 중앙값이 같습니다. 반면 분포가 한쪽으로 치우친 경우 평균과 중앙값이 달라집니다. 

아래 데이터를 봅시다. 

100 100 100 150 150 150 150 150 200 200 200

이 데이터는 평균이 150 이고, 중앙값도 150입니다. 이 데이터를 오른쪽 꼬리를 가진 데이터로 바꿔보겠습니다. 오른쪽 꼬리를 가진 데이터는 right-tailed 또는 skewed to right 또는 poistive skewed 라고 부릅니다. 

100 100 100 150 150 150 150 150 200 200 2000

이렇게 바꾸었을 때 왜 오른쪽 꼬리를 갖는 것인지 이해가 되지 않는 분들은 히스토그램을 떠올리시면 됩니다. 오른쪽으로 아주 먼 곳인 2000에 막대가 하나 올라와 있게 된 것입니다. 

이 데이터로 평균을 구해봅시다. 313.63입니다. 두배 이상 증가했습니다. 중앙값은 그대로 150입니다. 오른쪽 꼬리가 있는 데이터에서는 평균이 중앙값보다 높다는 것을 알 수 있습니다. 

우리가 어떤 데이터의 분포는 모르지만 평균이 중앙값보다 높다는 것을 알았습니다. 위 사실로 부터 이 분포가 right-tailed 라는 것을 알 수 있습니다. 

평균 > 중앙값 : right-tailed

이번에는 왼쪽 꼬리를 갖게 바꿔봅시다. 

10 100 100 150 150 150 150 150 200 200 200

처음 데이터에서 맨 왼쪽의 100을 10으로 바꿨습니다. 왼쪽 꼬리가 하나 생겼습니다. 평균을 구해보면 141.81 로 약간 줄었습니다. 중앙값은 그대로 150입니다. 왼쪽 꼬리 분포의 경우 평균이 중앙값보다 작습니다. 

평균 < 중앙값 : left-tailed

 

반응형

댓글