반응형
대푯값에는 평균, 중앙값, 최빈값이 있습니다. 가장 많이 쓰는 대푯값은 평균입니다. 더 정확히 말하면 '산술 평균'인데요. 평균이 항상 가장 좋은 대푯값인 것은 아닙니다. 오늘은 평균을 대푯값으로 사용하는 것이 적절하지 않은 경우들을 알아봅시다.
1. 극단값이 있는 경우
어느 회사의 평균 연봉이 1억2400만원이라고 합시다. 삼성전자의 평균연봉과 맞먹을 만큼 높습니다. 정말 좋은 회사인 것 같죠? 실상은 아래와 같습니다. 직원이 다섯명이고 연봉은 아래와 같다고 합니다.
3000만원
3000만원
3000만원
3000만원
50000만원
평균값인 1억2400 만원과 비슷한 직원은 한 명도 없습니다. 이런 경우는 평균값보다 최빈값이나 중앙값이 더 집단을 잘 대표할 것입니다.
2. 양쪽으로 치우친 경우 (쌍봉형)
어떤 집단의 평균연령이 20대였습니다. 그런데 그 집단에 20대는 한명도 없었습니다. 이 집단은 키즈카페 방문자입니다. 어린 아이와 부모님들로 구성되어 있으니 평균 연령이 20대가 나옵니다. 이런 경우는 중앙값이나 최빈값으로도 집단을 잘 대표할 수가 없습니다. 그래프를 그려봐야 합니다. 히스토그램이 적당하겠네요.
위와 같은 예외적인 상황들이 있기 때문에 평균만 믿고 판단을 내리는 것은 위험합니다. 데이터를 그래프로 나타내서 데이터를 이해하는 것을 권합니다.
반응형
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
머신러닝과 데이터마이닝의 차이 (0) | 2023.08.01 |
---|---|
최빈값은 언제 쓸까? (mode) (0) | 2023.06.28 |
모집단이 정규분포를 따르면 표본평균은 항상 정규분포를 따를까? (0) | 2023.01.14 |
정규분포를 따르는 확률변수의 합의 분포 (0) | 2023.01.14 |
표본의 크기 결정 방법 수식 설명 및 유도 (0) | 2023.01.11 |
민감도, 특이도, 양성예측도, 음성예측도 외우는 법 (0) | 2022.12.27 |
비복원추출인 경우 표본평균의 평균과 분산 (유도링크 추후 보완예정) (3) | 2022.12.20 |
표본평균의 분포는 정말 정규분포가 될 수 있을까 (2) p 값 비교 (0) | 2022.09.16 |
댓글