로버스트(Robust)의 의미는 '강건한'입니다. Robust 통계 방법이란 강건한 통계방법입니다. 통계에서 강건하다는게 어떤 의미일까요? 통계에서 강건하다는 것은 '이상치'의 영향을 적게 받는다는 말입니다. 따라서 로버스트 통계방법은 이상치 영향을 적게 받는 통계방법입니다. 이상치 영향을 어떻게 하면 적게 받을 수 있을까요? 평균 대신 중앙값을, 표준편차 대신 중앙값 절대편차를 사용하면 됩니다.
우리가 가장 흔히 사용하는 통계량인 평균은 이상치(outlier)에 영향을 많이 받습니다. 반면 중앙값은 이상치의 영향을 덜 받습니다. 아래 데이터를 봅시다.
> Sal=c(3000,3000,3000,3000,3000,3000,3000,3000,3000,100000)
어떤 회사 직원들의 연봉입니다. 9명은 연봉이 3천만원, 1명은 10억입니다. 평균을 구해봅시다.
> mean(Sal)
[1] 12700
1억2700만원입니다. 이 회사의 연봉 평균이 1억2700이라고 하면 '와 엄청 많이 받네' 라고 생각하실텐데 실상을 들여다보면 그렇지 않습니다. 이상치가 포함되어 있어 평균이 집단을 잘 대표하고 있지 않은 것입니다.
이번에는 중앙값을 구해봅시다.
> median(Sal)
[1] 3000
중앙값은 3000만원입니다. 이 회사 다니는 사람들의 연봉을 대표하는데 더 적절해 보입니다.
평균과 마찬가지로 표준편차도 이상치의 영향을 많이 받습니다. 위 데이터로 표준편차를 구해봅시다.
> sd(Sal)
[1] 30674.09
표준편차보다 로버스트한 통계량은 중앙값 절대편차(Median Absulote Deviation) 입니다. 줄여서 MAD라고 부릅니다. 중앙값 절대편차는 아래와 같이 정의됩니다.
중앙값(|변량-중앙값|)
|변량-중앙값| 이 절대편차이므로 절대편차의 중앙값이 중앙값 절대편차입니다. 위 데이터로 MAD를 구해봅시다.
> mad(Sal,constant=1)
[1] 0
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
분산 구하는 두 가지 방법 (제곱의평균-평균의제곱 유도) (0) | 2022.04.27 |
---|---|
회귀분석 한번에 감잡기 (F값, t값) (0) | 2022.04.14 |
카이제곱검정도 양측검정이 있을까? (0) | 2022.04.01 |
균등분포로 동전 던지기 확률, 주사위 던지기 확률 생성하기 (0) | 2021.12.31 |
상자수염그림에서 이상점(outlier)이란? (0) | 2021.12.30 |
통계 영문자료를 이해하기 위한 통계 용어와 해석 모음(지속적 업데이트) (0) | 2021.12.02 |
이항분포, 정규분포, 푸아송분포의 관계 (1) | 2021.11.19 |
양측검정과 단측검정의 검정력은 같을까 다를까 (5) | 2021.11.12 |
댓글