본문 바로가기
@ 통계 교양/통계 Tips

로버스트 통계 방법이란 무엇인가

by bigpicture 2021. 12. 30.
반응형

로버스트(Robust)의 의미는 '강건한'입니다. Robust 통계 방법이란 강건한 통계방법입니다. 통계에서 강건하다는게 어떤 의미일까요? 통계에서 강건하다는 것은 '이상치'의 영향을 적게 받는다는 말입니다. 따라서 로버스트 통계방법은 이상치 영향을 적게 받는 통계방법입니다. 이상치 영향을 어떻게 하면 적게 받을 수 있을까요? 평균 대신 중앙값을, 표준편차 대신 중앙값 절대편차를 사용하면 됩니다. 

 

우리가 가장 흔히 사용하는 통계량인 평균은 이상치(outlier)에 영향을 많이 받습니다. 반면 중앙값은 이상치의 영향을 덜 받습니다. 아래 데이터를 봅시다. 

 

> Sal=c(3000,3000,3000,3000,3000,3000,3000,3000,3000,100000)

 

어떤 회사 직원들의 연봉입니다. 9명은 연봉이 3천만원, 1명은 10억입니다. 평균을 구해봅시다. 

 

> mean(Sal)
[1] 12700

 

1억2700만원입니다. 이 회사의 연봉 평균이 1억2700이라고 하면 '와 엄청 많이 받네' 라고 생각하실텐데 실상을 들여다보면 그렇지 않습니다. 이상치가 포함되어 있어 평균이 집단을 잘 대표하고 있지 않은 것입니다. 

 

이번에는 중앙값을 구해봅시다. 

 

> median(Sal)
[1] 3000

 

중앙값은 3000만원입니다. 이 회사 다니는 사람들의 연봉을 대표하는데 더 적절해 보입니다. 

 

평균과 마찬가지로 표준편차도 이상치의 영향을 많이 받습니다. 위 데이터로 표준편차를 구해봅시다.

 

> sd(Sal)
[1] 30674.09

 

표준편차보다 로버스트한 통계량은 중앙값 절대편차(Median Absulote Deviation) 입니다. 줄여서 MAD라고 부릅니다. 중앙값 절대편차는 아래와 같이 정의됩니다. 

 

중앙값(|변량-중앙값|)

 

|변량-중앙값| 이 절대편차이므로 절대편차의 중앙값이 중앙값 절대편차입니다. 위 데이터로 MAD를 구해봅시다. 

 

> mad(Sal,constant=1)
[1] 0

 

반응형

댓글