자른평균이 뭐죠? 왜 사용하나요?? (trimmed mean)
모집단의 분포가 심하게 치우쳐 있는 경우에는 표본평균들의 값의 차이가 커집니다. 따라서 모집단을 추정할 때 표본에 따라 추정값이 매우 달라집니다. 이러한 문제를 보완하기 위해 등장한 평균이 '자른평균'입니다. 양쪽의 극단적인 10%를 또는 20%를 제거하고 평균을 구하는 것입니다. 영어로는 trimmed mean 이라고 합니다. 통계 소프트웨어 R을 이용하여 예시를 하나 만들어 봤습니다. {1,11,12,15,16,17,18,21,25,121} 이라는 표본이 뽑혔다고 해봅시다. 데이터는 총 10개입니다. R을 이용하여 평균을 구하면 아래와 같습니다. > my_data=c(1,11,12,15,16,17,18,21,25,121) > mean(my_data) [1] 25.7 양쪽 10%를 자르고 평균을 구하면..
2022. 7. 10.
로버스트 통계 방법이란 무엇인가
로버스트(Robust)의 의미는 '강건한'입니다. Robust 통계 방법이란 강건한 통계방법입니다. 통계에서 강건하다는게 어떤 의미일까요? 통계에서 강건하다는 것은 '이상치'의 영향을 적게 받는다는 말입니다. 따라서 로버스트 통계방법은 이상치 영향을 적게 받는 통계방법입니다. 이상치 영향을 어떻게 하면 적게 받을 수 있을까요? 평균 대신 중앙값을, 표준편차 대신 중앙값 절대편차를 사용하면 됩니다. 우리가 가장 흔히 사용하는 통계량인 평균은 이상치(outlier)에 영향을 많이 받습니다. 반면 중앙값은 이상치의 영향을 덜 받습니다. 아래 데이터를 봅시다. > Sal=c(3000,3000,3000,3000,3000,3000,3000,3000,3000,100000) 어떤 회사 직원들의 연봉입니다. 9명은 연봉..
2021. 12. 30.
표준편차 vs 평균절대편차 vs 중앙값절대편차 (극단값 민감성 비교)
표준편차, 평균절대편차, 중앙값절대편차는 아래와 같이 정의됩니다. $SD=\sqrt{\frac{\sum_{i=1}^{n}\left ( X_{i}-mean \right )^{2}}{n}}$ $AAD=\frac{ \sum_{i=1}^{n}\left |X_{i}-mean \right |}{n}$ $MAD=MAD=median(X_{i}-median)$ SD : Standard deviation (표준편차) AAD : Average Absolute deviation (평균 절대편차) MAD : Median Absolute deviation (중앙값 절대편차) 극단값에 대한 민감도를 알아보기 위해 두개의 데이터를 정의했습니다. 프로그램은 R을 사용했습니다. > dt1=c(1,2,3,4,5,6,7,8,9,10) > ..
2021. 10. 19.