본문 바로가기
@ 통계 교양/통계 Tips

상자수염그림에서 이상점(outlier)이란?

by bigpicture 2021. 12. 30.
반응형

상자수염그림은 사분위수와 최댓값,최솟값으로 만든 그래프입니다. 아래 왼쪽 그림을 봅시다. 맨 위 가로선이 최댓값, 맨 아래 가로선이 최솟값입니다. 가운데 박스에 세개의 세로선이 있습니다. 자료를 크기 순으로 정렬했을 때 25%, 50%, 75% 에 해당되는 값입니다. 각각 Q1,Q2,Q3 라고 부릅니다. 50%에 해당되는 값을 중앙값이라고 합니다. Q는 Qurtile 이고 분위수라는 말입니다. Q1은 일사분위수 입니다. 

 

 

오른쪽 그림을 보면 점이 하나 찍혀있습니다. 이 점을 이상치(outlier) 라고 합니다. 혼자서 아주 크거나, 아주 작은 값을 이상치로 분류합니다. 이상치는 '실수'로 입력된 값일 수도 있고 실제 값일 수도 있습니다. 예를들어 사람의 키 데이터라면 이상치는 실수일 가능성이 높습니다. 

 

상자수염그림에서 이상치는 Q3+1.5*IQR 보다 큰 값 또는 Q1-1.5*IQR 보다 작은 값을 말합니다. IQR 이란 inter-quartile range 로 Q3-Q1입니다. 

반응형

댓글