상자수염그림은 아래와 같은 그래프를 말합니다.
살충 스프레이 종류와 곤충 수 데이터를 사용하여 그린 상자수염그림입니다. R이라는 통계프로그램에서 제공하는 내장데이터입니다. x축이 살충 스프레이 종류이고, y축이 곤충 수 입니다. 스프레이는 A,B,C,D,E,F 의 6종류입니다. 각 스프레이당 12번씩 실험을 했습니다. 곤충 수는 살아 남은 곤충 수 인지, 죽은 곤충 수 인지 나와있지 않아서 죽은 곤충 수라고 가정합시다. 데이터의 일부를 살펴보면 아래와 같습니다.
> InsectSprays
count spray
1 10 A
2 7 A
3 20 A
4 14 A
5 14 A
6 12 A
7 10 A
8 23 A
9 17 A
10 20 A
11 14 A
12 13 A
13 11 B
14 17 B
15 21 B
16 11 B
17 16 B
18 14 B
19 17 B
독립변수는 스프레이의 종류입니다. 범주형 데이터구요. 종속변수는 죽은 곤충 수 입니다. 수치형 데이터입니다. 상자수염그림은 독립변수가 범주형이고 종속변수가 수치형인 데이터에 적합한 그래프입니다.
독립변수 : 범주형
종속변수 : 수치형
t검정이나 분산분석에 사용되는 데이터의 그래프를 그릴 때 사용됩니다.
상자수염그림의 모양을 하나씩 뜯어보면서 가로줄들이 어떤 의미인지 알아봅시다.
Q1,Q2,Q3 란?
먼저 가운데 있는 네모 박스를 봅시다. 세개의 세로줄이 있고 Q1,Q2,Q3라고 되어 있습니다. Q는 quartile 의 앞글자입니다. quartile 은 사분위수라는 뜻입니다. 사분위수는 전체를 넷으로 나눈 수라는 뜻입니다.
사: 넷으로
분 : 나누는
위 : 위치에 있는
수 : 숫자
전체를 넷으로 나누려면 수가 몇개 필요할까요? 3개면 됩니다.
이 세 사분위수를 각각 1사분위수, 2사분위수, 3사분위수라고 부릅니다. 전체를 같은 간격으로 나누기 때문에 1사분위수는 25% 위치, 2사분위수는 50% 위치, 3사분위수는 75% 위치에 있습니다. 순서를 기준으로한 위치입니다. 예를들어 전체 원소가 100개 라면, 크기 순으로 25번째 원소가 1사분위수, 50번째 원소가 2사분위수, 75번째 원소가 3사분위수가 됩니다. 2사분위수는 중앙값과 같습니다. 1,2,3사분위수는 줄여서 Q1,Q2,Q3라고 부릅니다.
Q1 : 1사분위수 (25% 위치)
Q2 : 2사분위수 (50% 위치)
Q3 : 3사분위수 (75% 위치)
만약 전체가 100개가 아니라 99개 혹은 101개라면 분위수 계산이 다소 복잡해지는데 이어지는 강의들에서 다루겠습니다.
IQR 이란?
IQR 은 Interquartile range의 줄임말입니다. 우리말로 사분위범위 라고 부릅니다. 사분위수의 범위라는 말인데요. 3사분위수에서 1사분위수를 뺀 값으로 정의됩니다.
IQR = Q3-Q1
이상치란?
이상치는 말 그대로 '이상한 값'입니다. 영어로 outlier 라고 합니다. 다른 관측치와 값이 크게 다른 값입니다. 데이터가 측정값이라면 측정 실수인 경우가 많습니다. 예를들면 키 데이터인데 815cm 라는 값이 있는 것입니다. 185cm를 잘못 입력한 경우입니다. 어떤 값 부터 이상치로 할 것인가는 각자에게 달려있는데, 일반적으로 아래와 같이 정의됩니다.
Q3+1.5*IQR 보다 큼
Q1-1.5*IQR 보다 작음
최댓값, 최솟값
상자수염그림에서 최댓값은 이상치를 제외한 값들 중 가장 큰 값을 말합니다. 최솟값도 이상치를 제거한 값들 중 가장 작은 값입니다.
상자수염그림에 평균을 표시하는 경우도 있습니다. 평균은 x 로 표시합니다.
댓글