본문 바로가기
@선택과목2/삭제강의(정규성검정 관련)

분위수(Quantile)를 구하는 9가지 방법 (#1. 분위수 이해하기)

by bigpicture 2018. 9. 3.
반응형

 

 

Q-Q plot 을 이해하려면 먼저 분위수에 대해 알아야 합니다. 세 강의에 걸쳐서 분위수를 설명드리겠습니다. 분위수는 영어로 quantile입니다. 

 

분위수(quantile)는 오름차순(혹은 내림차순)정렬 되어 있는 전체 자료를 특정 개수로 나눌 때 그 기준이 되는 수입니다. 따라서 분위수 앞에는 자료를 몇 개로 나눌지 결정하는 숫자가 붙어있습니다. 예를들어 이분위수는 자료 전체를 2등분 하는 수들이라는 의미입니다. 우리가 잘 아는 사분위수는 자료 전체를 4등분하는 수들이라는 의미입니다. 

 

 

 

따라서 우리는 무수히 많은 종류의 분위수를 정의할 수 있습니다. 이를 일반화시켜서 q분위수(q-quantiles)이라고 부릅니다. q분위수의 대표적인 이름들을 알아봅시다.

 

- 2분위수(2-quantiles)는 median이라고 부릅니다.

- 4분위수(4-quantiles)은 quartiles 이라고 부릅니다.

- 10분위수(10-quantiles)은 deciles 이라고 부릅니다.


위 그림에서 볼 수 있듯이 각 분위수는 여러개가 있습니다. 예를들어 3분위수는 2개가 있고 4분위수는 3개가 있습니다. 따라서 q분위수는 q-1개가 있게 됩니다. 전체를 q개로 나누기 위해서 필요한 수의 개수가 q-1개이기 때문입니다.  

 

4분위수의 3개의 분위수는 일사분위수, 이사분위수, 삼사분위수 라고 부릅니다. 6분위수의 5개의 분위수는 일육분위수, 이육분위수,...,오육분위수 라고 부릅니다. q분위수의 q-1개의 분위수들은 first q-quantile, second q-quentile, ..., (q-1)th q-quantile 이라고 부릅니다. 

 

모집단의 분포함수를 알고 있다면 전체 면적을 등분하는 위치에 있는 값이 분위수가 됩니다. 그러나 우리는 보통 표본을 뽑고 분위수를 구합니다. 모집단의 분포를 알지 못하는 상황인 것입니다. 이때 사용하는 방법이 '순위 통계(order statistics)'입니다. 각 값의 크기가 아니라 각 값들의 순위를 고려하는 방법입니다. 

 

모집단의 분포함수를 모르기 때문에 일어나는 일이 한가지 더 있습니다. 분위수를 계산하는 방법은 여러가지라는 것입니다. 우리는 모집단의 분포를 알지 못하기 때문에, 주어진 표본들을 가지고 분위수를 '추정'합니다. '추정'에는 정답이 없습니다. 여러 '주장'이 존재합니다. 통계패키지들이 사용하는 분위수 계산 방법은 9가지입니다. 이 9가지 방법은 크게 둘로 나눠집니다.

 

- Type 1~3 : 불연속 변수

- Type 4~9 : 연속 변수

 

앞의 세 방법은 불연속 변수에서 분위수를 구하는 방법입니다. 주어진 수들 중에서 분위수가 결정됩니다. 나머지 여섯가지 방법은 연속변수에서 분위수를 구합니다. 순위가 결정되면 '보간법'을 이용하여 분위수를 구합니다. 다음시간에는 Type 1~3의 계산방법에 대해 알아보겠습니다. 

 

반응형

댓글