본문 바로가기
@선택과목2/삭제강의(정규성검정 관련)

분위수(Quantile)를 구하는 9가지 방법(#2~5. Type1~3 방법)

by bigpicture 2018. 9. 26.
반응형

 

 

 

 

 

 

 

통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 

 

오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. 

 

Type1 계산 방법 (올림 round up)

 

분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 

 

따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q1(p)를 타입1의 방법으로 구한 분위수라고 정의하겠습니다. 

 

5개의 수를 생성했습니다.

 

24,28,37,43,46

 

각각을 순위로 나타내면 아래와 같습니다.

x1, x2, x3, x4, x5

 

p가 0.5인 경우를 예를들어봅시다. 전체가 5개이기 때문에 0.5인 위치의 순위는 5*0.5=2.5위 입니다. 2.5위는 존재하지 않기 때문에 인접한 자연수 순위로 바꾸어 주어야 합니다. Type1은 이때 '올림'을 합니다. 2.5위 → 3위가 되는 것이고 아래와 같이 그려집니다. 

 

나머지 값도 그려보면 아래와 같습니다. 

 

 

숫자를 넣어서 그려봅시다. (y 값의 간격은 무시했습니다.)

 

 

이제 실제로 분위수를 한번 구해봅시다. 가장 대표적인 사분위수를 구해보겠습니다. 그래프를 이용하면 쉽게 구해집니다. 

 

0.25 : 28

0.5 : 37

0.75 : 43

 

<요약>

 

- 확률 p의 Type1 위수는 np를 올림한 순위에 해당되는 수.

- p=0에서는 

, p=1에서는 

 

 

Type2 계산 방법 (올림 + 보정)

 

분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 

 

따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q2(p)를 타입2의 방법으로 구한 분위수라고 정의하겠습니다. 

 

 

5개의 수를 생성했습니다.

 

24,28,37,43,46

 

각각을 순위로 나타내면 아래와 같습니다.

x1, x2, x3, x4, x5

 

지난시간에 그린 type1의 그래프에서 출발하겠습니다. Type1 그래프는 아래와 같습니다 .

 

 

Type2가 1과 다른점은 불연속 점에서 평균값을 사용한다는 것입니다. 양 끝값은 평균낼 다른 값이 없기 때문에 그대로 유지합니다. Type2 그래프는 아래와 같습니다. 

 

 

 

숫자를 넣어서 그려봅시다. (y 값의 간격은 무시했습니다.)

 

 

이제 실제로 분위수를 한번 구해봅시다. 가장 대표적인 사분위수를 구해보겠습니다. 그래프를 이용하면 쉽게 구해집니다. 

 

0.25 : 28

0.5 : 37

0.75 : 43

 

<요약>

 

- 확률 p의 Type2 분위수는 np를 올림한 순위에 해당되는 수, 불연속점에서는 평균값 사용. 

- p=0에서는 

, p=1에서는 

 

Type3 계산 방법 (오사오입 : 반올림의 일종)

 

분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 

 

따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q3(p)를 타입3의 방법으로 구한 분위수라고 정의하겠습니다. 

 

 

5개의 수를 생성했습니다.

 

24,28,37,43,46

 

각각을 순위로 나타내면 아래와 같습니다.

x1, x2, x3, x4, x5

 

정수 순위가 되는 점을 먼저 찍어줍시다. 표본 수가 5개 이므로 0.2,0.4,0.6,0.8에서 정수 순위가 발생합니다. 

 

 

 

Type3는 반올림을 사용합니다. 일반적인 반올림과 조금 다른데, 일단 일반적으로 우리가 알고 있는 반올림을 사용해서 그려봅시다. 우리가 일반적으로 알고 있는 반올림을 정확히 말하면 사사오입입니다. 4가 나오면 버리고, 5가 나오면 올린다는 뜻입니다. 아래와 같이 그려집니다. 

 

 

 

p가 0.1(np=0.5위)보다 작을 때는 버릴 수가 없기 때문에 x1으로 정의합니다. 여기까지 이해 되셨으면 Type3 반올림을 설명드리겠습니다. Type3 반올림은 오사오입이라는 방법을 사용합니다. 영어로 하면 Round-to-nearest-even 입니다. 절반에 걸리는 경우 가까운 짝수로 보내는 것입니다. 예를 들어 p=0.5에서는 순위가 2.5위입니다. 반올림하면 3인데, 가까운 짝수로 보내기 때문에 2로 보냅니다. 쉽게 말하면 tie일때 even을 택하는 것입니다. 이 원리로 다시 그려보겠습니다. 

 

 

 

이제 실제로 분위수를 한번 구해봅시다. 가장 대표적인 사분위수를 구해보겠습니다. 그래프를 이용하면 쉽게 구해집니다. 

 

0.25 : 24

0.5 : 28

0.75 : 43

 

<요약>

 

- 확률 p의 Type3 분위수는 np를 반올림한 순위에 해당되는 수(tie일 경우 even값 취함) 

- p<1/2n 에서는 함수값을 x1으로 정함

 

반응형

댓글