본문 바로가기
@선택과목2/삭제강의(정규성검정 관련)

분위수(Quantile)를 구하는 9가지 방법(#10. Type8 방법)

by bigpicture 2018. 11. 1.
반응형

 

 

통계패키지(R,점유율1위)에서 사용하는 분위수 계산방법에는 9종류가 있습니다. 이전 강의에서 언급했듯이 Type 1~3은 불연속 변수를 대상으로 하고, Type4~9는 연속 변수를 대상으로 합니다. 

 

오늘은 불연속변수의 분위수 계산 방법인 Type 1~3을 가지고 분위수 계산을 해봅시다. 불연속 변수의 경우 '보간'을 사용하지 않고 샘플 중에서 분위수를 선정합니다. 

 

Type8 계산 방법

 

분위수라는 것은 결국 어떤 확률 p 위치에 있는 수가 무엇인지를 구하는 것입니다. 예를들어 4분위수는 확률 0.25,0.5,0.75 위치의 수를 구하는 것입니다. 

 

따라서 아래와 같이 확률을 변수로 하는 분위수 값의 그래프를 그릴 수 있다면 어떤 분위수든 바로 계산이 가능해집니다. Q8(p)를 타입8의 방법으로 구한 분위수라고 정의하겠습니다. 

 

5개의 수를 생성했습니다.

 

24,28,37,43,46

 

각각을 순위로 나타내면 아래와 같습니다.

x1, x2, x3, x4, x5

 

정수 순위가 되는 점을 먼저 찍어줍시다. 지금까지는 type4를 기준으로 변형하며 설명했는데요. type8과 9은 수식을 이용해서 설명드리려고 합니다. 사실 모든 type은 수식으로도 정의가 가능합니다. 쉬운 설명을 위해 수식을 빼고 설명드린 것인데요. type8과 9는 수식 없이는 설명이 불가능합니다. 지금까지 내용(type1~7)을 이해하신 분들이라면 무리 없이 이해할 수 있을 겁니다. type8의 확률-분위수 그래프를 그리기 위해 아래 수식을 정수순위로 만드는 p 값을 찾아주어야 합니다. 이 수식이 갖는 통계적인 의미는 다른 강의에서 설명드리도록 하겠습니다. 이후 강의에서 각각의 type이 갖는 통계적인 의미와 type별 차이를 정리해볼 생각입니다. 

 

 

정수 순위를 K라고 놓아보겠습니다. K에 올 수 있는 값은 1,2,3,4,5입니다. 전체 표본 수가 5개 이기 때문입니다. 

 

 

 

p에 대해서 정리해봅시다. 우리가 정한 예제에서 N은 5이기 때문에 N에 5를 넣어줍시다.

 

 


K에 1,2,3,4,5를 넣으면 정수 순위가 나오는 p를 구할 수 있습니다. 구해봅시다.

 

 

 

 

 

 

 

그래프로 그려봅시다. 

 

 

양 끝값은 x1과 x5로 정의합니다. 이제 각 점을 선으로 연결해봅시다. 

 

 

실제 숫자를 넣어봅시다. (y축 간격은 고려하지 않겠습니다.)

 

 

 

이제 실제로 분위수를 한번 구해봅시다. 가장 대표적인 사분위수를 구해보겠습니다. 그래프를 이용하면 쉽게 구해집니다. 

 

0.25

0.5

0.75

 

이 중 0.25만 구해봅시다. 나머지는 원리가 동일합니다. 

 

 

위 그림의 빨간 선의 직선의방정식을 세워봅시다 .

 

 

이 수식에 0.25를 대입하면 됩니다.

 

0.25에서의 분위수는 26.666....입니다. 

반응형

댓글