본문 바로가기
@선택과목2/삭제강의(정규성검정 관련)

Q-Q plot 그리는 법 (5) 정규분포와의 비교

by bigpicture 2018. 11. 18.
반응형

 

 

이번 시간에는 데이터를 정규분포와 비교할 수 있는 Q-Q plot을 그려보겠습니다. '정규성 검정'의 기능을 하는 Q-Q plot입니다. 

 

먼저 데이터를 하나 생성합시다.

 

Data1 : 24, 28, 37, 43, 46

 

이제 Data1의 확률 분위수 그래프를 그리고, 같은 확률의 분위수를 정규분포에서 찾아주시면 됩니다

원리는 앞의 방법과 동일한데 주의할 점이 하나 있습니다. Type7를 예를들어봅시다. Data1의 Type7 그래프를 그리면 아래와 같습니다. 오른쪽에는 표준정규분포의 역누적분포함수를 그리겠습니다. 

 

 

 

data1의 각 값들을 분위수로 하는 확률은 0, 0.25, 0.5, 0.75, 1입니다. 문제가 뭔지 아시겠죠? 표준정규분포 누적분포함수의 역함수에서는 확률이 0과 1인 곳에서 그 값이 존재하지 않습니다. 0에 가까워질 수록 음의 무한대로, 1에 가까워질 수록 양의 무한대로 발산합니다. 따라서 그 값을 정의할 수가 없습니다. 이 문제는 type8 또는 9의 방법을 사용하면 해결됩니다. 

 

Data1의 확률분위수 그래프를 type9의 방법으로 그리면 아래와 같습니다.

 

 

이제 데이터1의 각 값들을 분위수로 하는 확률은 5/42, 13/42, 21/42, 29/42, 37/42 입니다. 이 확률에 해당되는 분위수값을 표준정규분포에서 계산하면 됩니다. 표준정규분포함수는 아래와 같습니다. 

 

 

적분하면 누적표준정규분포 함수를 구할 수 있습니다.

 

 

위 함수의 역함수에 다음의 확률  5/42, 13/42, 21/42, 29/42, 37/42 을 넣고 값을 구하면 됩니다. 이때의 값들을 x1,x2,x3,x4,x5 라고 하겠습니다. 손으로는  푸는것이 어렵기 때문에 엑셀의 norm.s.inv() 함수를 이용하여 구하겠습니다. 소수점 셋째자리에서 반올림하였습니다. 

 

 

 

 

 

 

이제 data1과 표준정규분포의 QQ-plot을 그릴 수 있습니다. 아래와 같이 그려집니다. 그래프는 R을 이용하여 그렸습니다.

 

 

 

(R에서 QQ plot 그리는 방법 : https://hsm-edu.tistory.com/484)

 

반응형

댓글