본문 바로가기
@ 통계 교양/통계 Tips (영상)

p값은 왜 ~보다 큰 쪽의 확률을 보고 판단하는 건가요??"

by bigpicture 2020. 4. 25.
반응형

 

 

p-value를 처음 접하는 분들은 아래 강의를 먼저 보고 오시기 바랍니다. 

 

[손으로 푸는 통계] 21. 통계적 가설 검정 감잡기 1 (귀무가설, 대립가설)

[손으로 푸는 통계] 22. 통계적 가설 검정 감잡기 2 (1표본 Z검정)

 

[손으로 푸는 통계] 23. 통계적 가설 검정 감잡기 3 (유의수준 α, 유의확률 p-value)

 


아마 많은 분들이 p-value를 익숙하게 사용하고 계실겁니다. 우리는 p-value를 정말 이해하고 사용하고 있을까요? 

 

한 구독자분께서 주신 질문이 리트머스 시험지가 될 수 있습니다. 

 

"왜 

보다 큰 쪽의 확률을 보고 판단하는 건가요??"

 

먼저 이 질문을 설명드리겠습니다. 

 

p-value를 구하는 과정을 생각해봅시다. 가장 간단한 1표본 t검정을 하는 상황이고, 단측검정을 할 것입니다. 

 

먼저 우리가 뽑은 표본의 크기를 이용하여 t분포를 가정합니다. 

 

 

그리고 우리가 뽑은 하나의 표본평균과 표본표준편차t통계량을 구하고, t분포에 표시합니다. 

 

 

여기서 우리가 알고 있는 확률밀도값은 t1에 대한 함수값 하나입니다. 그런데 갑자기 t1 이상일 확률을 구하여 p-value라고 놓습니다. (아래 그림)

 

 

이 값을 검정의 판단 기준으로 사용합니다. 구독자분께서는 이부분을 궁금해하신 것입니다. 

 

답은 생각보다 간단합니다. 

 

위 그림에서 t1이 나오기 희박한 확률을 가진 값이라 기각대상으로 결정했다고 해봅시다. t1이 희박한 값이라면, t1보다 더 낮은 확률밀도를 가진 값들은 더 나오기 희박한 값들입니다. 따라서 t1을 기각대상으로 정했다면, t1 보다 희박한 값들은 당연히 기각대상이 되어야 합니다.

 

따라서 어떤 값을 기각 대상으로 정하는 순간, 그 대상보다 희박한 값들이 전부 기각 대상에 포함되게 되고, '기각되는 영역'이 생기게 됩니다. 

 

이런 이유로 우리는 기각되는 어떤 '값'이 아니라 어떤 값보다 극단적인 '영역'을 정해야 하는 것입니다. 

 

의문은 해결되셨으리라 생각합니다. 이 의문과 관련된 한가지 상황을 더 다뤄보겠습니다. 균등분포 하나를 정의합시다. 

 

 

확률변수는 0부터 5까지의 값을 갖고, 각 값의 확률밀도는 1/5 입니다. 기각역을 어떻게 정해야 할까요? 기각역을 정할 수 없습니다. 한 값을 기각역으로 정하는 순간, 모든 값이 기각역이 되어버리기 때문입니다.

 

극단적 기각역이 존재하려면 분포 자체가 극단적인 영역을 갖고 있어야 합니다. 

 

반응형

댓글