본문 바로가기
@ 통계 교양/통계 Tips

p값에 대한 미국통계협회의 입장발표 (이거 계속 써도 되는겨?)

by bigpicture 2021. 10. 20.
반응형

p값에 대한 논란은 꾸준히 제기되어 왔는데요. 미국통계협회에서 공식적으로 발표한 글이 있어서 가져왔습니다. 아래 제목의 글입니다. 

ASA Statement on Statistical Significance and P-Values

구글에 치시면 전문을 보실 수 있습니다. 여기서는 간단히 요약하도록 하겠습니다. 

2014년 2월에 미국 매사추세스주에 있는 마운트 홀리오크 대학의 통계학과 교수인 George Cobb은 아래와 같은 대화형식의 글을 통해 문제를 제기했습니다. 

질문자 : 왜 수많은 대학에서 p값이 0.05라고 가르치는거죠? 
답변자 : 왜냐하면 과학 커뮤니티들과 논문 에디터들이 여전히 p값을 0.05로 사용하기 때문입니다.
질문자 : 그럼 왜 많은 사람들이 여전히 p값을 0.05로 사용하는 걸까요? 
답변자: 왜냐하면 대학에서 그렇게 배웠기 때문입니다. 

읽으면서 어이가 없으신 분들은 맞게 읽으신겁니다. 순환논리죠. 0.05라는 p값을 뚜렷한 근거 없이 수많은 학교에서 가르치고 수많은 사람들이 사용해온 것입니다. 

콥스 교수 뿐만 아니라 여러 사람이 비슷한 의문을 꾸준히 제기해 왔습니다. 그 중 네이처지에 실린 Scientific Method: Statistical Errors 도 읽어볼만 합니다. Basic and Applied Social Psychology 의 편집자는 p값을 아예 금지했습니다. 귀무 가설 검정 자체를 금지한 것입니다. 

이러한 상황에서 미국통계협회는 전문가들을 모아서 성명서(statement)를 작성했습니다. 2015년 10월에 버지니아주 알렉산드리아에 있는 미국통게협회 사무실에서 20명의 맴버가 모여서 2일 동안 회의를 했고, 이후 여러번의 리뷰와 수정을 거쳐서 2016년 1월 29일에 성명에 대한 최종 승인이 납니다. 

내용은 p값에 대한 여섯가지 원칙(principle)입니다. 전부 나열하고 뒤에서 부연설명 하겠습니다. 

1. P-values can indicate how incompatible the data are with a specified statistical model. (p값은 데이터가 특정 통계모델과 얼마나 양립할 수 없는지 보여줄 수 있다.)

2. P-alues do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone. (p값은 연구된 가설이 참일 확률을 나타낼 수 없다. 또한 p값은 데이터가 우연히 발생할 확률을 나타낼 수도 없다.)

3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. (과학적 결론과 사업 또는 정책 결정은 p값이 임계값을 넘었느냐 아닌가를 근거로 해서는 안된다.)

4. Proper inference requires full reporting and transparency (적절한 추론은 전부 보고하는 것과 투명성을 필요로 한다.)

5. A p-alue, or statistical significance, does not measure the size of an effect or the importance of a result. (p값이나 통계적 유의성은 효과의 크기나 결과의 중요성을 판단하지 못한다.)

6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis. (p값 그 자체로는 모델이나 가설에 대한 좋은 판단의 근거가 되지 못한다.)

추가 설명이 필요한지 봅시다. 쉬운 내용을 하나씩 걸러봅시다. 4번은 너무 당연하죠. 5번도 당연합니다. p값이 낮다고 더 중요한 결과라고 할 수는 없습니다. 6번도 같은 얘기구요. 3번도 같은 얘깁니다. 1,2번만 이야기해보면 되겠네요. 

1번은 그냥 가설검정의 원리입니다. 귀무가설이 참이라고 가정하고, 우리가 뽑은 데이터보다 극단적인 값이 발생할 확률이 0.01%라고 합시다. 귀무가설이 참임에도 불구하고 0.01% 이라는 희박한 영역에 있는 값이 발생했다고 하는게 합리적인가요? 이 값은 귀무가설과 뽑힌 데이터가 얼마나 양립할 수 없는지를 보여줍니다. 하지만 얼마나 양립할 수 없는지를 보여주는 것일 뿐, 귀무가설이 참인지 아닌지를 판가름해 줄 수는 없습니다. 

2번이야기를 해봅시다. p값이 3%가 나왔습니다. 귀무가설이 참일 확률이 3%인가요? 아닙니다. 그렇다면 3%는 우리가 뽑은 데이터가 우연히 발생할 확률인가요? 그것도 아닙니다. p값을 이해하고 있다면 아니라는 것을 쉽게 알 수 있습니다.

p값에 대해 오해할 수 있는 내용들이 잘 담겨있는 것 같아 보입니다. p값을 제대로 이해하면 당연한 이야기지만 p값을 기계적으로 사용하는 사람들에게는 생소한 이야기일 겁니다. 이 statement 정도는 이해할 수 있는 상태에서 p값을 사용하면 위에서 제기된 것과 같은 불상사들은 줄어들 것 같에요. 

반응형

댓글