본문 바로가기
@ OO의 이해/데이터 없이 하는 검정

[데이터 없이 하는 검정] 1. 데이터는 없고 평균,분산,표본크기만 알아요. F검정 가능한가요?

by bigpicture 2019. 10. 22.
반응형

*데이터가 없는 상황을 가정하고 F검정의 절차를 이해하는 강의입니다. F검정이 무엇인지는 알고 있다고 전제합니다. 

 

한가지 상황을 가정합시다. 두 집단의 데이터를 이용해서 평균,표준편차를 구해놓고 잠깐 눈을 붙인 사이에 데이터가 날아갔습니다. 데이터의 크기는 알고 있는 상태입니다. F검정을 하고 나서 t검정을 할 생각이었습니다. 가능할까요? 

 

결론부터 말씀드리면 가능합니다. 

 

우리가 F검정을 하는 절차를 생각해봅시다. 표본1과 표본2의 데이터를 엑셀에 입력하고, 통계 도구를 이용하여 검정을 합니다. p값이 계산되어 나오고, 우리는 기각 여부를 결정합니다. 

 

 

Step 2의 과정은 엑셀이 알아서 계산해줍니다. 우리는 black box에 데이터를 집어넣고 버튼만 누르면 됩니다. 그런데 지금은 이 black box에서 일어나는 일을 알아야 검정을 할 수 가 있습니다. step2에서 일어나는 과정을 세부적으로 나눠보겠습니다. 

 

 

2-1 과정에서 필요한 평균, 분산은 알고 있습니다. 자유도는 각각의 표본의 크기에서 1을 빼주면 됩니다. 2-1과정은 해결됐습니다. 2-2과정으로 갑시다. F통계량을 구해야합니다. F통계량은 아래와 같이 구합니다. 두 표본을 각각 X¹과 X²라고 놓겠습니다. 

 

 

2-2는 해결됐습니다. 2-3으로 갑시다. F분포 함수는 두 표본의 자유도로 결정됩니다. 함수가 결정되었으니, F통계량을 이용하여 p-value를 구하면 됩니다. 

 

 

이때 F분포 상에서, 우리가 구한 f통계량이 어느 위치에 있느냐가 문제가 됩니다. 

 

f통계량은 두 표본 분산 크기에 따라 1보다 클 수도 있고, 작을 수도 있습니다. F통계량이 F분포 상에서 어느 위치에 있느냐에 따라, p-value가 오른쪽 꼬리 넓이가 될 수도 있고 왼쪽 꼬리 넓이가 될 수도 있습니다. 

 

p-value가 구해지는 방향(오른꼬리 or 왼쪽꼬리)은 평균이 아니라 median을 기준으로 합니다. 확률분포에서 median을 기준으로 좌우 확률이 같습니다. t분포는 평균과 median이 같기 때문에, 어느쪽 꼬리 넓이인지를 평균을 기준으로 결정했습니다. 평균과 median이 다를 경우는 median을 기준으로 결정해야 하는데 F분포가 이런 경우입니다. 다행히 두 표본의 크기가 같거나, 다르더라도 F median은 거의 1이라서 1을 기준으로 결정하면 됩니다. 더 정확히 하고 싶은 분들은 F통계량을 기준으로 좌,우 확률을 구하고 작은 값을 p-value로 취하시면 됩니다. 

 

아래는 평균,분산,표본크기만 입력하면 F분포 계산할 수 있도록 만들어놓은 엑셀파일 입니다. 다운로드 하셔서 사용하시면 됩니다. 

 

데이터 없이 하는 F검정.xlsx
다운로드

 

엑셀 수식을 보면서 원리를 한번 더 이해해보시면 좋습니다. 항상 작은쪽 꼬리의 값이 p-value로 출력되도록 수식을 입력하였습니다. 

 

 

반응형

댓글