본문 바로가기
@선택과목2/삭제강의(정규성검정 관련)

Z검정의 한계(정규성,t,비모수검정의 출현+디시전트리)

by bigpicture 2018. 6. 2.
반응형

 

 

지금까지 우리는 Z검정에대해 공부했습니다. Z검정은 아무때나 사용할 수 있는 검정방법은 아닙니다. Z검정을 하기 위해서는 두 가지 조건이 필요합니다. 

 

1) 모집단의 분산을 알고 있음

2) 중심극한정리를 적용할 수 있을 만큼 표본의 크기가 충분히 큼(or 모집단이 정규분포를 따름)

 

2)번은 표본평균의 분포를 정규분포로 가정하기 위한 조건입니다. 

 

이제 이런 질문이 생깁니다. 

 

표본의 크기가 충분히 크다는게 어느정도지?

모집단의 분산을 모를 때는? 

표본의 크기가 충분히 크기 않을 때는?

 

일단 첫번째 질문에 먼저 답하겠습니다. 일반적으로, 경험적으로 표본의 크기가 30개 이상이면 중심극한정리를 만족한다고 가정합니다.

 

나머지 세 질문이 매우 중요한데요. 이런 질문들이 여러 검정 방법들을 탄생시켰습니다. 오늘은 그 이야기를 하려고 합니다. 

 

1. T 검정의 출현

 

통계검정을 하는 실제 상황에서는 모집단의 분산을 모르는 경우가 대부분입니다. 모집단의 분산을 모르면 어떤 일이 벌어지나요? 표본평균의 분산인 σ²/n 을 구할 수가 없고, 따라서 표본의 크기가 충분히 클지라도 정규분포를 가정할 수가 없습니다. 분산을 모르니까요. 

 

하지만 알고 있는 통계량이 하나 있습니다. 우리가 뽑은 표본의 분산입니다. 모집단의 분산 대신 표본의 분산을 이용하여 만든 분포가 t분포 입니다. t분포의 유도과정은 이후 강의에서 다루도록 하고, 오늘은 t분포의 존재만 아시면 됩니다. 

 

표본평균이 정규분포를 따르는 상황에서 모분산 대신 표본분산을 사용한 것입니다. 따라서 t검정도 아래 두 조건 중 하나를 만족할 때 사용가능합니다.

 

- 중심극한정리를 가정할 만큼 표본의 크기가 충분히 큼

- 모집단이 정규분포를 따름(표본평균은 무조건 정규분포를 따르게됨) 

2. 정규성검정

 

표본의 크기가 충분히 크지 않은데, 모집단이 정규분포를 따르는지 모를 때가 있습니다. 어떤 상황이죠? 표본평균이 정규분포를 따른다고 할 수 없는 상황입니다. 이 때 사용하는 검정이 정규성검정입니다. 내가 뽑은 표본이, 정규분포를 따르는 모집단에서 나온 것인지 아닌지를 판단해주는 검정방법입니다. 만약 정규성검정을 통해 정규성이 입증되면, z검정이나 t검정을 사용할 수 있습니다. 여기서 어떤 검정을 쓸지는 모분산을 아는지 여부에  따라 결정되구요. 

 

3. 비모수검정

 

표본의 크기가 충분히 크지 않고, 모집단이 정규분포를 따르는지 몰라서 정규성 검정을 했습니다. 그런데 정규성을 가정할 수 없다는 결과가 나온겁니다. z검정도, t검정도 할 수 없는 상황입니다. 이런 상황에 사용하려고 만들어진 방법이 비모수검정입니다. 모수가 뭐였죠? 모수는 모집단의 통계량입니다. 비모수라는 말은 모집단의 분포를 가정하지 않는다는 뜻입니다. 따라서 분포무관(distribution free)검정이라도고 합니다. 여러가지 비모수검정방법은 이후 강의에서 다루도록 할게요.

 

4. 디시전트리(decision tree)

 

다양한 통계방법 중 아주 일부를 다룬 것입니다. 그런데도 언제 무엇을 써야할지 헷갈립니다. 이런 문제를 해결하기 위해 생겨난 것이 디시전트리입니다. 지금 보여드리는 디시전트리는 아주 축약된 버젼입니다. 우리가 아는 검정만을 포함하기 때문이죠. 그림을 보면 바로 이해되실 것이기 때문에 그림으로 설명을 대신하겠습니다. 

 

 

앞으로 다양한 검정방법들을 공부하며 디시전트리를 완성해가도록 합시다. 

반응형

댓글