두 집단의 평균을 비교하기 위해 t검정을 했고 p값이 0.001이 나왔다고 합시다. p값이 0.05보다 작으므로 두 집단의 평균이 다르다고 판단할 것입니다.
하지만 통계적 유의차가 있다고 정말 의미있는 차이일지는 생각을 해봐야 합니다. 통계적 유의차가 있는 것과 실제로 의미있는 차이인 것은 별개의 문제입니다. 아래 사례를 통해 알아봅시다.
두 모집단 A와 B가 있습니다. 변수는 키(height)라고 합시다. 집단 A의 평균 키는 180, 집단 B의 평균 키는 180.01이라고 합시다. 각 집단에서 크기가 n인 표본을 뽑았습니다. 집단 A의 표본평균과 표본분산은 $\bar{X}_{A}$, $s_{A}$ 이고 집단 B의 표본평균과 표본분산은 $\bar{X}_{B}$, $s_{B}$ 라고 합시다. 그림으로 나타내면 아래와 같습니다.
t통계량을 구하면 아래와 같습니다. 두 집단의 분산이 다르다고 가정했습니다. 아래는 이분산 가정 t통계량입니다.
t통계량
$T=\frac{\bar{X}_{B}-\bar{X}_{A}}{\sqrt{
\frac{s_{B}^{2}}{n}+\frac{s_{A}^{2}}{n}
}}$
자유도
$df= \frac{ \left ( \frac{s_{B}^{2}}{n} + \frac{s_{A}^{2}}{n} \right )^2 }
{
\frac { \left ( \frac{s_{B}^{2}}{n} \right )^2 } {n-1} +
\frac { \left ( \frac{s_{A}^{2}}{n} \right )^2 } {n-1}
}$
n이 커지면 자유도와 t통계량도 커집니다. 자유도도 커집니다. 따라서 p값은 작아집니다. n커지면 언젠가 p값은 0.05 보다 작아지게 되고 유의차가 발생하게 됩니다. n을 모집단 크기만큼 키워도 유의차가 발생하지 않는 경우는 한가지 밖에 없습니다. 두 모집단의 평균이 완전히 같은 경우입니다. 이때는 n을 모집단 크기만큼 키우면 t값은 0이 됩니다.
위 예시에서도 n을 키우면 p값은 언젠가 0.05 보다 작아지게 됩니다.우리는 아래와 같은 결론을 내릴 것입니다.
"두 집단의 키에는 통계적 유의차가 있다"
이 의미를 두 집단의 키에 의미있느 정도의 차이가 있다 라고 생각하는 경우가 있습니다. 상식적으로 생각해봅시다. 평균 키가 180인 모집단과 180.01인 모집단은 다르다고 할 수 있나요? 아마 사람마다 판단이 달라질 것입니다. 저는 다르다고 할 수 없다고 생각합니다. 그게 그거죠. 통계적 유의차는 발생했을 지라도 의미있는 차이가 아닐 수 있습니다.
통계적 유의차가 있다는 말은 두 모집단의 평균이 모든 소수점 자리까지 토시 하나 안틀리고 같은 것은 아니다 라는 정보만 제공합니다. 그 차이에 의미를 부여하는 것은 각자에게 달려 있습니다.
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
표본평균의 분포는 정말 정규분포가 될 수 있을까 (2) p 값 비교 (0) | 2022.09.16 |
---|---|
표본평균의 분포는 정말 정규분포가 될 수 있을까 (1) 그래프 비교 (0) | 2022.09.16 |
t검정에서 표준편차가 p값에 주는 영향 (0) | 2022.09.05 |
t검정 대신 상관분석을 쓸 수 있다고? (0) | 2022.08.21 |
n이 커지면 정규분포로 근사시킬 수 있는 분포들 (0) | 2022.07.21 |
p 값이 0.05 일 때 Z는 얼마일까 (0) | 2022.07.20 |
정규분포를 따르는 확률변수의 실수배 aX 의 분포 (0) | 2022.07.16 |
신뢰구간과 신뢰수준의 진짜 의미 (5) | 2022.07.16 |
댓글