기하 표준편차는 데이터가 기하평균에서 얼마나 흩어져 있는가를 나타내는 값입니다. 기하평균을 사용하는 것이 적합한 데이터에서 기하 표준편차를 사용합니다.
아래와 같이 크기가 n인 데이터가 있다고 합시다.
$\left \{ x_{1},x_{2},...,x_{n} \right \}$
기하평균은 아래와 같습니다.
$\mu_{g}=\sqrt[n]{x_{1}x_{2}\cdots x_{n}}$
양변에 자연로그를 취해줍니다.
$\ln \mu_{g}=\ln \sqrt[n]{x_{1}x_{2}\cdots x_{n}}$
로그의 성질을 이용하여 아래와 같이 변형합니다.
$\ln \mu_{g}=\frac{1}{n} \ln x_{1}x_{2}\cdots x_{n}$
로그의 성질을 이용하여 아래와 같이 분리해서 써줍니다.
$\ln \mu_{g}=\frac{1}{n}( \ln x_{1}+\ln x_{1}+ \cdots + \ln x_{n})$
아래와 같이 한번 더 변형합시다.
$\mu_{g}=e^{\frac{1}{n}( \ln x_{1}+\ln x_{1}+ \cdots + \ln x_{n})}$
따라서 기하평균을 아래와 같이 이해할 수 있습니다. 자연상수를 밑으로 하는 지수함수에 $\ln x$ 의 산술평균이 입력된 형태입니다.
$\mu_{g}=e^{E(\ln x)}$
이때 기하 표준편차를 아래와 같이 정의하는 것이 자연스럽습니다.
$\sigma_{g}=e^{\sigma(\ln x)}$
수식으로 쓰면 아래와 같습니다.
$\sigma_{g}=e^{\sqrt{\frac{ \sum_{i=1}^{n} \left ( \ln x_{i} - \ln \mu_{g} \right )^2 }{n}}}$
기하표준편차는 이렇게 정의가 되는건 알겠는데 한가지 의문이 듭니다. 기하평균을 가지고 기존의 표준편차를 구하는 방법으로 하면 안되는걸까? 왜 굳이 새로운 정의를 한걸가?
'@ 통계 교양 > 통계 Tips' 카테고리의 다른 글
코호트연구와 환자-대조군 연구의 비교 및 장단점 (4) | 2021.08.31 |
---|---|
2x2 분할표의 사용예시 (진단성능,코호트연구, 실험군-대조군 연구) (0) | 2021.08.27 |
신뢰도(reliability) 와 타당도(validity)의 차이 (0) | 2021.08.26 |
민감도와 특이도, 무엇이 높은게 좋은가 (0) | 2021.08.25 |
인사채용의 1종오류와 2종오류 (4) | 2021.06.23 |
통계적 유의차가 있으면 의미 있는 차이인 걸까 (0) | 2021.06.22 |
기하분포의 두가지 정의와 각각의 분포함수, 평균, 분산 (2) | 2021.06.06 |
분산분석에서 요인(factor)과 수준(level)의 의미 (0) | 2021.06.01 |
댓글