본문 바로가기
@ OO의 이해/왜도(Skewness)의 이해

[왜도의 이해] 2. 피어슨의 정의

by bigpicture 2021. 8. 9.
반응형

아래 목차로 진행하고 있습니다. 두번째 글입니다. 

 

1. 왜도란 무엇인가?
2. 피어슨의 정의
3. 왜도의 부호
4. 왜도와 적률
5. 왜도와 누율
6. 평균, 중앙값, 최빈값의 위치
7. 왜도 0이면 항상 대칭일까?
8. 표본의 왜도
9. 또 다른 정의들


피어슨은 왜도를 아래와 같은 수식으로 정의했습니다. 

 

$\gamma _{1}=E \left [ \left ( \frac{X- \mu}{\sigma} \right )^{3} \right ]$

 

피어슨은 이 수식을 어떤 과정에 의해 떠올리게 되었을까요? 분산이 편차의 제곱의 기댓값이니 편차의 세제곱의 기댓값은 쉽게 떠올릴 수 있습니다. 

$E \left [ \left ( X- \mu \right )^{3} \right ]$

평균으로 부터 우측에 있는 확률변수로 계산된 값들은 (+)가 되고, 평균으로 부터 좌측에 있는 확률변수로 계산된 값들은 (-)가 됩니다. 둘을 합한 값은 어떤 의미를 가질까요? 확률분포가 대칭이라면 0인 값을 가질 것입니다. 이 값이 0이 아니라면 확률분포가 대칭이 아니라는 말이 됩니다. 


또한 이 값이 0으로 부터 멀어질 수록 비대칭도가 커질 것이라고 어렴풋하게 받아들일 수 있습니다. 이 부분도 클리어하게 이해하고 싶지만 지금은 생각나지 않네요. 나중으로 미루겠습니다. 

이제 아래 수식이 왜도를 나타낼 수 있다는 것은 알게되었습니다. 

$E \left [ \left ( X- \mu \right )^{3} \right ]$

그렇다면 왜 표준편차로 나눈 뒤에 세제곱을 하는 것일까요. $X-\mu$ 를 표준편차로 나눠주는 것은 표준화를 의미합니다. 정규분포에서 생각해보면, 각기 다른 평균과 표준편차를 가진 정규분포를 평균이 0이고 표준편차가 1인 표준정규분포로 바꿔주는 것을 의미합니다. 표준화를 하면 확률분포들 사이의 왜도를 '비교'하는 것이 가능합니다. 

쉽게 말하면 확률변수와 평균의 차이를 '확률변수와 평균의 차이는 표준편차의 몇배인가'로 바꾸는 것입니다. 

만약 아래 수식을 사용한다면 확률변수 사이의 왜도를 비교하는 것이 불가능합니다. 

$E \left [ \left ( X- \mu \right )^{3} \right ]$

확률변수들 사이의 단위가 다를 경우 값이 큰 확률변수의 왜도가 클 것이기 때문입니다. 예를 들어 서울시 아파트 높이의 분포와 손가락 길이의 분포의 왜도를 구하면 서울시 아파트 높이분포의 왜도가 훨씬 클 것입니다. 실제로 치우친 정도가 크지 않아도 말이죠. 표준화를 하게 되면 값의 크기 효과가 사라지기 때문에 비교가 가능해집니다. 

반응형

댓글