본문 바로가기
@ OO의 이해/왜도(Skewness)의 이해

[왜도의 이해] 3. 왜도의 부호

by bigpicture 2021. 8. 10.
반응형

1. 왜도란 무엇인가?
2. 피어슨의 정의
3. 왜도의 부호
4. 왜도와 적률
5. 왜도와 누율
6. 평균, 중앙값, 최빈값의 위치
7. 왜도 0이면 항상 대칭일까?
8. 표본의 왜도
9. 또 다른 정의들


지난시간에 피어슨이 정의한 왜도를 배웠습니다. 

 

$\gamma _{1}=E \left [ \left ( \frac{X- \mu}{\sigma} \right )^{3} \right ]$

 

이번 시간에는 왜도의 부호에 대해 알아봅시다. 아래와 같이 두개의 그래프가 있습니다. 

 

 

두 그래프의 왜도 부호가 다를 것은 쉽게 예상할 수 있습니다. 어느 그래프의 왜도가 양수일까요? 왜도의 정의를 봅시다. 

 

$\gamma _{1}=E \left [ \left ( \frac{X- \mu}{\sigma} \right )^{3} \right ]$

 

A번 그림은 오른쪽으로 치우쳐 있으므로 $(x-\mu)^3$이 양수인 부분이 음수인 부분보다 크기가 클 것으로 생각됩니다. 따라서 왜도가 양수일 것으로 예상됩니다. 정말 그런지 계산해봅시다. 

 

계산을 해보면 A의 왜도는 -0.46이 나오고 B의 왜도는 0.46이 나옵니다. 예상이 틀렸습니다. 그래프에 평균을 한번 표시해봅시다. 

 

 

오른쪽으로 분포가 치우친 A와 같은 그래프에서는 평균도 오른쪽으로 치우칩니다. 따라서 평균 왼쪽 데이터가 평균으로 부터 오른쪽보다 멉니다. 평균으로 부터 먼 데이터가 많을 수록 편차의 세제곱의 절댓값도 커집니다. 평균으로 부터 왼쪽으로 먼 데이터 들은 편차의 세제곱의 부호가 음수입니다. 이런 이유로 왜도가 음수가 되는 것입니다. 물론 발생 확률밀도도 함께 작아지지만 먼 거리가 주는 영향이 더 큰가봅니다. 이 부분은 직관적으로 클리어하게 이해되지는 않네요. (나중에 더 고민..)

오른쪽으로 치우친 분포 -> 평균이 오른쪽으로 치우침 -> 평균 왼쪽 꼬리가 김 -> 왜도가 음수

그래프 A와 같이 왜도가 음수인 분포를 아래와 같이 부릅니다. 

left-tailed
left-skewed
skewed to the left

left-tailed는 쉽게 납득이 갑니다. 그래프 A에서를 보면 왼쪽이 꼬리처럼 생겼습니다. 나머지 둘을 봅시다. 그림 A의 분포를 '왼쪽으로 기울어진'분포 라고 부릅니다. 예를들어 ↙  는 어느쪽으로 기울어져 있나요? 왼쪽으로 기울어져 있습니다. 일상적 의미와 같아서 쉽게 받아들일 수 있습니다. 

정리해봅시다. 그래프 A는 왼쪽으로 기울어진 분포입니다. 왜도는 음수입니다. 그래프 B는 오른쪽으로 기울어진 분포이고 왜도는 양수입니다.

 


사용 코드

par(mfrow=c(1,2))
x_A=1:10
y_A=c(1,2,3,4,5,6,7,8,7,6)/49
plot(x_A,y_A,xaxt="n",yaxt="n",xlim=c(1,10),ylim=c(0,0.2),type="h",
     main="A",ylab="p(x)")
xat=seq(1,10,by=1)
yat=seq(0,0.2,by=0.1)
axis(side=1,at=xat)
axis(side=2,at=yat)
lines(c(sum(x_A*y_A),0),c(sum(x_A*y_A),1),type="h",col='red')
###
x_B=1:10
y_B=rev(y_A)
plot(x_B,y_B,xaxt="n",yaxt="n",xlim=c(1,10),ylim=c(0,0.2),type="h",
     main="B",ylab="p(x)")
xat=seq(1,10,by=1)
yat=seq(0,0.2,by=0.1)
axis(side=1,at=xat)
axis(side=2,at=yat)
box("outer", col="gray")
lines(c(sum(x_B*y_B),0),c(sum(x_B*y_B),1),type="h",col='red')

##skewness

mean_A=sum(x_A*y_A)
SD_A=sqrt( sum( x_A^2*y_A) - mean_A^2)
skw_A=sum( ((x_A-mean_A)/SD_A)^3*y_A)

mean_B=sum(x_B*y_B)
SD_B=sqrt( sum( x_B^2*y_B) - mean_B^2)
skw_B=sum( ((x_B-mean_B)/SD_B)^3*y_B)
반응형

댓글