본문 바로가기
@ 통계 교양/통계 Tips

공분산이란 무엇인가 (정의와 의미)

by bigpicture 2021. 4. 27.
반응형

역사적 정황을 정확히 알 수는 없지만 공분산은 분산에서 유래된 개념인 것 같습니다. 분산을 먼저 발견하고, 이후에 공분산을 떠올린 것입니다. 

공분산은 공+분산인데, 여기서 공은 함께, 여럿을 뜻하는 공입니다. 공동체 할때 그 공입니다.

따라서 공분산은 여럿으로 구한 분산을 말합니다. 변수 하나로 구한 분산이 아니라 변수 여럿으로 구한 분산입니다. 결론부터 말하면 변수 '둘'로 구한 분산입니다. 

 

 

분산의 정의

먼저 분산의 정의를 살펴봅시다. 어떤 변수 X의 분산은 아래와 같이 정의됩니다. 

$V(X)=E\left [ \left ( X-E(X) \right )^2 \right ]$

X가 이산확률변수이고, 각 원소의 발생확률이 같은 경우 아래와 같이 구합니다.

$V(X)=\frac{\sum_{i=1}^{n}(x_{i}-\mu)^2}{n}$

X가 이산확률변수이고, 각 원소의 발생확률이 다른 경우 아래와 같이 구합니다.

$V(X)=\sum_{i=1}^{n}p_{i}(x_{i}-\mu)^2$

X가 연속확률변수인 경우 아래와 같이 구합니다.

$V(X)=\int_{-\infty}^{\infty}f(x)(x-\mu)^2dx$

 

공분산의 발견

공분산은 어떻게 생각해낸걸까요? 위에서도 언급했듯 정확한 역사적 정황은 정학히 알수는 없지만 추측은 해볼 수 있습니다. 두 가지로 추측해보았습니다.

 

추측1. 우연

위에서 썼던 분산의 정의를 아래와 같이 표현해보았습니다 .

$V(X)=E\left [ \left ( X-E(X) \right )\left ( X-E(X) \right )  \right ]$

이 식에서 X하나를 Y로 바꿔본 것입니다. 의미는 생각 안하고 그냥 일단 바꿔본것이죠. 두 변수를 갖도록 바꾼 것이니 '함께' 라는 접두어 co 를 붙여서 covariance 라고 이름을 붙였습니다. 기호는 COV(X,Y)로 표현합시다. 

$COV(X,Y)=E\left [ \left ( X-E(X) \right )\left ( Y-E(Y) \right )  \right ]$

 

추측2. 선형강도의 표현

상관분석을 공부하신 분들은 상관계수를 정의할 때 공분산이 쓰인다는 것을 아실겁니다. 선형관계의 강도를 수치화하기 위해 의도적으로 공분산을 정의했을 수도 있습니다만, 추측1이 더 가능성이 높아보입니다. 

 

 

공분산의 의미

공분산을 아래와 같이 정의해보았는데 의미는 무엇일까요? 

$COV(X,Y)=E\left [ \left ( X-E(X) \right )\left ( Y-E(Y) \right )  \right ]$

 

만약 X와 Y가 서로 독립인 데이터라면, 위 식은 아래와 같이 변합니다. 

 

$COV(X,Y)=
E\left [ \left ( X-E(X) \right )  \right ]
E\left [ \left ( Y-E(Y) \right )  \right ]$

 

우변의 각 항은 0이므로, 공분산은 0이 됩니다.

 

두 변수가 서로 대응되는 상황을 생각해봅시다. X와 Y가 짝을 이루고 있다고 합시다. 

 

$(x_{1},y_{1})$

$(x_{2},y_{2})$

...

$(x_{n},y_{n})$

 

이때 공분산은 아래와 같이 계산됩니다. 

 

$COV(X,Y)=\frac{
(x_{1}-\mu_{x})(y_{1}-\mu_{y})+
(x_{2}-\mu_{x})(y_{2}-\mu_{y})+
...+
(x_{n}-\mu_{x})(y_{n}-\mu_{y})
}{n}$

 

분자의 첫 항을 봅시다.

 

$(x_{1}-\mu_{x})(y_{1}-\mu_{y})$

 

위 식의 몇가지 성질을 쉽게 알아낼 수 있습니다. 

 

1) $x_{1}$이 x의 평균보다 크고, $y_{1}$도 y의 평균보다 크다면 위 값은 양수가 됩니다.

2) $x_{1}$이 x의 평균보다 작고, $y_{1}$도 y의 평균보다 작다면 위 값은 양수가 됩니다.

3) $x_{1}$이 x의 평균보다 크고, $y_{1}$도 y의 평균보다 작거나 그 반대의 경우 위 값은 음수가 됩니다. 

4) $x_{1}$과 $y_{1}$이 평균에서 멀 수록 위 값의 절댓값이 커집니다. 

 

만약 공분산의 값이 양수라면, x가 평균보다 클 때 y가 평균보다 크거나, x가 평균보다 작을 때 y가 평균보다 작은 경우가 많다고 할 수 있습니다. (x,y)를 산점도 그래프로 그려보면 아래와 같이 우상향 그래프일 것입니다. 

 

만약 공분산의 값이 음수라면, x가 평균보다 클 때 y가 평균보다 작거나, x가 평균보다 작을 때 y가 평균보다 큰 경우가 많다고 할 수 있습니다. (x,y)를 산점도 그래프로 그려보면 아래와 같이 우하향 그래프일 것입니다. 

 

만약 (x,y)가 아래와 같이 분포하고 있다면 공분산은 0에 가까울 것입니다. 

 



공분산은 크기와 부호를 갖는데요. 공분산의 부호는 위 그래프를 통해 알 수 있듯이 두 변수의 분포상태를 알려줍니다. 공분산의 크기는 어떤 역할을 할까요? 만약 단위(unit)가 같은 데이터들의 공분산을 비교한다면, 공분산이 클 수록 얇고 길게 분포하고 있다고 할 수 있습니다. 하지만 단위가 다른 데이터들 사이의 비교는 의미가 없습니다. 키(height)데이터로 구한 공분산과 시력데이터로 구한 공분산이 있다고 합시다. 두 데이터의 분포 형태가 동일하다고 해도 키 데이터의 공분산이 더 큽니다. 큰 단위이기 때문입니다. 따라서 공분산의 표준화가 필요하고, 공분산을 표준화한 값이 피어슨 상관계수입니다. 

반응형

댓글