본문 바로가기
@선택과목2/손으로 푸는 상관분석

[손으로 푸는 상관분석] 4. 공분산의 탄생

by bigpicture 2022. 4. 22.
반응형

지난시간에 상관분석을 이해하기 위한 공부순서를 정해봤습니다. 공부 순서는 아래와 같습니다. 

1) 공분산의 탄생
2) 공분산의 의미
3) 공분산 응용해서 피어슨 상관계수 만들기
4) 상관분석에서의 t통계량 유도하기

이번 글에서는 공분산의 탄생과정을 이해해봅시다. 공분산은 이름에 '분산'이라는 말이 붙어있습니다. 공분산이 등장한 역사적 배경을 정확히 알지는 못합니다. 예상해 볼 수는 있을겁니다. 제 생각에는 분산을 정의한 수식을 두개의 대응된 변수에 적용해보는 과정에서 탄생한 것 같습니다. 

X라는 변수가 있다고 합시다. X의 분산은 아래와 같이 정의됩니다. 

$V[X]=E\left [ \left ( X-\mu_{x} \right )\left ( X-\mu_{x} \right ) \right ]$

Y라는 변수가 있다면, Y의 분산은 아래와 같이 정의됩니다. 

$V[Y]=E\left [ \left ( Y-\mu_{y} \right )\left ( Y-\mu_{y} \right ) \right ]$

X와 Y가 서로 대응된 변수라고 생각해봅시다. 두번째 시간에 사용한 변수를 예로 들 수 있습니다. 아래와 같습니다. 

(그림)

우리 선배들은 이런 생각을 했던 것 같습니다. 

분산에서 변수를 하나씩 번갈아 넣어보면 어떨까? 

변수를 하나씩 넣어보면 아래와 같이 됩니다. 

$??=E\left [ \left ( X-\mu_{x} \right )\left ( Y-\mu_{y} \right ) \right ]$

이름은 분산에 접두사인 co 를 붙여서 만들었습니다. co는 함께라는 의미입니다. 분산(variance) 수식을 이용하긴 했는데 두 변수를 함께 사용했으니 covariance 가 된 것입니다. 우리말로는 공분산이라고 부릅니다. 기호로는 아래와 같이 나타냅니다. 

 

$Cov(X,Y)=E\left [ \left ( X-\mu_{x} \right )\left ( Y-\mu_{y} \right ) \right ]$

공분산은 이렇게 탄생한 것 같네요. 

 

(과거 어떤 천재가 처음부터 공분산의 의미를 염두하고 정의했을 수도 있습니다. 위 내용은 어디까지나 제 상상입니다.)

 

공분산의 의미는 다음시간에 알아봅시다. 

반응형

댓글