본문 바로가기
@선택과목2/손으로 푸는 상관분석

[손으로 푸는 상관분석] 1. 일단 해보기

by bigpicture 2022. 4. 17.
반응형

가장 만만한 엑셀로 상관분석을 일단 해봅시다. 상관분석이 뭔지 몰라도 괜찮습니다. 

 

아래 데이터를 이용할 것입니다. 30명의 키와 몸무게 데이터입니다. 키는 mm 단위이고, 몸무게는 kg 단위입니다. 

 

 

데이터 탭에서 '데이터 분석'을 클릭합니다. 

 

 

통계 데이터분석이라는 창이 뜨면 상관분석을 선택하고 확인을 눌러줍니다. 

 

 

입력범위를 클릭하고 키와 몸무게 데이터를 선택해줍니다. 열 이름도 포함되도록 선택합니다. 

 

 

첫째 행 이름표 사용에 체크합니다. 

 

 

출력범위는 같은 시트 내 적당한 셀을 선택합니다. 

 

 

확인을 클릭하면 결과가 출력됩니다. 

 

1과 0.67435가 상관계수입니다. 키와 키 사이의 상관계수가 1, 몸무게와 몸무게 사이의 상관계수가1, 키와 몸무게 사이의 상관계수가 0.6735라는 의미입니다. 

 

엑셀에서는 상관계수만 출력되는데요. 상관분석의 결과는 상관계수 말고도 하나가 더있습니다. t검정의 p 값인데요. 엑셀에서는 t검정의 p값이 출력되지 않습니다. 직접 계산할 수도 있긴 한데 첫시간에 설명하기는 좀 복잡합니다.

 

이번에는 R을 이용해서 상관분석을 해봅시다. R은 전 세계에서 가장 많이 쓰는 통계 프로그램입니다. 무료이고 오픈소스입니다. 

 

아래와 같이 엑셀파일을 새로 만들었습니다. 

 

 

위에서 사용한 것과 같은 데이터인데 파일 이름과 열이름을 영어로 넣었습니다. R의 한글 호환성이 떨어지기 때문에 영어로 입력한 것입니다. 

 

아래 코드를 이용해서 상관분석을 합니다. 자세히 몰라도 됩니다. 일단 가볍게 따라와주세요. 간단한 설명은 주석으로 달았습니다. 

 

#엑셀 파일 불러오는 패키지 호출
library(readxl)
#엑셀 불러와서 md 라는 변수에 저장
md <- read_excel("C:/Users/makhi/Desktop/ex_height_weight.xlsx")

#md라는 변수를 데이터프레임이라는 자료구조로 바꿈
md=as.data.frame(md)

#상관분석 수행
cor.test(md$height,md$weight)

 

결과는 아래와 같습니다. 

 

> cor.test(md$height,md$weight)

	Pearson's product-moment correlation

data:  md$height and md$weight
t = 4.8325, df = 28, p-value = 4.385e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.4148779 0.8323934
sample estimates:
      cor 
0.6743531

 

결과가 여러개가 있습니다. t값, df, p-value, cor 이 보이는데요. 다음시간에 설명하겠습니다. 

 

오늘 사용한 데이터는 아래와 같습니다. 

 

ex_height_weight.xlsx
0.01MB
키_몸무게.xlsx
0.01MB

반응형

댓글