본문 바로가기
@도전! 데이터분석/국가통계데이터 - 암

[도전! 데이터 분석 - 암cancer] #3. R 스튜디오에서 데이터 불러오고 다듬기

by bigpicture 2020. 12. 24.
반응형

R 스튜디오에서 데이터 불러오고 다듬기

 

지난시간에 편집한 엑셀파일을 R에서 불러옵시다. R 스튜디오의 기능을 이용할 것입니다. [File]-[Import Dataset]-[From Excel...] 을 클릭합니다. 

 

 

엑셀파일을 선택합니다. 경로에 한글이 없어야합니다. Import 를 누르지 말고, 우측 하단의 Code Preview 부분을 복사합니다. Cancel을 눌러서 import 창을 끕니다. 

 

R 스크립트 창에 붙여넣어줍니다. 

 

 

아래와 같이 수정합니다. 데이터 이름을 md로 바꿔주었고, dataframe 형태로 만들어주었습니다. 디폴트는 tibble 데이터형인데 tibble로 진행해도 무방합니다. 

 

 

변수 md에 str 함수를 적용해봅시다. 

 

> str(md)
'data.frame':	28425 obs. of  6 variables:
 $ 24개 암종              : chr  "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" ...
 $ 성별                   : chr  "계" "계" "계" "계" ...
 $ 연령군                 : chr  "계" "계" "계" "계" ...
 $ 시점                   : chr  "1999 년" "2000 년" "2001 년" "2002 년" ...
 $ 발생자수[명]           : chr  "101603" "102690" "112163" "118466" ...
 $ 연령군발생률[명/10만명]: chr  "215.4" "216" "234.3" "246.2" ...

 

문제가 있습니다. 발생자 수와 연령군발생률이 chr 형태입니다. 숫자로 인식되어야 하는데 문자열로 인식된 것입니다. 이유를 알아보니 아래와 같이 누락된 값이 - 로 표시되어 있기 때문입니다. 

 

 

문자 - 를 NA 로 인식하겠다는 코드를 추가합니다. 

 

 

str 함수를 다시 적용하여 결과를 확인해봅시다. 숫자로 인식되었습니다. 

 

> str(md)
'data.frame':	28425 obs. of  6 variables:
 $ 24개 암종              : chr  "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" ...
 $ 성별                   : chr  "계" "계" "계" "계" ...
 $ 연령군                 : chr  "계" "계" "계" "계" ...
 $ 시점                   : chr  "1999 년" "2000 년" "2001 년" "2002 년" ...
 $ 발생자수[명]           : num  101603 102690 112163 118466 125848 ...
 $ 연령군발생률[명/10만명]: num  215 216 234 246 260 ...

 

콘솔창에 View(md)라고 입력하면 새 창에 표가 뜹니다. - 가 NA로 바뀐 것을 알 수 있습니다. 

 

 

반응형

댓글