반응형
R 스튜디오에서 데이터 불러오고 다듬기
지난시간에 편집한 엑셀파일을 R에서 불러옵시다. R 스튜디오의 기능을 이용할 것입니다. [File]-[Import Dataset]-[From Excel...] 을 클릭합니다.

엑셀파일을 선택합니다. 경로에 한글이 없어야합니다. Import 를 누르지 말고, 우측 하단의 Code Preview 부분을 복사합니다. Cancel을 눌러서 import 창을 끕니다.

R 스크립트 창에 붙여넣어줍니다.

아래와 같이 수정합니다. 데이터 이름을 md로 바꿔주었고, dataframe 형태로 만들어주었습니다. 디폴트는 tibble 데이터형인데 tibble로 진행해도 무방합니다.

변수 md에 str 함수를 적용해봅시다.
> str(md)
'data.frame': 28425 obs. of 6 variables:
$ 24개 암종 : chr "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" ...
$ 성별 : chr "계" "계" "계" "계" ...
$ 연령군 : chr "계" "계" "계" "계" ...
$ 시점 : chr "1999 년" "2000 년" "2001 년" "2002 년" ...
$ 발생자수[명] : chr "101603" "102690" "112163" "118466" ...
$ 연령군발생률[명/10만명]: chr "215.4" "216" "234.3" "246.2" ...
문제가 있습니다. 발생자 수와 연령군발생률이 chr 형태입니다. 숫자로 인식되어야 하는데 문자열로 인식된 것입니다. 이유를 알아보니 아래와 같이 누락된 값이 - 로 표시되어 있기 때문입니다.

문자 - 를 NA 로 인식하겠다는 코드를 추가합니다.

str 함수를 다시 적용하여 결과를 확인해봅시다. 숫자로 인식되었습니다.
> str(md)
'data.frame': 28425 obs. of 6 variables:
$ 24개 암종 : chr "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" ...
$ 성별 : chr "계" "계" "계" "계" ...
$ 연령군 : chr "계" "계" "계" "계" ...
$ 시점 : chr "1999 년" "2000 년" "2001 년" "2002 년" ...
$ 발생자수[명] : num 101603 102690 112163 118466 125848 ...
$ 연령군발생률[명/10만명]: num 215 216 234 246 260 ...
콘솔창에 View(md)라고 입력하면 새 창에 표가 뜹니다. - 가 NA로 바뀐 것을 알 수 있습니다.

반응형
'@도전! 데이터분석 > 국가통계데이터 - 암' 카테고리의 다른 글
[도전! 데이터 분석 - 암cancer] #4. 변수 파악하기 (1) | 2020.12.24 |
---|---|
[도전! 데이터 분석 - 암cancer] #2. 데이터 다듬기 (0) | 2020.12.24 |
[도전! 데이터 분석 - 암cancer] #1. 프롤로그, 데이터 수집 (0) | 2020.12.23 |
댓글
bigpicture님의
글이 좋았다면 응원을 보내주세요!
이 글이 도움이 됐다면, 응원 댓글을 써보세요. 블로거에게 지급되는 응원금은 새로운 창작의 큰 힘이 됩니다.
응원 댓글은 만 14세 이상 카카오계정 이용자라면 누구나 편하게 작성, 결제할 수 있습니다.
글 본문, 댓글 목록 등을 통해 응원한 팬과 응원 댓글, 응원금을 강조해 보여줍니다.
응원금은 앱에서는 인앱결제, 웹에서는 카카오페이 및 신용카드로 결제할 수 있습니다.