[도전! 데이터 분석 - 암cancer] #3. R 스튜디오에서 데이터 불러오고 다듬기

R 스튜디오에서 데이터 불러오고 다듬기

지난시간에 편집한 엑셀파일을 R에서 불러옵시다. R 스튜디오의 기능을 이용할 것입니다. [File]-[Import Dataset]-[From Excel...] 을 클릭합니다.

엑셀파일을 선택합니다. 경로에 한글이 없어야합니다. Import 를 누르지 말고, 우측 하단의 Code Preview 부분을 복사합니다. Cancel을 눌러서 import 창을 끕니다.

R 스크립트 창에 붙여넣어줍니다.

아래와 같이 수정합니다. 데이터 이름을 md로 바꿔주었고, dataframe 형태로 만들어주었습니다. 디폴트는 tibble 데이터형인데 tibble로 진행해도 무방합니다.

변수 md에 str 함수를 적용해봅시다.

> str(md)
'data.frame':	28425 obs. of  6 variables:
 $ 24개 암종              : chr  "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" ...
 $ 성별                   : chr  "계" "계" "계" "계" ...
 $ 연령군                 : chr  "계" "계" "계" "계" ...
 $ 시점                   : chr  "1999 년" "2000 년" "2001 년" "2002 년" ...
 $ 발생자수[명]           : chr  "101603" "102690" "112163" "118466" ...
 $ 연령군발생률[명/10만명]: chr  "215.4" "216" "234.3" "246.2" ...

문제가 있습니다. 발생자 수와 연령군발생률이 chr 형태입니다. 숫자로 인식되어야 하는데 문자열로 인식된 것입니다. 이유를 알아보니 아래와 같이 누락된 값이 - 로 표시되어 있기 때문입니다.

문자 - 를 NA 로 인식하겠다는 코드를 추가합니다.

str 함수를 다시 적용하여 결과를 확인해봅시다. 숫자로 인식되었습니다.

> str(md)
'data.frame':	28425 obs. of  6 variables:
 $ 24개 암종              : chr  "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" "모든 암(C00-C96)" ...
 $ 성별                   : chr  "계" "계" "계" "계" ...
 $ 연령군                 : chr  "계" "계" "계" "계" ...
 $ 시점                   : chr  "1999 년" "2000 년" "2001 년" "2002 년" ...
 $ 발생자수[명]           : num  101603 102690 112163 118466 125848 ...
 $ 연령군발생률[명/10만명]: num  215 216 234 246 260 ...

콘솔창에 View(md)라고 입력하면 새 창에 표가 뜹니다. - 가 NA로 바뀐 것을 알 수 있습니다.

저작자표시 비영리 변경금지

'@도전! 데이터분석 > 국가통계데이터 - 암' 카테고리의 다른 글

[도전! 데이터 분석 - 암cancer] #4. 변수 파악하기 (1)	2020.12.24
[도전! 데이터 분석 - 암cancer] #2. 데이터 다듬기 (0)	2020.12.24
[도전! 데이터 분석 - 암cancer] #1. 프롤로그, 데이터 수집 (0)	2020.12.23

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

통계의 본질 (유튜브 : 통계의 본질)

[도전! 데이터 분석 - 암cancer] #3. R 스튜디오에서 데이터 불러오고 다듬기

R 스튜디오에서 데이터 불러오고 다듬기

'@도전! 데이터분석 > 국가통계데이터 - 암' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[도전! 데이터 분석 - 암cancer] #3. R 스튜디오에서 데이터 불러오고 다듬기

R 스튜디오에서 데이터 불러오고 다듬기

'@도전! 데이터분석 > 국가통계데이터 - 암' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역