본문 바로가기
반응형

@도전! 데이터분석4

[도전! 데이터 분석 - 암cancer] #4. 변수 파악하기 지난시간에 R에서 데이터를 불러온 상황에서 이어갑시다. View 함수를 md에 사용해봅시다. View(md) 변수를 살펴봅시다. 아래와 같이 6개의 변수가 있습니다. 1) 24개 암종 2) 성별 3) 연령군 4) 시점 5) 발생자수[명] 6) 연령군 발생률[명/10만명] 독립변수와 종속변수로 나눠봅시다. 1,2,3,4 는 독립변수이고 5,6은 종속변수입니다. 독립변수는 범주형이라 level이 있습니다. 변수의 level 을 추가하면 아래와 같습니다. 1) 25 암종 (전체,24암종) 2) 3 성별 (전체,남,여) 3) 19 연령군 (전체,18연령군) 4) 19 시점 (1999~2017) 5) 발생자수[명] 6) 연령군 발생률[명/10만명] 그릴 수 있는 단순한 그래프의 종류는 54150(25x3x19x1.. 2020. 12. 24.
[도전! 데이터 분석 - 암cancer] #3. R 스튜디오에서 데이터 불러오고 다듬기 R 스튜디오에서 데이터 불러오고 다듬기 지난시간에 편집한 엑셀파일을 R에서 불러옵시다. R 스튜디오의 기능을 이용할 것입니다. [File]-[Import Dataset]-[From Excel...] 을 클릭합니다. 엑셀파일을 선택합니다. 경로에 한글이 없어야합니다. Import 를 누르지 말고, 우측 하단의 Code Preview 부분을 복사합니다. Cancel을 눌러서 import 창을 끕니다. R 스크립트 창에 붙여넣어줍니다. 아래와 같이 수정합니다. 데이터 이름을 md로 바꿔주었고, dataframe 형태로 만들어주었습니다. 디폴트는 tibble 데이터형인데 tibble로 진행해도 무방합니다. 변수 md에 str 함수를 적용해봅시다. > str(md) 'data.frame':28425 obs. of.. 2020. 12. 24.
[도전! 데이터 분석 - 암cancer] #2. 데이터 다듬기 데이터 다듬기 지난시간에 다운받은 엑셀을 열어봅시다. 오류가 뜹니다. 예를 클릭하여 열어주고, 편집사용을 클릭합니다. 다른이름으로 저장합니다. xlsx 형식으로 저장해줍니다. 다시 열어봅시다. R에서 다루기 쉽도록 수정해주겠습니다. 먼저 첫 행을 삭제합니다. 탭 이름을 data 로 바꿔줍니다. R에서 탭이름이 한글이면 오류가 발생합니다. 저장 후 엑셀을 종료합니다. 파일 이름을 간단하게 바꿔줍시다. 아래는 정리된 파일입니다. 2020. 12. 24.
[도전! 데이터 분석 - 암cancer] #1. 프롤로그, 데이터 수집 프롤로그 최근에 몸이 많이 아팠습니다. 이유없이 아팠던 것은 아니고 제가 살아온 결과였습니다. 밤늦게 먹고, 급하게 먹고, 밀가루 튀김 한없이 먹고, 달고 자극적인 것을 좋아한 결과였습니다. 아프고 나니 몸에 대한 소중함을 다시금 알게 되었고, 지금 부터는 잘 관리해야 겠다는 마음이 생겼습니다. 그래서 나이별로 많이 걸리는 암을 조사하고, 앞으로 다가올 암을 미리 예방하려고 합니다. 예를들어 제가 30대 이고, 40대에 많이 걸리는 암이 A암이라면 A암에 걸리는 조건과 반대로 살려는 것입니다. 데이터수집 국가통계포털(KOSIS)에 찾아보니 필요한 데이터가 있었습니다. 아래 경로로 다운 받았습니다. [주제별 통계]-[보건]-[암등록통계]-[24개 암종/성/연령(5세)별 암발생자수,발생률] 1999~2017.. 2020. 12. 23.
반응형