본문 바로가기
@ 통계 교양/통계 관련 책 소개

[책 증정 이벤트] 데이터 요약과 시각화 with R (임경덕)

by bigpicture 2022. 4. 16.
반응형

루비페이퍼 라는 출판사에서 책을 한권 보내왔습니다. 읽어보고 괜찮으면 채널에 이 책을 소개하면서 증정 이벤트를 하자고 제안하셨습니다.  

 

책을 처음부터 끝까지 전부 읽어봤습니다. 잘 쓰여진 책인 것 같아서 소개를 드리려고 합니다. 10분을 추첨해서 책을 보내드릴 거구요. 이벤트 참여 방법은 더보기 란에 있습니다. 

 

제가 돈을 받은게 아니라서 유료광고는 아니지 않나 생각했는데요. 알아보니 상품 무료제공도 유료광고라고 합니다. 그래서 영상 제목에 광고라고 표시한겁니다. 

 

자 그럼 책 소개를 시작하겠습니다. 

 

책 제목은 데이터 요약과 시각화 with R 입니다. R은 무료 통계 프로그램이구요. 오픈소스라서 참여자들이 계속해서 발전시켜 나가고 있는 프로그램입니다. 저도 R을 사용하고 있습니다. 통계를 처음 접한 시기에는 엑셀을 이용해서 통계분석을 했는데요. 데이터가 복잡해지고 커지면서 감당이 안되서 R로 갈아탔습니다. R은 코딩방식이라서 크고 복잡한 데이터도 쉽게 처리할 수가 있습니다. 

 

이 책이 어떤 분들에게 적합할지를 설명드리기 위해서 제가 R을 공부한 단계를 말씀드리겠습니다. 

 

R을 다루려면 R이라는 컴퓨터 언어를 알아야 합니다. 그래서 처음에는 R의 자료형, 자료구조, 연산자, 반복문, 조건문, 함수, 패키지 등을 공부했구요. 이 내용을 R 기초라고 하겠습니다. 그래서 1단계는 R 기초겠죠. 

 

1) R 기초 

 

그리고 나서 어느정도 R이 익숙해지고 부터 데이터를 가지고 그래프를 그리고 통계분석을 했습니다. 그래프 그리기와 통계분석은 어떤 것을 먼저 했다기 보다는 동시에 했던 것 같습니다. 누군가 뭘 먼저 공부해야하냐고 물으신다면 그래프 그리기를 먼저 하라고 말씀드릴 것 같아요. 그래프 그리기를 '시각화' 라고 합니다. 그런데 그래프를 그리건 통계 분석을 하건 사전 작업이 필요합니다. 아주 잘 정리된 데이터는 예제에만 있구요. 실제 데이터는 그리 잘 정리되어 있지가 않습니다. 그래서 우리는 그래프를 그리거나 통계분석을 하기에 앞어서 데이터를 정리해 주어야 합니다. 이를 데이터 전처리라고 합니다. 2단계가 되겠네요. 

 

2) 데이터 전처리

 

3,4 단계는 시각화와 통계분석 이라고 놓으면 학습 순서는 아래와 같습니다. 

 

1) R기초

2) 데이터 전처리

3) 시각화

4) 통계분석

 

이 책은 2,3 단계에 해당되는 책입니다. 그래서 어느정도 R기초 학습이 되어 있는 분들에게 적합합니다. 

 

또 R에서 데이터 전처리를 하고 시각화를 하는 세계관이 두가지가 있습니다. 세계관이라는 단어를 썼는데요. 적당한 단어 인지는 모르겠지만 다른 단어가 떠오르지를 않네요. 

 

하나의 세계관은 R 기본기능을 이용하는 것이구요. 다른 하나는 tidyverse 라는 세계관입니다. 아래와 같은 패키지들을 모은 세계관을 tidyverse 라고 합니다. 

 

 

데이터 분석에 특화된 패키지 들이구요. 서로 호환이 됩니다. 많은 분들이 알고 계실 파이프연산자, ggplot2 가 이 세계관에 속합니다. 

 

처음에는 R 기본기능을 사용하다가, 전문 적으로 데이터 분석을 하게 되면서 tidyverse 로 많은 분들이 넘어가시는 것 같더라구요. 저는 필요에 따라서 둘 다 사용하고 있습니다. 

 

이 책은 tidyverse 패키지들을 사용하고 있습니다. 

 

자 그래서 정리해보면,

 

이 책은 R 기초가 어느정도 준비되어 있는 분들에게 적합하구요. tidyverse 패키지를 이용해서 데이터 전처리를 하고 시각화하는 방법을 소개한 책입니다. 

 

책 설명은 거의 끝난 것 같아요. 목차를 살펴봅시다. 

 

1장. 데이터 분석의 이해

2장. 데이터 분석 준비하기

3장. 데이터 불러와서 살펴보기

4장. 패키지를 활용한 요약과 시각화

5장 다양한 데이터 요약과 시각화

6장. 분석 결과 공유하기

 

보이시나요? 데이터 전처리와 시각화에 대한 내용입니다. 데이터 요약은 전체 데이터에서 원하는 데이터를 추리고 다루기 편한 형태로 가공하는 것을 말합니다. 

 

이 책은 가상의 카드회사 결제 데이터를 가지고 실습을 진행합니다. 현업에서 데이터 분석을 하신 분이 쓴 책이라서 그런지 예제 데이터가 아주 좋습니다. 데이터도 다운로드 받을 수 있도록 되어 있어서 직접 따라해볼 수도 있습니다.

 

분량을 좀 살펴봅시다. 

 

1장. 데이터 분석의 이해 (15)

2장. 데이터 분석 준비하기 (27)

3장. 데이터 불러와서 살펴보기 (24)

4장. 패키지를 활용한 요약과 시각화 (57)

5장 다양한 데이터 요약과 시각화 (127)

6장. 분석 결과 공유하기 (11)

 

5장이 가장 분량이 많은데요. 실제 데이터분석을 할 때 사용할 법한 내용들이 담겨있습니다. 예를 들면 고객의 나이를 연령대별로 분류하는 방법 이라던가. 

 

 

업종 별로 돈을 가장 많이 쓴 고객을 추리는 방법 등이 담겨있습니다. 

 

 

책소개는 여기까지구요.

 

tidyverse 세계관으로 데이터 분석과 시각화를 배워보고 싶으신 분들께 추천 드립니다. 

 

이벤트 참여는 아래 영상을 참고해주세요

 

 

 

반응형

댓글