우리나라는 어느 연령의 인구 수가 가장 많을까?
구글에 통계포털이라고 검색하고 들어갑니다.
[국내통계]-[주제별 통계]로 들어갑니다. 지난달 데이터까지 올라와 있습니다. 매달 업데이트 되는 것 같네요.
아래 그림과 같이 [행정구역(시군구)별/1세별 주민등록인구] 를 클릭합니다.
연령별 총인구/성별인구가 지역별로 출력됩니다. 탭들을 통해서 상세 선택이 가능합니다. 일괄설정기능을 통해서도 상세선택이 가능합니다.
다운로드 버튼을 클릭합니다.
엑셀을 선택하고 다운로드를 클릭합니다. 셀 병합은 체크해제를 합니다.
엑셀로 불러오면 아래와 같습니다. 첫째행을 제거하고 R에서 불러오겠습니다.
엑셀 데이터는 아래와 같습니다.
연령별 인구수 히스토그램을 그려봅시다.
#데이터 불러오기
library(readxl)
md=read_excel("파일경로")
md=as.data.frame(md)
#시도별 제외하고 전국 데이터만 추림
md_total=md[md$"행정구역(시군구)별(1)"=="전국",]
md_total=md_total[-1,]
#문자로 표기된 나이를 숫자로
age=as.numeric(gsub('\\D','', md_total[,2]))
md_total2=cbind(md_total,age)
#지수표기에서 일반표기로
options(scipen=10)
#전체 히스토그램
barplot(md_total2[,3]~md_total2[,6],md_total2,ylim=c(0,1000000),ann=FALSE)
title(main="연령별 인구 수",cex.main=1.8,xlab="나이",ylab="인구 수",cex.lab=1.7)
#테두리 설정
box("figure", col="gray")
그래프는 아래와 같습니다.
4,50대가 가장 많아보이구요. 60대 이후에 인구가 줄어드는 이유는 사망때문입니다. 왼쪽 방향으로 인구가 줄어드는 것은 출산률이 낮아지고 있기 때문입니다. 인구가 얼마나 줄어들고 있는지 알 수 있습니다. 시간이 지나면서 그래프가 오른쪽으로 이동한다고 생각하시면 됩니다. 30년 뒤 30살 인구수가, 지금의 0세의 인구수와 같아지는 것입니다. 100세 이상이 갑자기 증가하는 이유는 1세 기준으로 나뉜 값이 아니라 100세 이상을 전부 합한 값이기 때문입니다.
남녀를 따로 그려봅시다 .
#데이터 불러오기
library(readxl)
md <- read_excel("파일경로")
md=as.data.frame(md)
#시도별 제외하고 전국 데이터만 추림
md_total=md[md$"행정구역(시군구)별(1)"=="전국",]
md_total=md_total[-1,]
#문자로 표기된 나이를 숫자로
age=as.numeric(gsub('\\D','', md_total[,2]))
md_total2=cbind(md_total,age)
#지수표기에서 일반표기로
options(scipen=10)
#남녀 따로 히스토그램
barplot(md_total2[,4]~md_total2[,6],md_total2,
col=adjustcolor("blue",alpha=0.5),ylim=c(0,1000000),ann=FALSE)
barplot(md_total2[,5]~md_total2[,6],md_total2,
col=adjustcolor("red",alpha=0.5),add=TRUE)
title(main="연령별 인구 수(성별 구분)",cex.main=1.8,xlab="나이",ylab="인구 수",cex.lab=1.5)
#범례 설정
legend("topright",c("male","female"),fill=c("blue","red"),cex=1.5)
#테두리 설정
box("figure", col="gray")
60대 이하 연령대에서는 남자가 여자보다 많습니다. 남자가 여자보다 더 많이 태어났기 때문입니다. 그런데 60대 이후로 가면 여자가 만자보다 많습니다. 7,80대는 눈에 띄게 여자가 남자보다 많아집니다. 수명 때문입니다. 남자들이 일찍 사망하는군요.
이번에는 10세씩 구간을 나눠서, 어느 연령대가 가장 많은지 알아봅시다.
#데이터 불러오기
library(readxl)
md <- read_excel("파일경로")
md=as.data.frame(md)
#시도별 제외하고 전국 데이터만 추림
md_total=md[md$"행정구역(시군구)별(1)"=="전국",]
md_total=md_total[-1,]
#문자로 표기된 나이를 숫자로
age=as.numeric(gsub('\\D','', md_total[,2]))
md_total2=cbind(md_total,age)
#지수표기에서 일반표기로
options(scipen=10)
#세대별로 데이터 계산
for (i in 1:11)
{
if(i!=11){
N=sum(md_total2[(md_total2$age>=10*(i-1))&(md_total2$age<10*i),3])
row=data.frame(paste(10*(i-1),"~",10*(i)),N)
names(row)=c("age","N")
} else{
N=sum(md_total2[(md_total2$age>=10*(i-1))&(md_total2$age<10*i),3])
row=data.frame(paste(10*(i-1),"~"),N)
names(row)=c("age","N")
}
if(i==1)
{
by_age=row
} else
{
by_age=rbind(by_age,row)
}
}
#세대별 그래프
barplot(N~age,by_age,ylim=c(0,10000000),ann=FALSE,cex.names=0.8)
title(main="연령별 인구 수",cex.main=1.8,xlab="나이",ylab="인구 수",cex.lab=1.5)
#테두리 설정
box("figure", col="gray")
그래프를 그려봅시다.
50대가 가장 많습니다. 50대가 8661935명입니다. 반면에 0~10세는 4103848입니다. 50대의 절반이 안되는 수입니다. 지금과 같은 추세로 50년이 지나면, 0~50세 인구가 현재의 절반 수준으로 감소하게 될 것입니다.
'@ 통계 교양 > 통계로 세상보기' 카테고리의 다른 글
병 진단과 조건부확률 (양성이 나왔을 때 병에 걸려있을 확률) (0) | 2021.08.25 |
---|---|
물가상승률은 어떻게 계산되는걸까? (물가상승률과 물가지수) (0) | 2021.03.01 |
나라별 국가채무 확인하는 방법(IMF 홈페이지) (0) | 2021.02.28 |
대학 학과 별 입학자 수 확인하는 방법 (0) | 2020.07.04 |
세계 500대 부자 자산에도 파레토법칙이 적용될까?? (0) | 2020.05.14 |
세계 인구가 '현재' 몇명인시 실시간으로 알려주는 사이트 (0) | 2020.05.11 |
한국인 6000명의 키와 몸무게는 정규분포 모양일까?? (0) | 2020.05.09 |
유소년층 인구는 얼마나 줄어들고 있을까 (주민등록 인구통계) (0) | 2020.01.23 |
댓글