본문 바로가기
@ 통계 교양/통계로 세상보기

우리나라는 어느 연령의 인구 수가 가장 많을까?

by bigpicture 2020. 5. 12.
반응형

우리나라는 어느 연령의 인구 수가 가장 많을까?


우리나라는 어느 연령의 인구 수가 가장 많을까요? 대한민국 국민의 주민등록 통계자료를 통해서 알아볼 수 있습니다. 


구글에 통계포털이라고 검색하고 들어갑니다.


[국내통계]-[주제별 통계]로 들어갑니다. 지난달 데이터까지 올라와 있습니다. 매달 업데이트 되는 것 같네요.




아래 그림과 같이 [행정구역(시군구)별/1세별 주민등록인구] 를 클릭합니다. 




연령별 총인구/성별인구가 지역별로 출력됩니다. 탭들을 통해서 상세 선택이 가능합니다. 일괄설정기능을 통해서도 상세선택이 가능합니다. 




다운로드 버튼을 클릭합니다.




엑셀을 선택하고 다운로드를 클릭합니다. 셀 병합은 체크해제를 합니다. 




엑셀로 불러오면 아래와 같습니다. 첫째행을 제거하고 R에서 불러오겠습니다.




엑셀 데이터는 아래와 같습니다. 


2020_02_age_by_1.xlsx

연령별 인구수 히스토그램을 그려봅시다. 


#데이터 불러오기

library(readxl)

md=read_excel("파일경로")

md=as.data.frame(md)


#시도별 제외하고 전국 데이터만 추림

md_total=md[md$"행정구역(시군구)별(1)"=="전국",]

md_total=md_total[-1,]


#문자로 표기된 나이를 숫자로

age=as.numeric(gsub('\\D','', md_total[,2]))

md_total2=cbind(md_total,age)


#지수표기에서 일반표기로

options(scipen=10)


#전체 히스토그램

barplot(md_total2[,3]~md_total2[,6],md_total2,ylim=c(0,1000000),ann=FALSE)

title(main="연령별 인구 수",cex.main=1.8,xlab="나이",ylab="인구 수",cex.lab=1.7)


#테두리 설정

box("figure", col="gray")


그래프는 아래와 같습니다. 



4,50대가 가장 많아보이구요. 60대 이후에 인구가 줄어드는 이유는 사망때문입니다. 왼쪽 방향으로 인구가 줄어드는 것은 출산률이 낮아지고 있기 때문입니다. 인구가 얼마나 줄어들고 있는지 알 수 있습니다. 시간이 지나면서 그래프가 오른쪽으로 이동한다고 생각하시면 됩니다. 30년 뒤 30살 인구수가, 지금의 0세의 인구수와 같아지는 것입니다. 100세 이상이 갑자기 증가하는 이유는 1세 기준으로 나뉜 값이 아니라 100세 이상을 전부 합한 값이기 때문입니다. 


남녀를 따로 그려봅시다 . 


#데이터 불러오기

library(readxl)

md <- read_excel("파일경로")

md=as.data.frame(md)


#시도별 제외하고 전국 데이터만 추림

md_total=md[md$"행정구역(시군구)별(1)"=="전국",]

md_total=md_total[-1,]


#문자로 표기된 나이를 숫자로

age=as.numeric(gsub('\\D','', md_total[,2]))

md_total2=cbind(md_total,age)


#지수표기에서 일반표기로

options(scipen=10)


#남녀 따로 히스토그램

barplot(md_total2[,4]~md_total2[,6],md_total2,

        col=adjustcolor("blue",alpha=0.5),ylim=c(0,1000000),ann=FALSE)

barplot(md_total2[,5]~md_total2[,6],md_total2,

        col=adjustcolor("red",alpha=0.5),add=TRUE)

title(main="연령별 인구 수(성별 구분)",cex.main=1.8,xlab="나이",ylab="인구 수",cex.lab=1.5)


#범례 설정

legend("topright",c("male","female"),fill=c("blue","red"),cex=1.5)


#테두리 설정

box("figure", col="gray")



60대 이하 연령대에서는 남자가 여자보다 많습니다. 남자가 여자보다 더 많이 태어났기 때문입니다. 그런데 60대 이후로 가면 여자가 만자보다 많습니다. 7,80대는 눈에 띄게 여자가 남자보다 많아집니다. 수명 때문입니다. 남자들이 일찍 사망하는군요.



이번에는 10세씩 구간을 나눠서, 어느 연령대가 가장 많은지 알아봅시다. 


#데이터 불러오기

library(readxl)

md <- read_excel("파일경로")

md=as.data.frame(md)


#시도별 제외하고 전국 데이터만 추림

md_total=md[md$"행정구역(시군구)별(1)"=="전국",]

md_total=md_total[-1,]


#문자로 표기된 나이를 숫자로

age=as.numeric(gsub('\\D','', md_total[,2]))

md_total2=cbind(md_total,age)


#지수표기에서 일반표기로

options(scipen=10)


#세대별로 데이터 계산

for (i in 1:11)

{

  if(i!=11){  

    N=sum(md_total2[(md_total2$age>=10*(i-1))&(md_total2$age<10*i),3])

    row=data.frame(paste(10*(i-1),"~",10*(i)),N)

    names(row)=c("age","N")

  } else{

    N=sum(md_total2[(md_total2$age>=10*(i-1))&(md_total2$age<10*i),3])

    row=data.frame(paste(10*(i-1),"~"),N)

    names(row)=c("age","N")

  }

    if(i==1)

  {

    by_age=row

  } else

  {

    by_age=rbind(by_age,row)

  }

}


#세대별 그래프

barplot(N~age,by_age,ylim=c(0,10000000),ann=FALSE,cex.names=0.8)

title(main="연령별 인구 수",cex.main=1.8,xlab="나이",ylab="인구 수",cex.lab=1.5)


#테두리 설정

box("figure", col="gray")


그래프를 그려봅시다. 



50대가 가장 많습니다. 50대가 8661935명입니다. 반면에 0~10세는 4103848입니다. 50대의 절반이 안되는 수입니다. 지금과 같은 추세로 50년이 지나면, 0~50세 인구가 현재의 절반 수준으로 감소하게 될 것입니다. 


반응형

댓글