본문 바로가기
카테고리 없음

인구유동에 영향을 미치는 데이터 수집하기.

by mintee
728x90

인구유동에 영향을 미치는 변수로 연봉과 직업, 집값 등으로 분석을 해보기로 했다.

 

연봉과 집값, 직업, 결혼 등이 인구유동에 어떤  영향을 미치는지 알아보고자 하였다. 

각각의 변수와의 상관관계와, 변수간의 상관관계가 높다면 회귀분석 

 

# 데이터 수집하기.

 

종속변수인 인구유동에 대한 지표는 행정구역별 순이동을 사용하기로 하였다.

 

독립변수로는 찾아보려고 했는데 막상 데이터 포털을 다 뒤져도 내가 딱 원하는 형식의 데이터를 구하는게 쉽지 않다.

 

일단 종속변수로 2016~2018 행정구역별 순이동을 기준으로 잡았다.

그래서 범주형 변수인 서울특별시와 경기도의 행정구역을 기준으로 잡고

범주형에 맞춰서 행정구역별로 평균 연봉과 집값을 구해야 할 것 같다.

집값은 지역별 아파트 매매가를 구했다.

행정구역별 연봉은 찾기가 매우 어려웠다.. 인터넷에 통계자료나 누가 이미 분석해놓은 자료는 많은데 그 데이터를 어디서 가져온지 모르겠다.

> 데이터 구하는 법은 예전에 멀티캠퍼스 강사님에게 조언을 구해보아야겠다.

 

일단 순이동과 지역별 아파트 매매가, 평균월소득액 까지 구해서 엑셀에 데이터를 병합해 두었다.

데이터를 수집하면서 느낀 점은 내가 딱 원하는 데이터도 구하기가 쉽지 않고 구해도 애마한 척도로 연관있는 변수의 데이터는 어떤 식으로 분석을 할 것인지도 고려해 보아야 할 것 같다.

 

그리고 느낀 점은 너무 정제되어 있는 분석하기에 딱 좋은 R의 내장데이터나 캐글데이터에만 너무 익숙해져도 안될 것 같다는 것이다. 물론 이미 구해진 데이터나 데이터 분석을 목적으로 생성된 것이 아닌 빅데이터를 활용하여 데이터 마이닝이나 머신러닝을 어떻게 돌려야할지도 생각해 보아야겠지만.. 

우선 구글 부장 선배님이 말씀하신데로 머신러닝이나 거창한 것 보다, 내가 직접, 스스로 데이터 분석을 해보기 위해 

기획을 하고 데이터를 구하기 위해 수집하는 과정을 경험해본 것 같다. 

그래도 나는 이렇게 구하고 보니 그냥 데이터만 넣어주면 알아서 예측하는 머신러닝이나 하고싶다.. 

 

그리고 일단 인구유동에 미치는 요인은 연봉,직업,결혼여부,결혼시기,매매가,월세가,학구열 등 엄청나게 많은 변수가 있을 것이고, 지금 구한 것은 지역별 순이동과 평균월소득,아파트매매가 뿐이다. 

이 2가지의 변수로 순이동을 대부분 나타낼 수는 없을 것이다. 나머지 요인인 직업과 결혼여부는 명목척도를 사용하거나 할 것 같다. 아마 다변량에서 이렇게 직업이나 직장만족도를 딱 나타내는 지표가 없으니 다른 지표를 사용하여 측정하고 분석하는 것인가 보다. 결혼여부는 1,0 이런식으로 만들어야 하나? 이건 진짜 대훈이 말처럼 도시공학 대학원에서 이런거 할 것 같다. 스케일이 아직 내가 이걸 하기에는 너무 오래 걸릴 것 같다..ㅠㅠ

 

일단 이렇게라도 데이터 분석에대해서 좀 더 이해하게 되었으니, 이젠 구해진 데이터로 한번 가치있는 결과를 찾아내는 것을 해보고 싶다. 

(일단 좀 재밌는 거 하고싶다.)

저번에 기획해둔 웹페이지 크롤링으로 긁어와서 텍스트마이닝 하는거 해보고 싶은데

내 노트북 용량이.. 일단 얼른 sd카드를 사야겠다.

아쉬운대로 텍스트파일이나 아 전자책 같은것도 해도 되지 않을까?? 

여튼 텍스트파일로 가장 연관도 높은 키워드를 찾는 텍스트마이닝 해보아야지!

그리고 범위를 넓혀서 크롤링!!

 

 

 

 

728x90

댓글