인구유동에 영향을 미치는 변수로 연봉과 직업, 집값 등으로 분석을 해보기로 했다.
연봉과 집값, 직업, 결혼 등이 인구유동에 어떤 영향을 미치는지 알아보고자 하였다.
각각의 변수와의 상관관계와, 변수간의 상관관계가 높다면 회귀분석
# 데이터 수집하기.
종속변수인 인구유동에 대한 지표는 행정구역별 순이동을 사용하기로 하였다.
독립변수로는 찾아보려고 했는데 막상 데이터 포털을 다 뒤져도 내가 딱 원하는 형식의 데이터를 구하는게 쉽지 않다.
일단 종속변수로 2016~2018 행정구역별 순이동을 기준으로 잡았다.
그래서 범주형 변수인 서울특별시와 경기도의 행정구역을 기준으로 잡고
범주형에 맞춰서 행정구역별로 평균 연봉과 집값을 구해야 할 것 같다.
집값은 지역별 아파트 매매가를 구했다.
행정구역별 연봉은 찾기가 매우 어려웠다.. 인터넷에 통계자료나 누가 이미 분석해놓은 자료는 많은데 그 데이터를 어디서 가져온지 모르겠다.
> 데이터 구하는 법은 예전에 멀티캠퍼스 강사님에게 조언을 구해보아야겠다.
일단 순이동과 지역별 아파트 매매가, 평균월소득액 까지 구해서 엑셀에 데이터를 병합해 두었다.
데이터를 수집하면서 느낀 점은 내가 딱 원하는 데이터도 구하기가 쉽지 않고 구해도 애마한 척도로 연관있는 변수의 데이터는 어떤 식으로 분석을 할 것인지도 고려해 보아야 할 것 같다.
그리고 느낀 점은 너무 정제되어 있는 분석하기에 딱 좋은 R의 내장데이터나 캐글데이터에만 너무 익숙해져도 안될 것 같다는 것이다. 물론 이미 구해진 데이터나 데이터 분석을 목적으로 생성된 것이 아닌 빅데이터를 활용하여 데이터 마이닝이나 머신러닝을 어떻게 돌려야할지도 생각해 보아야겠지만..
우선 구글 부장 선배님이 말씀하신데로 머신러닝이나 거창한 것 보다, 내가 직접, 스스로 데이터 분석을 해보기 위해
기획을 하고 데이터를 구하기 위해 수집하는 과정을 경험해본 것 같다.
그래도 나는 이렇게 구하고 보니 그냥 데이터만 넣어주면 알아서 예측하는 머신러닝이나 하고싶다..
그리고 일단 인구유동에 미치는 요인은 연봉,직업,결혼여부,결혼시기,매매가,월세가,학구열 등 엄청나게 많은 변수가 있을 것이고, 지금 구한 것은 지역별 순이동과 평균월소득,아파트매매가 뿐이다.
이 2가지의 변수로 순이동을 대부분 나타낼 수는 없을 것이다. 나머지 요인인 직업과 결혼여부는 명목척도를 사용하거나 할 것 같다. 아마 다변량에서 이렇게 직업이나 직장만족도를 딱 나타내는 지표가 없으니 다른 지표를 사용하여 측정하고 분석하는 것인가 보다. 결혼여부는 1,0 이런식으로 만들어야 하나? 이건 진짜 대훈이 말처럼 도시공학 대학원에서 이런거 할 것 같다. 스케일이 아직 내가 이걸 하기에는 너무 오래 걸릴 것 같다..ㅠㅠ
일단 이렇게라도 데이터 분석에대해서 좀 더 이해하게 되었으니, 이젠 구해진 데이터로 한번 가치있는 결과를 찾아내는 것을 해보고 싶다.
(일단 좀 재밌는 거 하고싶다.)
저번에 기획해둔 웹페이지 크롤링으로 긁어와서 텍스트마이닝 하는거 해보고 싶은데
내 노트북 용량이.. 일단 얼른 sd카드를 사야겠다.
아쉬운대로 텍스트파일이나 아 전자책 같은것도 해도 되지 않을까??
여튼 텍스트파일로 가장 연관도 높은 키워드를 찾는 텍스트마이닝 해보아야지!
그리고 범위를 넓혀서 크롤링!!
댓글