본문 바로가기
코드스테이츠 Ai Boostcamp

[Applied Predictive Modeling] Choose Your ML Problems

by mintee
728x90

계획

  • 웜업 쭉 한번 보고 해석하며 읽고 정리
  • 세션노트 주석 달기ㅡ개념 찾아보며
  • 과제

    오늘 데이터 찾아서 하는 것 보단 그동안 궁금했던 기울어진 분포처리 레퍼런스 읽어봐야겠다.

     

    S2-Week 3 : Applied Predictive Modeling


    더 복잡한 데이터를 다루고 특성, 모델을 잘 선택하는 방법을 배우고 모델을 설명하기 위한 여러가지 최신 기법들을 배웁니다.

    Choose your ML problems 질문 정리


    1. 예측모델을 위한 타겟을 올바르게 선택하고 그 분포를 확인할 수 있다.
      • 분류문제의 경우 얼마나 범주의 비율이 일정한지(균등한 데이터인지)
      • 회귀문제의 경우 타겟의 분포가 정규분포를 따르는지(치우쳐진 분포라면 로그변환)
    1. 테스트/학습 데이터 사이 or 타겟과 특성들간 일어나는 정보의 누출(leakage)을 피할 수 있다.
      • 정보누수가 발생하면 정확도가 엄청 높게 나옴. 1나온다고 좋아하면 안된다.
    1. 상황에 맞는 검증 지표(metrics)를 사용할 수 있다.
      • 분류 → 정확도, 정밀도, 재현율, F1, ROC AUC score
      • 회귀 → mse, mae, Rmse, 정확도

    Warm up


    다음 동영상을 시청하세요.

    • IAML2.22: Classification accuracy and imbalanced classes
      • 왜 accuracy 만 사용하면 모델 성능에 대해 잘못된 판단을 내릴 수 있을까요?저널에 실리는 모든 논문들 중에서 어떤 논문이 노벨상을 받을지 예측한다고 할 때, (실제로 노벨상을 받는 논문은 매우 적으므로) 내가 모든 논문이 못받는 다고 예측을 하면 99.99%의 정확도를 같게 된다. 그러나 이것이 정말 제대로 예측을 한것이라고 할 수 있을까? 실제로 선형분류기로 A와 B의 모델을 세웠을 때, 어느정도의 FP(틀린 노벨o값)를 포함하더라도 실제 TP(맞춘 노벨o)값을 맞추는게 좋은 모델일까, 더 빡빡한 기준으로 세워 TP값을 못 맞추더라도 FP도 없는 모델이 좋은 모델일까.

    평가지표

    여러분이 만든 예측모델을 어떻게 평가해야 할까요? 그것은 문제의 상황에 따라 다를것 입니다. 특히 분류 & 회귀 모델의 평가지표는 완전히 다릅니다!

    함수 정리


    np.logical_or 함수 : OR게이트 함수

    ( 둘중에 하나만 TRUE여도 TRUE를 반환하는 함수!)

    df.value_counts()

    sklearn.compose.TransformedTargetRegressor : 타겟 로그변환 함수

    Zoom

    데이터 수집 사이트

    • 공공데이터 포털

    → 검색만 하면 다양한 지자체와 기관들의 데이터 사이트 나옴.

    • 서울시 열린데이터 포털
    • 해당 도메인을 다루는 데이터 기관에 가면 로우데이터를 올려두는 경우도 있으니 잘 찾아볼 것!

     

    • 다양한 데이터 포털을 정리해 놓은 중앙대 사이트

     

    • MDIS 공공용 데이터 다운로드

     

    • 이번 프로젝트에서는 csv, json파일로 된 데이터를 수집하기. 내가 하고 싶은 주제에 대한 논문도 한번 찾아보기
    • 발표 시간 똑같이 5분. 회사에선느 5분도 길다. 헐

     

    • 데이터를 수집해서 불러온 후 무엇을 제일 먼저 할까?

    → 단아님은 우선 데이터에 있는 컬럼들부터 구글링으로 찾아볼 것 같다.

     

    728x90

    댓글