728x90
계획
- 웜업 쭉 한번 보고 해석하며 읽고 정리
- 세션노트 주석 달기ㅡ개념 찾아보며
- 과제
오늘 데이터 찾아서 하는 것 보단 그동안 궁금했던 기울어진 분포처리 레퍼런스 읽어봐야겠다.
S2-Week 3 : Applied Predictive Modeling
더 복잡한 데이터를 다루고 특성, 모델을 잘 선택하는 방법을 배우고 모델을 설명하기 위한 여러가지 최신 기법들을 배웁니다.
Choose your ML problems 질문 정리
- 예측모델을 위한 타겟을 올바르게 선택하고 그 분포를 확인할 수 있다.
- 분류문제의 경우 얼마나 범주의 비율이 일정한지(균등한 데이터인지)
- 회귀문제의 경우 타겟의 분포가 정규분포를 따르는지(치우쳐진 분포라면 로그변환)
- 테스트/학습 데이터 사이 or 타겟과 특성들간 일어나는 정보의 누출(leakage)을 피할 수 있다.
- 정보누수가 발생하면 정확도가 엄청 높게 나옴. 1나온다고 좋아하면 안된다.
- 상황에 맞는 검증 지표(metrics)를 사용할 수 있다.
- 분류 → 정확도, 정밀도, 재현율, F1, ROC AUC score
- 회귀 → mse, mae, Rmse, 정확도
Warm up
다음 동영상을 시청하세요.
- IAML2.22: Classification accuracy and imbalanced classes
- 왜 accuracy 만 사용하면 모델 성능에 대해 잘못된 판단을 내릴 수 있을까요?저널에 실리는 모든 논문들 중에서 어떤 논문이 노벨상을 받을지 예측한다고 할 때, (실제로 노벨상을 받는 논문은 매우 적으므로) 내가 모든 논문이 못받는 다고 예측을 하면 99.99%의 정확도를 같게 된다. 그러나 이것이 정말 제대로 예측을 한것이라고 할 수 있을까? 실제로 선형분류기로 A와 B의 모델을 세웠을 때, 어느정도의 FP(틀린 노벨o값)를 포함하더라도 실제 TP(맞춘 노벨o)값을 맞추는게 좋은 모델일까, 더 빡빡한 기준으로 세워 TP값을 못 맞추더라도 FP도 없는 모델이 좋은 모델일까.
평가지표
여러분이 만든 예측모델을 어떻게 평가해야 할까요? 그것은 문제의 상황에 따라 다를것 입니다. 특히 분류 & 회귀 모델의 평가지표는 완전히 다릅니다!
함수 정리
np.logical_or
함수 : OR게이트 함수
( 둘중에 하나만 TRUE여도 TRUE를 반환하는 함수!)
df.value_counts()
sklearn.compose.TransformedTargetRegressor
: 타겟 로그변환 함수
Zoom
데이터 수집 사이트
- 공공데이터 포털
→ 검색만 하면 다양한 지자체와 기관들의 데이터 사이트 나옴.
- 서울시 열린데이터 포털
- 해당 도메인을 다루는 데이터 기관에 가면 로우데이터를 올려두는 경우도 있으니 잘 찾아볼 것!
- 다양한 데이터 포털을 정리해 놓은 중앙대 사이트
- MDIS 공공용 데이터 다운로드
- 이번 프로젝트에서는 csv, json파일로 된 데이터를 수집하기. 내가 하고 싶은 주제에 대한 논문도 한번 찾아보기
- 발표 시간 똑같이 5분. 회사에선느 5분도 길다. 헐
- 데이터를 수집해서 불러온 후 무엇을 제일 먼저 할까?
→ 단아님은 우선 데이터에 있는 컬럼들부터 구글링으로 찾아볼 것 같다.
728x90
'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글
[Applied Predictive Modeling] Feature Importances 특성 중요도 (0) | 2021.06.24 |
---|---|
[Applied Predictive Modeling] Data Wrangling 데이터 전처리 (0) | 2021.06.24 |
[트리모델]Evaluation Metrics for Classification 평가지표 (0) | 2021.06.24 |
[트리모델]Model Selection 모델선택 방법 (0) | 2021.06.24 |
[Tree Based Model]Random Forests(랜덤 포레스트) (0) | 2021.06.16 |
댓글