728x90
Do-it
- 자기전에 어차피 잠 안오는거 웜업영상 보고 잠.
- 01. 과제 내고 헬스장 갔다 오기. (커피를 안마셔도 잠이 너무 안온다..ㅠㅠ)
- A1. 섹션 노트 듣고
- A2. 개념 포스팅 정리하기 (그림 추가하며 설명..도 추가)
- B2. 웜업영상 질문 다시보며 정리하기
- A3. 과제 하기
- B1. 과제 분석과정 주석 달며 하기
Evaluation Metrics for Classification
- Confusion matrix 를 만들고 해석할 수 있습니다.
- 정밀도, 재현율 을 이해하고 사용할 수 있습니다.
- ROC curve, AUC 점수 를 이해하고 사용할 수 있습니다.
Warm up
다음 동영상을 시청하고 질문에 답해보세요.
- Precision, Recall & F-Measure
- 동영상에 F beta 공식은 잘못 적혀 있습니다 주의하세요. 그리고 b를 키우면 recall의 영향을 더 많이 받습니다.
- Precision, Recall의 차이점이 무엇일까요?
- 암 진단을 위해서는 어떤 지표가 더 중요할까요? 예시를 들어 생각해 보세요!
분류모델의 평가 지표
Lecture 정리
-
임계값 정의
임계값은 귀무 가설 하 검정 통계량의 분포에서 귀무 가설을 기각해야 하는 값의 집합을 정의하는 점입니다. 이 집합은 임계 또는 기각 영역이라고 합니다. 일반적으로, 단측 검정에는 하나의 임계값이 있고 양측 검정에는 두 개의 임계값이 있습니다. (출처: 위키)
분류모델 평가지표 정리
분류기의 정확한 성능을 판단하기 위해서는 정확도 외에 다른 평가지표를 같이 사용해야 합니다.
특히 정밀도(precision), 재현율(recall) 을 살펴보아야 합니다.
Scikit-Learn User Guide — Classification Report
- 정확도(Accuracy)는 전체 범주를 모두 바르게 맞춘 경우를 전체 수로 나눈 값입니다:
- 정밀도(Precision)는 *Positive로 예측**한 경우 중 올바르게 Positive를 맞춘 비율입니다:
= 예측한 값들이 얼마나 정밀하게 맞추었는지에 대한 비율)-
= 긍정 예측값 중에서 맞춘 긍정값의 비율
(스팸문제의 경우, 스팸으로 예측한 데이터 중에서 얼마나 실제 스팸이 포함되어있는지)
- 재현율(Recall, Sensitivity)은 *실제 Positive**인 것 중 올바르게 Positive를 맞춘 것의 비율 입니다:
=실제 해당 라벨이 얼마나 맞추어져서 재현이 잘 되었는지에 대한 비율
= 실제 긍정값 중에서 맞춘 긍정값의 비율
( 스팸문제의 경우, 실제 스팸인 데이터에 비해 얼마나 스팸을 맞추었는지)
재현율과 정밀도 모두 맞춘 긍정값의 비율이지만 긍정 예측값을 기준으로 했는지, 실제 긍정값을 기준으로 두었는지에 대한 차이이다. 실제 문제의 상황에 따라 내가 어디에 더 중점을 두어야 하는지가 달라지는 것 같다.
- F1점수(F1 score)는 정밀도와 재현율의 조화평균(harmonic mean)입니다:
(각 범주별 데이터 수가 크게 차이나는데 그냥 평균내면 불평등하니 가중치를 둔 조화평균을 구한다.)
사이킷런 랜덤포레스트의 predict_proba 함수
728x90
'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글
[Applied Predictive Modeling] Data Wrangling 데이터 전처리 (0) | 2021.06.24 |
---|---|
[Applied Predictive Modeling] Choose Your ML Problems (0) | 2021.06.24 |
[트리모델]Model Selection 모델선택 방법 (0) | 2021.06.24 |
[Tree Based Model]Random Forests(랜덤 포레스트) (0) | 2021.06.16 |
[Tree Based Model]Decision Trees(의사결정나무) (0) | 2021.06.15 |
댓글