본문 바로가기
728x90

분류 전체보기56

[제프 호킨스]신피질 이론 요약 기존의 믿음 : 뇌의 영역이 나누어져 있고, 각각의 감각이나 생각을 단계별 처리. 정보가 뇌의 특정 장소에 저장. (예컨대 시각 정보 중에서 선이나 가장자리를 탐지하는 영역(A)이 있고 여기에 다른 정보를 담당하는 영역들(B, C)가 차례로 있다는 식이다.) 신피질 감각뿐만 아니라 언어와 수학, 철학과 같은 추상적 사고를 모두 처리 뇌의 전체 부피에서 70% 기능자기공명영상(fMRI)을 근거 신피질 이론 우리가 세상을 인식하는 건 피질 기둥들이 투표를 통해 이룬 합의의 결과 신피질에는 쌀알 크기의 피질 기둥 15만 개가 서로 연결돼 세계를 인식하고 지능을 창조 인간이 태어날 때 신피질은 아무것도 없는 상태이지만 경험을 통해 풍부하고 복잡한 세계를 배우게 된다고 주장(제프호킨스) 참고: https://ww..
머신러닝 모델해석방법 Shap
Partial Dependence Plot (PDP) 부분의존도그림 랜덤포레스트와 같은 앙상블 모델은 선형모델에 비해 성능은 좋지만 변수의 영향을 해석하기 어렵다. 특성중요도를 구할 수는 있지만 이 변수가 중요한지 아닌지 정도만 파악할 수 있을 뿐, 이 변수로 인해 음의 상관관계를 가지는지 양의 상관관계를 가지는지 알기는 어렵다. 이럴 때 그려볼 수 있는 것이 부분의존도 그림(PDP)이다. 이를 통해 특성의 값에 따라서 타겟값이 증가/감소하느냐와 같은 어떻게 영향을 미치는지에 대한 정보를 알 수 있다. pdp개념을 알려면 우선 marginal 분포를 알아야한다. 그냥 수리통계학에서 배우는 결합분포이다. 각 x와 y에 따른 결합분포의 개념을 가지고 Partial Dependence Plot을 그리게 된다. 기본적인 Partial Dependence 값을 이렇게 구할 수 있..
[Applied Predictive Modeling] Feature Importances 특성 중요도 study 우선순위렉쳐노트에서 특성 중요도 구하는 방법 3가지와 xgb 학습 과정 전반적으로 이해하기. 과제 제출내데이터 조합하기그걸로 과제.. xgboost 개념 이해하기Feature Importances 질문 정리 특성 중요도 계산 방법들(permutation importances, Feature importance, ...)을 이해하고 사용하여 모델을 해석하고 특성 선택시 활용할 수 있다.gradient boosting 을 이해하고 xgboost를 사용하여 모델을 만들 수 있다. Warm up오늘 학습할 주제에 대한 동영상을 시청하세요.배깅 복습Bootstrap aggregating bagging부스팅(Boosting)AdaBoostAdaBoost와 RandomForest와 핵심 차이점 3가지는?G..
[Applied Predictive Modeling] Data Wrangling 데이터 전처리 Data Wrangling지도학습(supervised machine learning)모델을 학습하기 위한 훈련 데이터 생성 합니다.지도학습을 위한 데이터 엔지니어링 방법을 이해하고 올바른 특성을 만들어 낼 수 있습니다. Warm up데이터 랭글링(wrangling)은 분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 변형하거나 맵핑하는 과정입니다. 보통 모델링 과정 중 가장 많은 시간이 소요되는 단계로 볼 수 있습니다.이번 모듈에서는 Instacart Orders 오픈소스 데이터를 사용해 모델 학습에 사용할 수 있는 데이터세트를 만드는 과정을 심도있게 살펴보겠습니다.3 Million Instacart Orders, Open Sourced!다음 영상을 시청해 주세요!When should I use ..
[Applied Predictive Modeling] Choose Your ML Problems 계획 웜업 쭉 한번 보고 해석하며 읽고 정리 세션노트 주석 달기ㅡ개념 찾아보며 과제 오늘 데이터 찾아서 하는 것 보단 그동안 궁금했던 기울어진 분포처리 레퍼런스 읽어봐야겠다. S2-Week 3 : Applied Predictive Modeling 더 복잡한 데이터를 다루고 특성, 모델을 잘 선택하는 방법을 배우고 모델을 설명하기 위한 여러가지 최신 기법들을 배웁니다. Choose your ML problems 질문 정리 예측모델을 위한 타겟을 올바르게 선택하고 그 분포를 확인할 수 있다. 분류문제의 경우 얼마나 범주의 비율이 일정한지(균등한 데이터인지) 회귀문제의 경우 타겟의 분포가 정규분포를 따르는지(치우쳐진 분포라면 로그변환) 테스트/학습 데이터 사이 or 타겟과 특성들간 일어나는 정보의 누출(lea..
[트리모델]Evaluation Metrics for Classification 평가지표 Do-it 자기전에 어차피 잠 안오는거 웜업영상 보고 잠. 01. 과제 내고 헬스장 갔다 오기. (커피를 안마셔도 잠이 너무 안온다..ㅠㅠ) A1. 섹션 노트 듣고 A2. 개념 포스팅 정리하기 (그림 추가하며 설명..도 추가) B2. 웜업영상 질문 다시보며 정리하기 A3. 과제 하기 B1. 과제 분석과정 주석 달며 하기 Evaluation Metrics for ClassificationConfusion matrix 를 만들고 해석할 수 있습니다.정밀도, 재현율 을 이해하고 사용할 수 있습니다.ROC curve, AUC 점수 를 이해하고 사용할 수 있습니다. Warm up다음 동영상을 시청하고 질문에 답해보세요.Introduction to the Confusion Matrix in Classificatio..
[트리모델]Model Selection 모델선택 방법 그리드서치에서 scoring → 사이킷런이 작을 수록 좋다고 인식하는데 mae는 클 수록 안좋은 것이니 마이너스를 붙인 neg_mae를 스코어로 넣어야 한다! 느낀점여러 날에 썼던 코드를 계속 확인하려고 깃허브 너무 여러 페이지를 보게 되서 번거롭다. 딱 코드를 어디다가 정리를 해 두어야 할 것 같다. 줌비슷한 범주를 합치는 이유질문 :기존 렉쳐노트에서 주신 코드 중에 Feature Engineering 하는 과정에서 사용된 ''' # 새로운 특성을 생성합니다. behaviorals = [col for col in df.columns if 'behavioral' in col] df['behaviorals'] = df[behaviorals].sum(axis=1) ''' 코드에 대한 설명을 부탁드려도 될까요..
[Tree Based Model]Random Forests(랜덤 포레스트) 랜덤포레스트(Random Forests)랜덤포레스트 모델을 이해하고 문제에 적용할 수 있습니다.순서형인코딩(Ordinal encoding) 과 원핫인코딩을 구분하여 사용할 수 있습니다.범주형 변수의 인코딩 방법이 트리모델과 선형회귀 모델에 주는 영향 이해합니다. Warm up오늘 배우는 랜덤포레스트 모델에 대해서 다음 영상을 시청하고 질문에 답해보세요:StatQuest: Random Forests Part 1 - Building, Using and Evaluating랜텀포레스트가 결정트리와 어떻게 다를까요?결정트리는 상부에서 생긴 에러가 하부까지 내려오거나, 트리 깊이에 따라 과적합이 생기는 단점이 있는데 앙상블 모델인 랜덤포레스트로 이러한 문제를 해결할 수 있음배깅(Bagging)이 무슨 뜻입니까?Ou..
사이킷럿 파이프라인(Pipelines) 사이킷럿 파이프라인(Pipelines)에 대해 배워봅시다. from sklearn.pipeline import make_pipeline 위와 같이 사이킷런의 make_pipeline 함수를 사용하면 모델 학습의 코드를 간단하게 만들 수 있습니다. 공식 문서 : Pipeline 예시 먼저 필요한 라이브러리를 import합니다. from category_encoders import OneHotEncoder from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import ..
728x90