본문 바로가기
728x90

머신러닝2

Partial Dependence Plot (PDP) 부분의존도그림 랜덤포레스트와 같은 앙상블 모델은 선형모델에 비해 성능은 좋지만 변수의 영향을 해석하기 어렵다. 특성중요도를 구할 수는 있지만 이 변수가 중요한지 아닌지 정도만 파악할 수 있을 뿐, 이 변수로 인해 음의 상관관계를 가지는지 양의 상관관계를 가지는지 알기는 어렵다. 이럴 때 그려볼 수 있는 것이 부분의존도 그림(PDP)이다. 이를 통해 특성의 값에 따라서 타겟값이 증가/감소하느냐와 같은 어떻게 영향을 미치는지에 대한 정보를 알 수 있다. pdp개념을 알려면 우선 marginal 분포를 알아야한다. 그냥 수리통계학에서 배우는 결합분포이다. 각 x와 y에 따른 결합분포의 개념을 가지고 Partial Dependence Plot을 그리게 된다. 기본적인 Partial Dependence 값을 이렇게 구할 수 있..
사이킷럿 파이프라인(Pipelines) 사이킷럿 파이프라인(Pipelines)에 대해 배워봅시다. from sklearn.pipeline import make_pipeline 위와 같이 사이킷런의 make_pipeline 함수를 사용하면 모델 학습의 코드를 간단하게 만들 수 있습니다. 공식 문서 : Pipeline 예시 먼저 필요한 라이브러리를 import합니다. from category_encoders import OneHotEncoder from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import ..
728x90