본문 바로가기
728x90

전체 글56

[Tree Based Model]Random Forests(랜덤 포레스트) 랜덤포레스트(Random Forests)랜덤포레스트 모델을 이해하고 문제에 적용할 수 있습니다.순서형인코딩(Ordinal encoding) 과 원핫인코딩을 구분하여 사용할 수 있습니다.범주형 변수의 인코딩 방법이 트리모델과 선형회귀 모델에 주는 영향 이해합니다. Warm up오늘 배우는 랜덤포레스트 모델에 대해서 다음 영상을 시청하고 질문에 답해보세요:StatQuest: Random Forests Part 1 - Building, Using and Evaluating랜텀포레스트가 결정트리와 어떻게 다를까요?결정트리는 상부에서 생긴 에러가 하부까지 내려오거나, 트리 깊이에 따라 과적합이 생기는 단점이 있는데 앙상블 모델인 랜덤포레스트로 이러한 문제를 해결할 수 있음배깅(Bagging)이 무슨 뜻입니까?Ou..
사이킷럿 파이프라인(Pipelines) 사이킷럿 파이프라인(Pipelines)에 대해 배워봅시다. from sklearn.pipeline import make_pipeline 위와 같이 사이킷런의 make_pipeline 함수를 사용하면 모델 학습의 코드를 간단하게 만들 수 있습니다. 공식 문서 : Pipeline 예시 먼저 필요한 라이브러리를 import합니다. from category_encoders import OneHotEncoder from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import ..
[Tree Based Model]Decision Trees(의사결정나무) 결정트리(Decision Trees) 면접질문 정리 사이킷런 파이프라인(pipelines) 을 이해하고 활용 할 수 있습니다. -사이킷런의 파이프라인을 사용하면 매번 데이터셋별로 적용하던 원핫인코딩, 결측치대체, 표준화 함수 코드를 한번에 적용할 수 있다. 결정트리(decision tree) 란? -지도학습의 분류와 회귀 모두에서 사용할 수 있는 모델로, 예/아니오로 가지치기 하듯 분류하는 방식에서 의사결정나무라고 부른다.-이때 맨 위의 노드를 가장 뿌리가 되는 기준이라 하여 뿌리노드(root node)라고 한다.-지니 불순도는 한가지의 값으로 분류가 얼마나 잘 되었는지를 나타내는 정도이다. 예를 들어 타이타닉의 데이터 중 '5세 이하의 아이인가?'의 질문으로 '예'일 때의 모든 데이터를 생으로 분류를 ..
[회귀분석] 단순/ 다중/ 릿지/ 로지스틱 머신러닝 지도학습에서 쓰이는 회귀분석 모델 머신러닝의 지도학습에서 쓰이는 통계학의 회귀분석 4가지 모델에 대해서 알아보자. (이는 공부한 것을 정리하기 위한 포스팅으로 틀린 부분이 있을 수 있습니다.) 단순선형회귀 하나의 독립변수로 종속변수를 예측할 때 쓰이는가장 기본적인 회귀분석 방법이다. 독립변수와 종속변수간의 상관관계가 어느정도 있을 때 시도할 수 있다. 공식 $$\hat{Y} = aX + b$$ 단순선형 회귀식의 모수는 예측값에서 실제값을 뺀 오차를 최소화하는 값으로 이를 구하는 공식은 아래와 같다. $$a = \frac{S_{xy}}{S_{xx}}, b = \bar{y} - a\bar{x}$$ 다중선형회귀 다중선형회귀는 단순선형 회귀에서 독립변수의 수가 2개 이상으로 늘어난 것으로 똑같이 오차를..
[선형모델]Multiple Regression(다중선형회귀) 다중선형회귀(Multiple Linear Regression) 면접 질문 정리하기 머신러닝모델을 만들 때 학습과 테스트 데이터를 분리 해야 하는 이유를 설명할 수 있습니다. 다중선형회귀를 이해하고 사용할 수 있습니다. 과적합/과소적합을 일반화 관점에서 설명할 수 있습니다. 편향/분산의 트레이트오프 개념을 이해하고 일반화 관점에서 설명할 수 있습니다. Warm up 복습 회귀모델을 만들 때 기준모델을 어떻게 정의하나요? 이 과정이 왜 중요할까요?이 회귀 모델이 어느정도의 성능을 내는지 비교하기 위한 모델로 해당 모델이 단순하게 평균값으로 예측을 하는 것보다 얼마나 더 신뢰할 수 있는지 판단할 수 있다. 회귀분석이 무엇인지 간단하게 설명해 보세요.타겟변수가 연속형일 때, 해당 값을 예측하기 위한 방법으로 예..
[선형모델]Simple Regression(단순선형회귀) 줌 세션 지도학습이 뭘까?-정답을 주고 예측을 학습시키는 것 -답이 있는 데이터 (라벨이든 목적변수든) 비지도학습과 지도학습 비교-가장 중요한건 내가 이 데이터로 뭘 할건지의 목표를 설정하는 것. -군집화를 할 것 인지 예측을 할 것 인지. 기준모델이란? 회귀 문제의 경우 데이터의 평균값을 기준값으로 한다. 이후 내가 만든 머신러닝 모델의 성능이 어느정도 되는지 알아보려고 기준모델과의 평균제곱오차와 비교한다. warm-up 일단 유툽에서 영어로 한번 쭉 보기. 단어별로 먼저 보고 문장별로 읽으면서 보자. Lecture에서 배운 것 회귀모델에서 지표중 하나인 MAE(절대평균오차)는 계산을 해도 실제 목적변수의 단위와 달라지지 않아서 비교를 할 때 유용하다! 도전과제 6) 단선선형회귀는 선형성, 정규성, 등..
[n13x] Sprint Challenge 이번 주차에 겪은 문제들 #-- 모공분산(ddof=0) #-- 표본공분산(ddof=1) 과제에 낼 때 이것때문에 틀렸다. 여기선 그냥 디폴트로 쓰는 것 같다. numpy와 pandas에서의 분산 계산 N132 → 공분산 구하는 문제에서 그냥 np.var 해야 하는데 괜히 열심히 디폴트 인자 바꿔서 틀린듯. N133 → 고유벡터의 거리를 구해서 더 짧은걸 찾으랬는데 나는 L2로 구했는데 문제는 L1거리로 구했을 때 더 짧은걸 묻는 거였나보다. 신기한게 같은 벡터가 L1에서와 L2에서 거리가 짧은거 더 다르다. 계산 방법의 문제인 것 같은데 같은 거리여도 다른게 신기했다 [n13x]리뷰 세션 n131 차원 축소 어디서 써요? 131에서 이미지 분석 사진 예시로 보여준 거. 나중에 모델 돌릴 때 정보가 너무 ..
[선형대수] 클러스터링(군집분류) Clustering 데이터 사이언스의 여러 분야 중 하나는, 데이터를 바탕으로 답을 "예측"하는 것입니다. 그러나 현실은 모든 경우의 답이 있지는 않습니다. 이에 해당하는 것이 Un-supervised learning 인데요. 클러스터링은 이 Un-supervised learning의 가장 대표적인 이슈라고 할 수도 있습니다. 이 강의 이후에 여러분이 기억해야할 핵심 키워드들은 아래와 같습니다 . Scree Plot Supervised / Unsupervised Learning K-means clustering 🏆 학습 목표 Screeplot의 의미를 이해할 수 있다. pca 설명력 누적 분포 시각화 Supervised / Unsupervised learning의 차이를 설명 할 수 있다. 답이 있냐 /..
728x90