본문 바로가기
728x90

분류 전체보기56

[Tree Based Model]Decision Trees(의사결정나무) 결정트리(Decision Trees) 면접질문 정리 사이킷런 파이프라인(pipelines) 을 이해하고 활용 할 수 있습니다. -사이킷런의 파이프라인을 사용하면 매번 데이터셋별로 적용하던 원핫인코딩, 결측치대체, 표준화 함수 코드를 한번에 적용할 수 있다. 결정트리(decision tree) 란? -지도학습의 분류와 회귀 모두에서 사용할 수 있는 모델로, 예/아니오로 가지치기 하듯 분류하는 방식에서 의사결정나무라고 부른다.-이때 맨 위의 노드를 가장 뿌리가 되는 기준이라 하여 뿌리노드(root node)라고 한다.-지니 불순도는 한가지의 값으로 분류가 얼마나 잘 되었는지를 나타내는 정도이다. 예를 들어 타이타닉의 데이터 중 '5세 이하의 아이인가?'의 질문으로 '예'일 때의 모든 데이터를 생으로 분류를 ..
[회귀분석] 단순/ 다중/ 릿지/ 로지스틱 머신러닝 지도학습에서 쓰이는 회귀분석 모델 머신러닝의 지도학습에서 쓰이는 통계학의 회귀분석 4가지 모델에 대해서 알아보자. (이는 공부한 것을 정리하기 위한 포스팅으로 틀린 부분이 있을 수 있습니다.) 단순선형회귀 하나의 독립변수로 종속변수를 예측할 때 쓰이는가장 기본적인 회귀분석 방법이다. 독립변수와 종속변수간의 상관관계가 어느정도 있을 때 시도할 수 있다. 공식 $$\hat{Y} = aX + b$$ 단순선형 회귀식의 모수는 예측값에서 실제값을 뺀 오차를 최소화하는 값으로 이를 구하는 공식은 아래와 같다. $$a = \frac{S_{xy}}{S_{xx}}, b = \bar{y} - a\bar{x}$$ 다중선형회귀 다중선형회귀는 단순선형 회귀에서 독립변수의 수가 2개 이상으로 늘어난 것으로 똑같이 오차를..
[선형모델]Multiple Regression(다중선형회귀) 다중선형회귀(Multiple Linear Regression) 면접 질문 정리하기 머신러닝모델을 만들 때 학습과 테스트 데이터를 분리 해야 하는 이유를 설명할 수 있습니다. 다중선형회귀를 이해하고 사용할 수 있습니다. 과적합/과소적합을 일반화 관점에서 설명할 수 있습니다. 편향/분산의 트레이트오프 개념을 이해하고 일반화 관점에서 설명할 수 있습니다. Warm up 복습 회귀모델을 만들 때 기준모델을 어떻게 정의하나요? 이 과정이 왜 중요할까요?이 회귀 모델이 어느정도의 성능을 내는지 비교하기 위한 모델로 해당 모델이 단순하게 평균값으로 예측을 하는 것보다 얼마나 더 신뢰할 수 있는지 판단할 수 있다. 회귀분석이 무엇인지 간단하게 설명해 보세요.타겟변수가 연속형일 때, 해당 값을 예측하기 위한 방법으로 예..
[선형모델]Simple Regression(단순선형회귀) 줌 세션 지도학습이 뭘까?-정답을 주고 예측을 학습시키는 것 -답이 있는 데이터 (라벨이든 목적변수든) 비지도학습과 지도학습 비교-가장 중요한건 내가 이 데이터로 뭘 할건지의 목표를 설정하는 것. -군집화를 할 것 인지 예측을 할 것 인지. 기준모델이란? 회귀 문제의 경우 데이터의 평균값을 기준값으로 한다. 이후 내가 만든 머신러닝 모델의 성능이 어느정도 되는지 알아보려고 기준모델과의 평균제곱오차와 비교한다. warm-up 일단 유툽에서 영어로 한번 쭉 보기. 단어별로 먼저 보고 문장별로 읽으면서 보자. Lecture에서 배운 것 회귀모델에서 지표중 하나인 MAE(절대평균오차)는 계산을 해도 실제 목적변수의 단위와 달라지지 않아서 비교를 할 때 유용하다! 도전과제 6) 단선선형회귀는 선형성, 정규성, 등..
[n13x] Sprint Challenge 이번 주차에 겪은 문제들 #-- 모공분산(ddof=0) #-- 표본공분산(ddof=1) 과제에 낼 때 이것때문에 틀렸다. 여기선 그냥 디폴트로 쓰는 것 같다. numpy와 pandas에서의 분산 계산 N132 → 공분산 구하는 문제에서 그냥 np.var 해야 하는데 괜히 열심히 디폴트 인자 바꿔서 틀린듯. N133 → 고유벡터의 거리를 구해서 더 짧은걸 찾으랬는데 나는 L2로 구했는데 문제는 L1거리로 구했을 때 더 짧은걸 묻는 거였나보다. 신기한게 같은 벡터가 L1에서와 L2에서 거리가 짧은거 더 다르다. 계산 방법의 문제인 것 같은데 같은 거리여도 다른게 신기했다 [n13x]리뷰 세션 n131 차원 축소 어디서 써요? 131에서 이미지 분석 사진 예시로 보여준 거. 나중에 모델 돌릴 때 정보가 너무 ..
[선형대수] 클러스터링(군집분류) Clustering 데이터 사이언스의 여러 분야 중 하나는, 데이터를 바탕으로 답을 "예측"하는 것입니다. 그러나 현실은 모든 경우의 답이 있지는 않습니다. 이에 해당하는 것이 Un-supervised learning 인데요. 클러스터링은 이 Un-supervised learning의 가장 대표적인 이슈라고 할 수도 있습니다. 이 강의 이후에 여러분이 기억해야할 핵심 키워드들은 아래와 같습니다 . Scree Plot Supervised / Unsupervised Learning K-means clustering 🏆 학습 목표 Screeplot의 의미를 이해할 수 있다. pca 설명력 누적 분포 시각화 Supervised / Unsupervised learning의 차이를 설명 할 수 있다. 답이 있냐 /..
[선형대수]Dimension Reduction(차원축소) More 강의 노트에서 Extraction의 경우 장점이 feature수 많이 줄일 수 있음이라고 하던데 Selection 의 경우에는 feature수를 많이 못 줄이나요? 사이킷런 라이브러리를 사용했을 때와 직접 주성분 분석을 했을 때의 값이 부호가 반대로 나오는데 크게 신경쓰지 않아도 되는 부분? 원 데이터의 분산의 합과 = 주성분 분석의 분산의 합이 같다고 하는데 왜 다르게 나옴? Dimension Reduction 빅데이터의 시대가 온 이후로 하루에도 수없이 많은 데이터가 생성 된다는 글을 한번 쯤은 보셨을 겁니다. 물론 많은 데이터가 있으면 더 높은 퀄리티의 분석 결과가 나올 수 있는것은 맞는 말이지만 꼭 많은 리소스를 사용하는 많은 데이터가 있어야만 하는지는 충분히 생각해보아야 할 이슈입니다...
[선형대수] rank, span, projection 선형대수 2사실 선형대수의 기초적인 내용을 어제 하루 2시간 만에 다 흡수하려는 것은 말도 안된다는걸 모두가 알고 있습니다.오늘은 조금 더 Data Science에 관련된 내용들을 추가로 배우도록 하겠습니다.이 강의 이후에 여러분이 기억해야할 핵심 키워드들은 아래와 같습니다 .벡터와 매트릭스의 기본 연산상관계수공분산Linear Projection 🏆 학습 목표공분산, 상관계수의 목적과 사용 예시, 차이점을 설명 할 수 있다.벡터의 직교와 그 조건에 대해서 설명 할 수 있다.단위 벡터와, 단위 벡터로의 구분을 설명 할 수 있다.span, basis, rank의 내용을 이해 할 수 있다.Gaussian elemination의 내용을 이해 할 수 있다.linear projection과 예시를 설명 할 수 있다..
[n12x] Sprint Challenge Sprint Wrap-up (4-5시) n121 모수, 모평균 머신러닝에서는 거의 볼 일 없을 것. 주로 표본으로 뽑은 데이터로 하는 거니까.. 내일 선형대수에서 넘파에서 하는 거랑 판다스에서 하는거랑 값이 다를건데 넘파이에서 ddof=1로 설정을 해줘야 해. 샘플링 방법 알아야 하나요? 네 알아야해요. 나중에 모델에 넣을 데이터 생성할 때 필요.. 가설검정 을 통해 내가 하는 말이 얼마나 신빙성이 있는지를 증며해야 하기 때문 가설검정이 ab테스트야!! 표준 오차 SE = 표준편차 / 루트(n) t-test 귀무가설은 쉽게 생각하면 우리가 이겨야하는 애. 대안가설이 우리가 주장하고 싶은 가설 그래서 귀무가설 너무 쎄게 설정하면 안돼ㅋㅋㅋㅠㅠㅠ type 1,2에러 알아야해! 베이지안 하나로 섹션 정한 이유..
[통계학] Bayesian(베이즈 정리) More n124 강의 노트에 못다한 그래프와 베이지안 신뢰구간, 베이지안 유도 과정 함수들 찾아보며 이해하기. (stats.bayes_mvs(coinflips, alpha = .95)/ BayesianOptimization( ) ) To-do 우도 함수 개념 → 수리통계학 찾아보기 가능도 함수 : 우리가 추정하고자 하는 세타(파라미터)에 대한 함수로 보는 방법. → 이후 최대우도추정법을 통하여 함수를 최대/최소로 만드는 세타(파라미터)값을 찾는다. MLE → 수리통계학 찾아보기 최대우도추정법 : 함수를 최대로 만드는 세타(파라미터)를 찾는 방법으로 로그를 씌워 미분을 한 후 0이 되는 지점(최대값)을 찾는 것으로 기억함. 베이지안 → 윈벅을 통한 베이지안 통계학 찾아보기 조건부 확률과 전확률법칙으로 유..
728x90