본문 바로가기
코드스테이츠 Ai Boostcamp

[Tree Based Model]Decision Trees(의사결정나무)

by mintee
728x90

 

결정트리(Decision Trees) 면접질문 정리


  1. 사이킷런 파이프라인(pipelines) 을 이해하고 활용 할 수 있습니다.
    • -사이킷런의 파이프라인을 사용하면 매번 데이터셋별로 적용하던 원핫인코딩, 결측치대체, 표준화 함수 코드를 한번에 적용할 수 있다.
  2. 결정트리(decision tree) 란?
    • -지도학습의 분류와 회귀 모두에서 사용할 수 있는 모델로, 예/아니오로 가지치기 하듯 분류하는 방식에서 의사결정나무라고 부른다.-이때 맨 위의 노드를 가장 뿌리가 되는 기준이라 하여 뿌리노드(root node)라고 한다.-지니 불순도는 한가지의 값으로 분류가 얼마나 잘 되었는지를 나타내는 정도이다. 예를 들어 타이타닉의 데이터 중 '5세 이하의 아이인가?'의 질문으로 '예'일 때의 모든 데이터를 생으로 분류를 할 수 있다면 좋은 질문이다. 애매모호하지 않고 한번에 많은 것을 분류할 수 있는 가장 좋은 분류 기준이라고 생각하면 된다.(현실적으로 쉽진 않긴 하지만..) 이렇게 얼마나 깔끔하게 분류가 잘 되었는지를 나타내는 지표를 지니불순도라고 한다.
    • -지니 불순도는 0.5가 가장 큰 값으로 0.5일때 분류를 가장 못한 것이다.
    • -이렇게 가장 불순도가 낮은 기준들로 설정한 노드로 의사결정나무의 가지를 쳐 내려가며 나무의 깊이를 직접 설정해 줄 수 있다.
    • 예를 들어 반반으로 분류한 질문의 불순도는 1-(25/50)^2-(25/50)^2 = 1-0.25-0.25로 0.5임
    • -지니 불순도가 0에 가까울 수록 분류를 잘 한 것이다.(작을 수록 좋다)
    • -타겟변수를 예측하기 위한 여러개의 피쳐들로 만든 질문들 중 가장 좋은 분류기준이 되어 노드로 선택하는 기준은 지니 불순도이다. 이 지니불순도가 가장 낮은 질문을 노드로 선택한다.
    • -분류의 기준이 되는 질문들을 노드라고 부른다.
  3. 결정트리의 특성 중요도(feature importances) 를 활용할 수 있습니다.
    • -의사결정나무에선 똑같은 특성이 여러번 분류 기준(질문)으로 사용될 수 있다. 이렇게 만들어진 노드들 중에서 어떠한 특성이 가장 분류 기준으로 중요한지를 알기 위해서 특성 중요도라는 개념을 사용한다.-즉, 특성중요도가 가장 높은 특성(독립변수)는 그 의사결정나무 모델에서 분류를 하는데 가장 중요하게 쓰인 특성이다.
    • -특성중요도는 결정나무에서 가장 분류를 순수하게(불순도가 낮게) 잘 한 기여도이다.
  4. 결정트리 모델의 장점을 이해하고 선형회귀모델과 비교할 수 있습니다.

 

 

오늘 느낀점


웜업이 솔직히 아무리 해석하며 봐도 속도 면에서나 제대로 보려면 오래걸리는 면이 있다. 그냥 번역키고 보면 그냥 대충 아 그래프상에서 이런 느낌이군 이러고 지나가는데 내가 원하는 만큼 완전히 모델들의 기전이 이해되지는 않았다. 물론 타고타고 다른 영상까지 여러개 보면 이해 되겠지만 속도 면에서 너무 오래걸린다. 그래서 오늘은 그동안 가끔 참고만 했던 코드잇의 머신러닝의 의사결정나무 파트를 전부 보았는데 너무 잘 정리되어 있었다. 지니불순도 같은 개념을 웜업이나 세션에서만 보았다면 솔직히 제대로 이해 못하거나 이해하려고 구글링을 5번정도는 해야 했을 것이다. 그런데 차근차근 계산과정이랑 연습문제들을 풀게 하고 그 지니 불순도로 결정나무의 각 노드들을 결정하고 더 분뷰를 순수하게 하는 노드를 선택하는 그런 과정들을 알려주는 것이 내가 딱 원하던 느낌이었다. 진짜 이렇게 배우니 지니불순도 정말 완전 쉬운개념인 것을.. 그냥 강의노트에서 수식으로만 보면 더 막연하게 느꼈을 것 같다. 코드스테이츠는 대신 코드적으로 어떻게 파이프라인을 짜야 하고 어떻게 학습을 잘 시켜야하는지 공부하기에는 정말 좋은 환경이니까 개념공부는 웜업대신 코드잇에서 겹치는 부분을 찾아서 듣고(세션영상과 함께) 과제를 진행해 봐야겠다.

 

 

Lecture 노트 정리


 

 

 

 

728x90

댓글