본문 바로가기
코드스테이츠 Ai Boostcamp

[선형대수] 클러스터링(군집분류)

by mintee
728x90

Clustering

데이터 사이언스의 여러 분야 중 하나는, 데이터를 바탕으로 답을 "예측"하는 것입니다.

그러나 현실은 모든 경우의 답이 있지는 않습니다.

이에 해당하는 것이 Un-supervised learning 인데요.

클러스터링은 이 Un-supervised learning의 가장 대표적인 이슈라고 할 수도 있습니다.

이 강의 이후에 여러분이 기억해야할 핵심 키워드들은 아래와 같습니다 .

  • Scree Plot
  • Supervised / Unsupervised Learning
  • K-means clustering

 

🏆 학습 목표

  • Screeplot의 의미를 이해할 수 있다.
  • pca 설명력 누적 분포 시각화
  • Supervised / Unsupervised learning의 차이를 설명 할 수 있다.
  • 답이 있냐 / 없냐 차이
  • K-means clustering을 설명 할 수 있다.
  • 평균을 지표로한 군집법,,

실제에서 지도 학습보다 비지도학습이 잘 쓰이지 않는 이유

: 설명이 안돼서. 그냥 가까운 것 끼리 이렇게 분류가 된 것인데 그것을 분석자가 의미있게 설명하기가 어려워서 잘 안쓰인다.


 

데이터 분석 전문가를 위한 R 데이터 분석

    • 비지도 학습 : 출력 변수 없이 입력 변수만 주어진 경우 입력 변수 사이의 상호관계에 대해서 탐색적으로 분석하는 것.
    • 비지도 학습의 예시 ) 주성분 분석(차원 축소 기법), 군집 분석, 연관 규칙 분석.

     

    군집분석

    : 각 개체의 유사성을 측정하여 상호 유사성이 큰 군집으로 분류하는 방법.

    1. 분할적 군집 : 특정 점을 기준으로 거리가 가까운 것 끼리 묶는 방법 - K-means, K-Medoids, 계층적 군집법
    1. 계층적 군집 : 트리 구조처럼 분류하는 방법 - 밀도 기분 군집법

L1 Norm = 맨하튼 거리 (Manhattan norm)

L1=(∑in∣xi∣)=∣x1∣+∣x2∣+∣x3∣+….+∣xn∣\begin{align} L_1 & = (\sum_i^n |x_i|) \\ & = |x_1| + |x_2| + |x_3| + …. + |x_n| \end{align}

L1 norm은 벡터의 요소에 대한 절댓값의 합입니다. 요소의 값 변화를 정확하게 파악할 수 있습니다.

L2 Norm = 유클리디안 거리(Euclidean norm)

(n 차원 좌표평면(유클리드 공간)에서의 벡터의 크기를 계산하기 때문에 )

L2=∑inxi2=x12+x22+x32+….+xn2\begin{align} L_2 & = \sqrt {\sum_i^n x_i^2} \\ & = \sqrt {x_1^2 + x_2^2 + x_3^2 + …. + x_n^2} \end{align}

파이썬으로 데이터 마이닝 시작하기

k평균 군집분석

  • 반드시 k(군집개수)를 먼저 입력해주어야 한다(그렇지 않으면 작동 안함)
  • 지표로 유클리디안 거리를 사용함

 


 

요약

 

과제 중 막히던 것

  • 군집 기준 점 표시하는거 이상하게 됨.— 점 찍는 기준 문제인듯. 그부분 열시미 듣기.
  • 변수 개수, 피쳐 선택 기준

 

과제 유방암 데이터

 

  • 각 피쳐가 뭘 의미하고 있는지 알고 있는 것도 되게 중요하다.
  • 4개의 피쳐로 4개의 주성분(pc)를 만들어도 각각의 pc(1,2,3,4)가 피쳐 4개를 조금씩은 다 포함 한다!
  • 단, 정확한 비율을 알긴 어렵다. (그냥 80%,10%5%,5% 이런 식으로 조합 된 pc가 4개가 생성 되는 것 같다. )

 

 

728x90

댓글