728x90
Clustering
데이터 사이언스의 여러 분야 중 하나는, 데이터를 바탕으로 답을 "예측"하는 것입니다.
그러나 현실은 모든 경우의 답이 있지는 않습니다.
이에 해당하는 것이 Un-supervised learning 인데요.
클러스터링은 이 Un-supervised learning의 가장 대표적인 이슈라고 할 수도 있습니다.
이 강의 이후에 여러분이 기억해야할 핵심 키워드들은 아래와 같습니다 .
Scree Plot
Supervised / Unsupervised Learning
K-means clustering
🏆 학습 목표
- Screeplot의 의미를 이해할 수 있다.
pca 설명력 누적 분포 시각화
- Supervised / Unsupervised learning의 차이를 설명 할 수 있다.
답이 있냐 / 없냐 차이
- K-means clustering을 설명 할 수 있다.
평균을 지표로한 군집법,,
실제에서 지도 학습보다 비지도학습이 잘 쓰이지 않는 이유
: 설명이 안돼서. 그냥 가까운 것 끼리 이렇게 분류가 된 것인데 그것을 분석자가 의미있게 설명하기가 어려워서 잘 안쓰인다.
데이터 분석 전문가를 위한 R 데이터 분석
- 비지도 학습 : 출력 변수 없이 입력 변수만 주어진 경우 입력 변수 사이의 상호관계에 대해서 탐색적으로 분석하는 것.
- 비지도 학습의 예시 ) 주성분 분석(차원 축소 기법), 군집 분석, 연관 규칙 분석.
군집분석
: 각 개체의 유사성을 측정하여 상호 유사성이 큰 군집으로 분류하는 방법.
- 분할적 군집 : 특정 점을 기준으로 거리가 가까운 것 끼리 묶는 방법 - K-means, K-Medoids, 계층적 군집법
- 계층적 군집 : 트리 구조처럼 분류하는 방법 - 밀도 기분 군집법
L1 Norm = 맨하튼 거리 (Manhattan norm)
L1=(∑in∣xi∣)=∣x1∣+∣x2∣+∣x3∣+….+∣xn∣\begin{align} L_1 & = (\sum_i^n |x_i|) \\ & = |x_1| + |x_2| + |x_3| + …. + |x_n| \end{align}
L1 norm은 벡터의 요소에 대한 절댓값의 합입니다. 요소의 값 변화를 정확하게 파악할 수 있습니다.
L2 Norm = 유클리디안 거리(Euclidean norm)
(n 차원 좌표평면(유클리드 공간)에서의 벡터의 크기를 계산하기 때문에 )
L2=∑inxi2=x12+x22+x32+….+xn2\begin{align} L_2 & = \sqrt {\sum_i^n x_i^2} \\ & = \sqrt {x_1^2 + x_2^2 + x_3^2 + …. + x_n^2} \end{align}
파이썬으로 데이터 마이닝 시작하기
k평균 군집분석
- 반드시 k(군집개수)를 먼저 입력해주어야 한다(그렇지 않으면 작동 안함)
- 지표로 유클리디안 거리를 사용함
요약
과제 중 막히던 것
- 군집 기준 점 표시하는거 이상하게 됨.— 점 찍는 기준 문제인듯. 그부분 열시미 듣기.
- 변수 개수, 피쳐 선택 기준
과제 유방암 데이터
- 각 피쳐가 뭘 의미하고 있는지 알고 있는 것도 되게 중요하다.
- 4개의 피쳐로 4개의 주성분(pc)를 만들어도 각각의 pc(1,2,3,4)가 피쳐 4개를 조금씩은 다 포함 한다!
단, 정확한 비율을 알긴 어렵다. (그냥 80%,10%5%,5% 이런 식으로 조합 된 pc가 4개가 생성 되는 것 같다. )
728x90
'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글
[선형모델]Simple Regression(단순선형회귀) (0) | 2021.06.12 |
---|---|
[n13x] Sprint Challenge (0) | 2021.06.12 |
[선형대수]Dimension Reduction(차원축소) (0) | 2021.06.12 |
[선형대수] rank, span, projection (0) | 2021.06.12 |
[n12x] Sprint Challenge (0) | 2021.06.12 |
댓글