728x90
이번 주차에 겪은 문제들
#-- 모공분산(ddof=0)
#-- 표본공분산(ddof=1)
과제에 낼 때 이것때문에 틀렸다. 여기선 그냥 디폴트로 쓰는 것 같다.
N132 → 공분산 구하는 문제에서 그냥 np.var 해야 하는데 괜히 열심히 디폴트 인자 바꿔서 틀린듯.
N133 → 고유벡터의 거리를 구해서 더 짧은걸 찾으랬는데
나는 L2로 구했는데 문제는 L1거리로 구했을 때 더 짧은걸 묻는 거였나보다.
신기한게 같은 벡터가 L1에서와 L2에서 거리가 짧은거 더 다르다. 계산 방법의 문제인 것 같은데 같은 거리여도 다른게 신기했다
[n13x]리뷰 세션
n131
- 차원 축소 어디서 써요?
131에서 이미지 분석 사진 예시로 보여준 거. 나중에 모델 돌릴 때 정보가 너무 많아서 연산이 느려지니
최대한 정보를 소실하지 않으면서 속도를 빠르게 하기 위해 이미지 CNN같은거 돌리기 전에 pca를 한다~
기억해야 할 포인트:
- Norm1 : 절대값 취해서 다 더한거
- Norm2 : 제곱해서 다 더한거에 루트 씌운거
- 내적 : 요소간 곱해서 다 더한거
- 전치 : .T
- 단위행렬(ll)
[n132] rank
기억해야 할 포인트:
앞에 내용 사실 통계 복습
- ddof=1로 해야 샘플 값이 나와. 판다스는 넘파이와 디폴트가 반대임. 만약 이게 다르다면 ddof가 잘못된건 아닌지 확인해봐!
→ 우리는 대부분 샘플 데이터를 쓰기 때문에 표본으로(ddof=1)로 구해야함..
- 공식
- 면접에서 공분산과 상관계수의 관계에 대해서 설명하시오.
- → 상관계수는 공분산을 표준편차의 곱으로 나눈 것.
- 근데 그래서 정확한 관계의 의미가 뭐지?????
- 나중에 두 변수간에(벡터간에) 직교하는지 의존관계에 있는지? 특성공학할 때 필요하니 그런 것들을 그냥 시각화 해서 보여주는 것.
- 그냥 이런 키워드들이 있구나 키워드라도 외워도라.
n133 차원축소
- '차원의 저주'라는 키워드 외워도라.
- → 피쳐수가 늘어날 수록 (데이터의 수보다 커지면) 모델의 성능이 확 떨어짐.
- pca
→ 설명력만 보먄 돼
-이걸 파고들고 싶으면 대학원 가서 교수님과 룰루랄라 하면 되는데 나는 그냥 연구 결과 나온거 논문 읽고 적용할래요.
-직접 연구하지 말고 이미 요리된거 떠먹자ㅋㅋ
-이거를 왜 써야 되나 이것만이라도 확실히
→ 모델의 성능을 위해~!!!!
n134 군집분류
- pca할 때 pc수를 어떻게 선택해야 하는가?
→ scree plot을 그려서 급격히 완만해지는 지점을 선택
- 군집분류의 군집개수를 어떻게 선택해야 하는가?
- =Elbow method는 무엇인가? → 클러스터를 몇개로 나눠야 하는지 k 값을 선택하는 기준
728x90
'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글
[선형모델]Multiple Regression(다중선형회귀) (0) | 2021.06.12 |
---|---|
[선형모델]Simple Regression(단순선형회귀) (0) | 2021.06.12 |
[선형대수] 클러스터링(군집분류) (0) | 2021.06.12 |
[선형대수]Dimension Reduction(차원축소) (0) | 2021.06.12 |
[선형대수] rank, span, projection (0) | 2021.06.12 |
댓글