본문 바로가기
코드스테이츠 Ai Boostcamp

[n13x] Sprint Challenge

by mintee
728x90

이번 주차에 겪은 문제들

#-- 모공분산(ddof=0)

#-- 표본공분산(ddof=1)

과제에 낼 때 이것때문에 틀렸다. 여기선 그냥 디폴트로 쓰는 것 같다.

 

N132 → 공분산 구하는 문제에서 그냥 np.var 해야 하는데 괜히 열심히 디폴트 인자 바꿔서 틀린듯.

N133 → 고유벡터의 거리를 구해서 더 짧은걸 찾으랬는데

나는 L2로 구했는데 문제는 L1거리로 구했을 때 더 짧은걸 묻는 거였나보다.

신기한게 같은 벡터가 L1에서와 L2에서 거리가 짧은거 더 다르다. 계산 방법의 문제인 것 같은데 같은 거리여도 다른게 신기했다

 


 

[n13x]리뷰 세션

 

n131

  • 차원 축소 어디서 써요?

131에서 이미지 분석 사진 예시로 보여준 거. 나중에 모델 돌릴 때 정보가 너무 많아서 연산이 느려지니

최대한 정보를 소실하지 않으면서 속도를 빠르게 하기 위해 이미지 CNN같은거 돌리기 전에 pca를 한다~

 

기억해야 할 포인트:

  • Norm1 : 절대값 취해서 다 더한거
  • Norm2 : 제곱해서 다 더한거에 루트 씌운거
  • 내적 : 요소간 곱해서 다 더한거
  • 전치 : .T
  • 단위행렬(ll)
  • 역행렬 : 원래 행렬에 역행렬 곱하면 단위행렬이 나온다!

 

[n132] rank

 

기억해야 할 포인트:

앞에 내용 사실 통계 복습

  • ddof=1로 해야 샘플 값이 나와. 판다스는 넘파이와 디폴트가 반대임. 만약 이게 다르다면 ddof가 잘못된건 아닌지 확인해봐!

→ 우리는 대부분 샘플 데이터를 쓰기 때문에 표본으로(ddof=1)로 구해야함..

  • 공식
  • 면접에서 공분산과 상관계수의 관계에 대해서 설명하시오.
  • → 상관계수는 공분산을 표준편차의 곱으로 나눈 것.
  • 근데 그래서 정확한 관계의 의미가 뭐지?????

 

  • 나중에 두 변수간에(벡터간에) 직교하는지 의존관계에 있는지? 특성공학할 때 필요하니 그런 것들을 그냥 시각화 해서 보여주는 것.
  • 그냥 이런 키워드들이 있구나 키워드라도 외워도라.

 

n133 차원축소

 

  • '차원의 저주'라는 키워드 외워도라.
  • → 피쳐수가 늘어날 수록 (데이터의 수보다 커지면) 모델의 성능이 확 떨어짐.

 

  • pca

→ 설명력만 보먄 돼

-이걸 파고들고 싶으면 대학원 가서 교수님과 룰루랄라 하면 되는데 나는 그냥 연구 결과 나온거 논문 읽고 적용할래요.

-직접 연구하지 말고 이미 요리된거 떠먹자ㅋㅋ

-이거를 왜 써야 되나 이것만이라도 확실히

→ 모델의 성능을 위해~!!!!

 

n134 군집분류

  • pca할 때 pc수를 어떻게 선택해야 하는가?

→ scree plot을 그려서 급격히 완만해지는 지점을 선택

 

  • 군집분류의 군집개수를 어떻게 선택해야 하는가?
  • =Elbow method는 무엇인가? → 클러스터를 몇개로 나눠야 하는지 k 값을 선택하는 기준

 

728x90

댓글