본문 바로가기
728x90

전체 글56

[선형대수]Dimension Reduction(차원축소) More 강의 노트에서 Extraction의 경우 장점이 feature수 많이 줄일 수 있음이라고 하던데 Selection 의 경우에는 feature수를 많이 못 줄이나요? 사이킷런 라이브러리를 사용했을 때와 직접 주성분 분석을 했을 때의 값이 부호가 반대로 나오는데 크게 신경쓰지 않아도 되는 부분? 원 데이터의 분산의 합과 = 주성분 분석의 분산의 합이 같다고 하는데 왜 다르게 나옴? Dimension Reduction 빅데이터의 시대가 온 이후로 하루에도 수없이 많은 데이터가 생성 된다는 글을 한번 쯤은 보셨을 겁니다. 물론 많은 데이터가 있으면 더 높은 퀄리티의 분석 결과가 나올 수 있는것은 맞는 말이지만 꼭 많은 리소스를 사용하는 많은 데이터가 있어야만 하는지는 충분히 생각해보아야 할 이슈입니다...
[선형대수] rank, span, projection 선형대수 2사실 선형대수의 기초적인 내용을 어제 하루 2시간 만에 다 흡수하려는 것은 말도 안된다는걸 모두가 알고 있습니다.오늘은 조금 더 Data Science에 관련된 내용들을 추가로 배우도록 하겠습니다.이 강의 이후에 여러분이 기억해야할 핵심 키워드들은 아래와 같습니다 .벡터와 매트릭스의 기본 연산상관계수공분산Linear Projection 🏆 학습 목표공분산, 상관계수의 목적과 사용 예시, 차이점을 설명 할 수 있다.벡터의 직교와 그 조건에 대해서 설명 할 수 있다.단위 벡터와, 단위 벡터로의 구분을 설명 할 수 있다.span, basis, rank의 내용을 이해 할 수 있다.Gaussian elemination의 내용을 이해 할 수 있다.linear projection과 예시를 설명 할 수 있다..
[n12x] Sprint Challenge Sprint Wrap-up (4-5시) n121 모수, 모평균 머신러닝에서는 거의 볼 일 없을 것. 주로 표본으로 뽑은 데이터로 하는 거니까.. 내일 선형대수에서 넘파에서 하는 거랑 판다스에서 하는거랑 값이 다를건데 넘파이에서 ddof=1로 설정을 해줘야 해. 샘플링 방법 알아야 하나요? 네 알아야해요. 나중에 모델에 넣을 데이터 생성할 때 필요.. 가설검정 을 통해 내가 하는 말이 얼마나 신빙성이 있는지를 증며해야 하기 때문 가설검정이 ab테스트야!! 표준 오차 SE = 표준편차 / 루트(n) t-test 귀무가설은 쉽게 생각하면 우리가 이겨야하는 애. 대안가설이 우리가 주장하고 싶은 가설 그래서 귀무가설 너무 쎄게 설정하면 안돼ㅋㅋㅋㅠㅠㅠ type 1,2에러 알아야해! 베이지안 하나로 섹션 정한 이유..
[통계학] Bayesian(베이즈 정리) More n124 강의 노트에 못다한 그래프와 베이지안 신뢰구간, 베이지안 유도 과정 함수들 찾아보며 이해하기. (stats.bayes_mvs(coinflips, alpha = .95)/ BayesianOptimization( ) ) To-do 우도 함수 개념 → 수리통계학 찾아보기 가능도 함수 : 우리가 추정하고자 하는 세타(파라미터)에 대한 함수로 보는 방법. → 이후 최대우도추정법을 통하여 함수를 최대/최소로 만드는 세타(파라미터)값을 찾는다. MLE → 수리통계학 찾아보기 최대우도추정법 : 함수를 최대로 만드는 세타(파라미터)를 찾는 방법으로 로그를 씌워 미분을 한 후 0이 되는 지점(최대값)을 찾는 것으로 기억함. 베이지안 → 윈벅을 통한 베이지안 통계학 찾아보기 조건부 확률과 전확률법칙으로 유..
[통계학] chi-square-test(범주형 가설 검정) More 기대횟수의 의미가 뭔지 왜 기대횟수와의 차이가 연관이 있는거고, 기대횟수와 가까운 것이 연관이 없는게 되는지에 대한 학습이 더 필요할 것 같다. 블로그에 과제에서 주어졌던 지역별 미분양 주택 수에 대한 EDA(그래프)와 카이제곱 검정 결과를 포스팅하기. 원샘플 카이제곱 검정이란? More Hypothesis Testing 🏆 학습 목표 t-test를 위한 조건을 알 수 있다. 독립성, 정규성, 등분산성(분산이 비슷한지) t-test외에 다른 가설검정 방법에 대해서 설명할 수 있다. Type of Error를 구분하고 설명할 수 있다. 타입1에러, 타입2에러 그거 카이제곱검정의 목적과 사용예시를 설명할 수 있다. 모수통계와 비모수통계의 차이에 대해 설명할 수 있다. 모집단이 특정 확률 분포 (no..
[통계학] Confidence Interval(신뢰구간, 중심극한 정리) 이날 치과갔다옴. 3/15 CLT, CI AI 부트캠프 8일차문자집합을 컴퓨터에 저장하기 위해 Byte형태로 표현한 방식. ASCII는 한국어, 중국어 등을 표현을 못함. 그래서 모든 언어를 표현할 수 있는 유니코드가 나오게 됨. 유니코드를 표현할 수 있는 UTF-8이 가장 많이 사용됨.CP949 : 영문 M https://velog.io/@tjddyd1592/305-%EC%BD%94%EB%93%9C%EC%8A%A4%ED%85%8C%EC%9D%B4%EC%B8%A0-AI-%EB%B6%80%ED%8A%B8%EC%BA%A0%ED%94%84-b9zzzxgk 근데 신뢰구간 개념은 어느정도 아니까 따로 찾아보지 않고, 함수 간단해서 5시 줌세션 들으며 금방 품. 이거 보고 다품. 중심극한정리는 더 찾아보지 못한거 ..
[통계학] hypothesis-test(가설 검정) More P값이 작게나오면 왜 귀무가설을 기각하는지 잘 와닿지 않는다. 이것때문에 항상 귀무가설 기각, 채택을 헷갈리는 것 같다. 외우지 말고 이제 이해하자. [오늘 계획] 가설검정 과제 하기 전에 통계학개론 r가설부분 읽기. 1 가설 어떻게 세우는지? 2 t test가 뭔지? Hypothesis Test 🏆 학습 목표 Estimation / Sampling의 목적과 방법에 대해서 이해한다. 가설검정에 대해서 이해한다. T-test의 목적과 사용예시를 설명할 수 있다. 원샘플 t test → 한 변수의 평균이 n인지 검정하는 방법. 투 샘플 t test → 두 변수간에 평균이 같은지 다른지(양측)/ 큰지 작은지(단측) 검정하는 방법 📇[통계학 개론] 15_유의성 검정 통계적 추론 모수 추정 → 신뢰구간 ..
[n11x] Sprint 1 과제 2차 제출 진행 -지난 한주 n11x동안 미숙했던 과제를 제출하는 시간 내가 공부해보고 싶은 주제 -솔직히 다른 점수들 잘 받는거 의미 없는 것 같고 그냥 자잘한 데이터프레임 끼워맞추는게 될텐데 그보다 편미분 직접 하는거에 더 공들이고 싶다. 그리고 나머지는 그냥 끼워맞춰서 제출.. 1점짜리 근데 왤케 많지? 도전과제를 해도 한두게 틀리면 얄짤 없는 것 같다. 도대체 shape 7,30 짜리 6,30으로 만드는게 왜 중요한가? 20명이 전처리하면 20가지의 방법이 있을테고 그 형식을 완전히 베끼지 않는이상 같기는 힘들텐데,, 전처리에 정답이 있는건 아니지만 점수 산정에 들어간 포인트라면 내가 납득이 가거나 중요하게 여겨지는 부분들만 고쳐야겠다. 진행 순서 [n114] 편미분 직접 하는게 4강 렉쳐에..
728x90