본문 바로가기
728x90

분류 전체보기56

[통계학] chi-square-test(범주형 가설 검정) More 기대횟수의 의미가 뭔지 왜 기대횟수와의 차이가 연관이 있는거고, 기대횟수와 가까운 것이 연관이 없는게 되는지에 대한 학습이 더 필요할 것 같다. 블로그에 과제에서 주어졌던 지역별 미분양 주택 수에 대한 EDA(그래프)와 카이제곱 검정 결과를 포스팅하기. 원샘플 카이제곱 검정이란? More Hypothesis Testing 🏆 학습 목표 t-test를 위한 조건을 알 수 있다. 독립성, 정규성, 등분산성(분산이 비슷한지) t-test외에 다른 가설검정 방법에 대해서 설명할 수 있다. Type of Error를 구분하고 설명할 수 있다. 타입1에러, 타입2에러 그거 카이제곱검정의 목적과 사용예시를 설명할 수 있다. 모수통계와 비모수통계의 차이에 대해 설명할 수 있다. 모집단이 특정 확률 분포 (no..
[통계학] Confidence Interval(신뢰구간, 중심극한 정리) 이날 치과갔다옴. 3/15 CLT, CI AI 부트캠프 8일차문자집합을 컴퓨터에 저장하기 위해 Byte형태로 표현한 방식. ASCII는 한국어, 중국어 등을 표현을 못함. 그래서 모든 언어를 표현할 수 있는 유니코드가 나오게 됨. 유니코드를 표현할 수 있는 UTF-8이 가장 많이 사용됨.CP949 : 영문 M https://velog.io/@tjddyd1592/305-%EC%BD%94%EB%93%9C%EC%8A%A4%ED%85%8C%EC%9D%B4%EC%B8%A0-AI-%EB%B6%80%ED%8A%B8%EC%BA%A0%ED%94%84-b9zzzxgk 근데 신뢰구간 개념은 어느정도 아니까 따로 찾아보지 않고, 함수 간단해서 5시 줌세션 들으며 금방 품. 이거 보고 다품. 중심극한정리는 더 찾아보지 못한거 ..
[통계학] hypothesis-test(가설 검정) More P값이 작게나오면 왜 귀무가설을 기각하는지 잘 와닿지 않는다. 이것때문에 항상 귀무가설 기각, 채택을 헷갈리는 것 같다. 외우지 말고 이제 이해하자. [오늘 계획] 가설검정 과제 하기 전에 통계학개론 r가설부분 읽기. 1 가설 어떻게 세우는지? 2 t test가 뭔지? Hypothesis Test 🏆 학습 목표 Estimation / Sampling의 목적과 방법에 대해서 이해한다. 가설검정에 대해서 이해한다. T-test의 목적과 사용예시를 설명할 수 있다. 원샘플 t test → 한 변수의 평균이 n인지 검정하는 방법. 투 샘플 t test → 두 변수간에 평균이 같은지 다른지(양측)/ 큰지 작은지(단측) 검정하는 방법 📇[통계학 개론] 15_유의성 검정 통계적 추론 모수 추정 → 신뢰구간 ..
[n11x] Sprint 1 과제 2차 제출 진행 -지난 한주 n11x동안 미숙했던 과제를 제출하는 시간 내가 공부해보고 싶은 주제 -솔직히 다른 점수들 잘 받는거 의미 없는 것 같고 그냥 자잘한 데이터프레임 끼워맞추는게 될텐데 그보다 편미분 직접 하는거에 더 공들이고 싶다. 그리고 나머지는 그냥 끼워맞춰서 제출.. 1점짜리 근데 왤케 많지? 도전과제를 해도 한두게 틀리면 얄짤 없는 것 같다. 도대체 shape 7,30 짜리 6,30으로 만드는게 왜 중요한가? 20명이 전처리하면 20가지의 방법이 있을테고 그 형식을 완전히 베끼지 않는이상 같기는 힘들텐데,, 전처리에 정답이 있는건 아니지만 점수 산정에 들어간 포인트라면 내가 납득이 가거나 중요하게 여겨지는 부분들만 고쳐야겠다. 진행 순서 [n114] 편미분 직접 하는게 4강 렉쳐에..
Basic Derivative(미분) 미분 미분은 데이터 사이언스 분야의 다양한 핵심 개념을 이해하는데 있어 필수불가결적인 수학 개념입니다. 머신러닝 ,딥러닝의 핵심은 결국 모델 최적화입니다. 최적화란 모델이 예측을 더 잘할 수 있게 모델의 파라미터를 조정하는 것인데요. 이러한 최적화를 하기 위해선 미분은 필수적입니다. 머신러닝에서 미분은 어떻게 쓰이는가? → 실제 값과 예측값의 오차를 줄여나가기 위해서 오차들로 이루어진 함수를 그리는데 그 함수가 0이 될 때가 가장 오차자 적은 즉, 정확도가 높은 모델인 것이므로. → 그 0이 되는 지점을 찾기 위해 '미분'이라는 개념이 쓰인다. 편미분을 하는 이유 머신러닝에서는 일반적인 미분상황과는 달리 변수가 여러개가 들어가게 된다. 예를 들어, 금융 데이터에서 자본총계와 EPS 등의 변수들로 →매출액..
Data Manipulation Data Manipulation 정의 : 데이터 조작 언어(영어: Data Manipulation Language, DML)은 데이터베이스 사용자 또는 응용 프로그램 소프트웨어가 컴퓨터 데이터베이스에 대해 데이터 검색, 등록, 삭제, 갱신을 위한, 데이터베이스 언어 또는 데이터베이스 언어 요소이다. 2007년 현재 가장 대중적 데이터 조작 언어는 SQL 데이터 조작 언어이다. 출처 : https://ko.wikipedia.org/wiki/데이터_조작_언어 why? : 현실에서는 여러 개로 쪼개진 파일들을 한꺼번에 사용 하는 경우가 더 많습니다. 이러한 경우 결국 하나의 데이터 셋을 만들기 위한 작업이 필요합니다. 핵심 키워드 concat 데이터 프레임 붙이는 방법( axis =0/1로 행/열 중 붙이는 ..
[Feature Engineering]변수 인덱싱, 결측값 생성 Feature Engineering 🏆 학습 목표 Feature Engineering 의 목적을 이해 할 수 있다. pandas를 통해 문자열(string)을 다룰 수 있다. → replace(',' , '')함수로 콤마 제거 후, 문자열 → 숫자 데이터프레임에 .apply()를 사용하여 행을 수정하거나 새로 작업 할 수 있다. → 데이터프레임 변수에 한번에 적용할 수 없는 함수를 df['변수1'].apply(함수)로 적용 데이터프레임에서 변수 인덱싱 두개 이상의 컬럼을 추출할 때 # df[['변수1', '변수2']] -> 1개 이상의 컬럼을 추출하는 경우에는 대괄호를 2번( [[]] ) 사용* df[['영업이익률', '영업이익률2']].head() 숫자로 인덱싱 → iloc[] df.iloc[:,[3,..
EDA 데이터 로드 .csv 파일 → pd.read_csv( ) .xlsx 파일 → pd.read_excel( ) df = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/stocks/Travel.xlsx' df1 = pd.read_excel(df) # *강의 파일과는 달리 엑셀 파일이므로 read_excel 함수를 활용한다. 데이터 프레임 전치 → .transpose() 🔥 도전과제 → 데이터를 원핫 인코딩 방식으로 나누지 않고 색깔 별로 지정할 수는 없나? More 박스, 막대, 히스토그램, 산점도 등의 플롯들 통계학개론 읽기
카이제곱검정 카이제곱 검정 : 범주 변수간의 관계성을 보기 위한 검정 방법 일원 카이제곱 검정 : 한개의 범주를 대상으로 함 이원 카이제곱 검정 : 두개 이상의 범주를 대상으로 검정 이원 카이제곱 검정 핵심 질문 : 두개 범주변수 간 관계가 존재하는가? H0 : 두 범주변수 간에 연관이 없다. H1 : 두 볌주변수 간에 연관관계가 있다. 공식 (카이제곱 통계량) = sum( (관찰횟수 - 기대횟수)^2 / 기대횟수 ) 카이제곱 통계량은 이원분류표에서의 실제 관찰 횟수에서 기대횟수를 뺀 차이를 제곱한 후 이를 기대횟수로 나눠준 값들의 합이다. 카이제곱통계량은 기대횟수로부터 벗어난 관찰횟수의 거리를 측정한 값이라고 생각하자. (어느 거리와 마찬가지로 관찰 횟수가 기대횟수와 완벽하게 일치할 경우에만 0이 되기 때문이다. ..
[데이터 과학을 위한 파이썬 프로그래밍]연습문제 9장.< 파이썬 스타일 코드 II > 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354 # 9장 연습문제 # #1.f = lambda x,y: x**yf(2,3) # 8 #2f = lambda x: x**2ex =[1,2,3,4,5]list(map(f,ex)) #3from functools import reduceprint(reduce(lambda x,y : x*y,[1,2,3])) #5def t_list(two_list): return[row for row in zip(*two_list)] t_list([[1,4,7], [2,5,8], [3,6,9]]) #6date_info = {'year':"2019", 'mo..
728x90