More
[오늘 계획]
- 가설검정 과제 하기 전에 통계학개론 r가설부분 읽기.
- 1 가설 어떻게 세우는지?
- 2 t test가 뭔지?
Hypothesis Test
🏆 학습 목표
- Estimation / Sampling의 목적과 방법에 대해서 이해한다.
- 가설검정에 대해서 이해한다.
T-test의 목적과 사용예시를 설명할 수 있다.
원샘플 t test
→ 한 변수의 평균이 n인지 검정하는 방법.
투 샘플 t test
→ 두 변수간에 평균이 같은지 다른지(양측)/ 큰지 작은지(단측) 검정하는 방법
15_유의성 검정
- 통계적 추론
- 모수 추정 → 신뢰구간
- 주장 평가 → 유의성 검정
유의성 검정
-어떤 주장이 참이라고 주장할 때, 거의 발생하지 않을 결과가 나타날 경우 → 이는 해당 주장이 참이 아니라는 좋은 증거가 된다.
-0.009의 확률의 경우 1000개의 시도 중에서 9번만 주장의 반대되는 경우(성공률이 75%라고 주장하는 사람이 20번 던진 자유투 중 8번만 성공)이므로 이는 주장이 거짓이라는 강력한 증거가 됨.
가설 설정
- 귀무가설 : 검증되는 주장 ( 주로 "차이가 없다","효과가 없다"라고 표현)
- 대립가설: 부합되는 증거를 발견하려는 반대 주장( > , <의 단측 / =!의 양측 검정을 결정)
크거나 작다 → 단측검정
같다 같지 않다 → 양측검정
-예) 보관 전 콜라와 보관 후 콜라의 단맛 차이가 있다 → 양측 / 단맛이 떨어졌다 → 단측(m > 0) / 단맛이 커졌다 → 단측(m <0) (m : 보관전 단맛 - 보관 후 단맛)
-미리 마음속에 확고하게 특정 방향을 갖고 있지 않다면 → 양측 대립가설을 사용해야 함.
[18_모평균에 관한 추론]
t test는 실제 데이터에서 모평균에 대한 표준편차를 모를 때, 대신 표준 오차를 써서 스케일링을 하는 방법으로 정규화시 N(0,1)를 따르는 것과 비슷하게 ~t(n-1)분포를 따른다. t 분포는 정규분포와 매우 비슷한 양상을 띈다.
Sampling 기법
- Simple random sampling : 무작위 추출
- Systematic sampling : 규칙을 가지고 추출 ex) 1, 6, 11, 16 —>+5
- Stratified random sampling : 여러 그룹으로 나누고, 그 그룹별로 무작위 추출 ex) 여론 조사를 위해 사람을 나이대 별로 나누고, 해당 그룹안에서 무작위 추출.
- Cluster sampling : 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법
p-value가 낮다는 것은, 귀무가설이 틀렸을 확률이 높다.
예를 들어서 p-value가 0.05다. -> 우리가 뽑은 샘플 데이터로 낼 수 있는 결론이
귀무 가설이 (틀렸지만 우연히 맞을 확률) 확률이 0.05다
p-value가 (1-Confidence)보다 낮은 경우, 귀무가설을 기각하고 대안 가설을 채택함
fromscipyimport stats
# ttest_1samp 함수의 파라미터 1) Sample 데이터, 2) 비교하려는 값
stats.ttest_1samp(coinflips, .5)
One-side test vs Two-side test
Two side (tail / direction) test : 샘플 데이터의 평균이 "X"와 같다 / 같지 않다. 를 검정하는 내용
One side test : 샘플 데이터의 평균이 "X"보다 크다 혹은 작다 / 크지 않다 작지 않다. 를 검정하는 내용
1. One-Sample T-test 연습
"서울시에는 구별로 평균 약 400 그루 정도의 이팝나무가 있다"라는 가설에 대해 가설검정을 시행하세요.
주장 : 서울시 자치구별 평균 이팝나무 수는 약 400그루 이다.
귀무 가설 : m - mean(x) = 0 or 평균은 n이다.
대립 가설 : m - mean(x) =! 0 or 평균은 n이 아니다.
2. Two-Sample T-test 연습
서울시의 구별 평균 느티나무수와 왕벚나무의 수는 차이가 없다"라는 가설에 대해 가설검정
두 집단간의 평균 비교시엔 → stats.ttest_ind() 사용
- 귀무가설 : 서울시 느티나무와 왕벚나무의 평균 수는 차이가 없다. (m- x.mean() = 0 )
- 대립가설 : 서울시 느티나무와 왕벚나무의 평균 수는 차이가 있다. (m - x.mean() =! 0 )
'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글
[통계학] chi-square-test(범주형 가설 검정) (0) | 2021.06.12 |
---|---|
[통계학] Confidence Interval(신뢰구간, 중심극한 정리) (0) | 2021.06.12 |
Basic Derivative(미분) (0) | 2021.05.19 |
Data Manipulation (0) | 2021.05.19 |
[Feature Engineering]변수 인덱싱, 결측값 생성 (0) | 2021.05.19 |
댓글