[통계학] hypothesis-test(가설 검정)

728x90

P값이 작게나오면 왜 귀무가설을 기각하는지 잘 와닿지 않는다. 이것때문에 항상 귀무가설 기각, 채택을 헷갈리는 것 같다. 외우지 말고 이제 이해하자.

[오늘 계획]

가설검정 과제 하기 전에 통계학개론 r가설부분 읽기.
1 가설 어떻게 세우는지?
2 t test가 뭔지?

Hypothesis Test

🏆 학습 목표

Estimation / Sampling의 목적과 방법에 대해서 이해한다.

가설검정에 대해서 이해한다.

T-test의 목적과 사용예시를 설명할 수 있다.
- 원샘플 t test
  
  → 한 변수의 평균이 n인지 검정하는 방법.
- 투 샘플 t test
  
  → 두 변수간에 평균이 같은지 다른지(양측)/ 큰지 작은지(단측) 검정하는 방법

📇[통계학 개론]

15_유의성 검정
- 통계적 추론
1. 모수 추정 → 신뢰구간
1. 주장 평가 → 유의성 검정
유의성 검정

-어떤 주장이 참이라고 주장할 때, 거의 발생하지 않을 결과가 나타날 경우 → 이는 해당 주장이 참이 아니라는 좋은 증거가 된다.

-0.009의 확률의 경우 1000개의 시도 중에서 9번만 주장의 반대되는 경우(성공률이 75%라고 주장하는 사람이 20번 던진 자유투 중 8번만 성공)이므로 이는 주장이 거짓이라는 강력한 증거가 됨.

가설 설정
- 귀무가설 : 검증되는 주장 ( 주로 "차이가 없다","효과가 없다"라고 표현)
- 대립가설: 부합되는 증거를 발견하려는 반대 주장( > , <의 단측 / =!의 양측 검정을 결정)
크거나 작다 → 단측검정

같다 같지 않다 → 양측검정

-예) 보관 전 콜라와 보관 후 콜라의 단맛 차이가 있다 → 양측 / 단맛이 떨어졌다 → 단측(m > 0) / 단맛이 커졌다 → 단측(m <0) (m : 보관전 단맛 - 보관 후 단맛)

-미리 마음속에 확고하게 특정 방향을 갖고 있지 않다면 → 양측 대립가설을 사용해야 함.

[18_모평균에 관한 추론]

t test는 실제 데이터에서 모평균에 대한 표준편차를 모를 때, 대신 표준 오차를 써서 스케일링을 하는 방법으로 정규화시 N(0,1)를 따르는 것과 비슷하게 ~t(n-1)분포를 따른다. t 분포는 정규분포와 매우 비슷한 양상을 띈다.

Sampling 기법

Simple random sampling : 무작위 추출

Systematic sampling : 규칙을 가지고 추출 ex) 1, 6, 11, 16 —>+5

Stratified random sampling : 여러 그룹으로 나누고, 그 그룹별로 무작위 추출 ex) 여론 조사를 위해 사람을 나이대 별로 나누고, 해당 그룹안에서 무작위 추출.

Cluster sampling : 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법

p-value가 낮다는 것은, 귀무가설이 틀렸을 확률이 높다.

예를 들어서 p-value가 0.05다. -> 우리가 뽑은 샘플 데이터로 낼 수 있는 결론이

귀무 가설이 (틀렸지만 우연히 맞을 확률) 확률이 0.05다

p-value가 (1-Confidence)보다 낮은 경우, 귀무가설을 기각하고 대안 가설을 채택함

fromscipyimport stats

# ttest_1samp 함수의 파라미터 1) Sample 데이터, 2) 비교하려는 값

stats.ttest_1samp(coinflips, .5)

One-side test vs Two-side test

Two side (tail / direction) test : 샘플 데이터의 평균이 "X"와 같다 / 같지 않다. 를 검정하는 내용

One side test : 샘플 데이터의 평균이 "X"보다 크다 혹은 작다 / 크지 않다 작지 않다. 를 검정하는 내용

🏏[n121] 과제 수행

1. One-Sample T-test 연습

"서울시에는 구별로 평균 약 400 그루 정도의 이팝나무가 있다"라는 가설에 대해 가설검정을 시행하세요.

주장 : 서울시 자치구별 평균 이팝나무 수는 약 400그루 이다.

귀무 가설 : m - mean(x) = 0 or 평균은 n이다.

대립 가설 : m - mean(x) =! 0 or 평균은 n이 아니다.

2. Two-Sample T-test 연습

서울시의 구별 평균 느티나무수와 왕벚나무의 수는 차이가 없다"라는 가설에 대해 가설검정

두 집단간의 평균 비교시엔 → stats.ttest_ind() 사용
- 귀무가설 : 서울시 느티나무와 왕벚나무의 평균 수는 차이가 없다. (m- x.mean() = 0 )
- 대립가설 : 서울시 느티나무와 왕벚나무의 평균 수는 차이가 있다. (m - x.mean() =! 0 )

Uploaded by Notion2Tistory v1.1.0

728x90

'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글

[통계학] chi-square-test(범주형 가설 검정) (0)	2021.06.12
[통계학] Confidence Interval(신뢰구간, 중심극한 정리) (0)	2021.06.12
Basic Derivative(미분) (0)	2021.05.19
Data Manipulation (0)	2021.05.19
[Feature Engineering]변수 인덱싱, 결측값 생성 (0)	2021.05.19

mindsee Ai

[통계학] hypothesis-test(가설 검정)

More

Hypothesis Test

🏆 학습 목표

15_유의성 검정

유의성 검정

가설 설정

[18_모평균에 관한 추론]

Sampling 기법

One-side test vs Two-side test

1. One-Sample T-test 연습

2. Two-Sample T-test 연습

'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글

댓글

티스토리툴바

[통계학] hypothesis-test(가설 검정)

More

Hypothesis Test

🏆 학습 목표

15_유의성 검정

유의성 검정

가설 설정

[18_모평균에 관한 추론]

Sampling 기법

One-side test vs Two-side test

1. One-Sample T-test 연습

2. Two-Sample T-test 연습

'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글

관련글

댓글

티스토리툴바