본문 바로가기
코드스테이츠 Ai Boostcamp

[통계학] hypothesis-test(가설 검정)

by mintee
728x90

More

  •  
    P값이 작게나오면 왜 귀무가설을 기각하는지 잘 와닿지 않는다. 이것때문에 항상 귀무가설 기각, 채택을 헷갈리는 것 같다. 외우지 말고 이제 이해하자.

 

[오늘 계획]

  • 가설검정 과제 하기 전에 통계학개론 r가설부분 읽기.
  • 1 가설 어떻게 세우는지?
  • 2 t test가 뭔지?

 

 


Hypothesis Test

🏆 학습 목표

  • Estimation / Sampling의 목적과 방법에 대해서 이해한다.
  • 가설검정에 대해서 이해한다.
  • T-test의 목적과 사용예시를 설명할 수 있다.
    • 원샘플 t test

      → 한 변수의 평균이 n인지 검정하는 방법.

    • 투 샘플 t test

      → 두 변수간에 평균이 같은지 다른지(양측)/ 큰지 작은지(단측) 검정하는 방법


 

  • 15_유의성 검정

    • 통계적 추론
    1. 모수 추정 → 신뢰구간
    1. 주장 평가 → 유의성 검정

     

    유의성 검정

    -어떤 주장이 참이라고 주장할 때, 거의 발생하지 않을 결과가 나타날 경우 → 이는 해당 주장이 참이 아니라는 좋은 증거가 된다.

    -0.009의 확률의 경우 1000개의 시도 중에서 9번만 주장의 반대되는 경우(성공률이 75%라고 주장하는 사람이 20번 던진 자유투 중 8번만 성공)이므로 이는 주장이 거짓이라는 강력한 증거가 됨.

     

    가설 설정

    • 귀무가설 : 검증되는 주장 ( 주로 "차이가 없다","효과가 없다"라고 표현)
    • 대립가설: 부합되는 증거를 발견하려는 반대 주장( > , <의 단측 / =!의 양측 검정을 결정)

    크거나 작다 → 단측검정

    같다 같지 않다 → 양측검정

    -예) 보관 전 콜라와 보관 후 콜라의 단맛 차이가 있다 → 양측 / 단맛이 떨어졌다 → 단측(m > 0) / 단맛이 커졌다 → 단측(m <0) (m : 보관전 단맛 - 보관 후 단맛)

    -미리 마음속에 확고하게 특정 방향을 갖고 있지 않다면 → 양측 대립가설을 사용해야 함.

     

     

    [18_모평균에 관한 추론]

     

    t test는 실제 데이터에서 모평균에 대한 표준편차를 모를 때, 대신 표준 오차를 써서 스케일링을 하는 방법으로 정규화시 N(0,1)를 따르는 것과 비슷하게 ~t(n-1)분포를 따른다. t 분포는 정규분포와 매우 비슷한 양상을 띈다.


 

Sampling 기법

  1. Simple random sampling : 무작위 추출
  1. Systematic sampling : 규칙을 가지고 추출 ex) 1, 6, 11, 16 —>+5
  1. Stratified random sampling : 여러 그룹으로 나누고, 그 그룹별로 무작위 추출 ex) 여론 조사를 위해 사람을 나이대 별로 나누고, 해당 그룹안에서 무작위 추출.
  1. Cluster sampling : 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법

 

 

p-value가 낮다는 것은, 귀무가설이 틀렸을 확률이 높다.

예를 들어서 p-value가 0.05다. -> 우리가 뽑은 샘플 데이터로 낼 수 있는 결론이

귀무 가설이 (틀렸지만 우연히 맞을 확률) 확률이 0.05다

p-value가 (1-Confidence)보다 낮은 경우, 귀무가설을 기각하고 대안 가설을 채택함

fromscipyimport stats

# ttest_1samp 함수의 파라미터 1) Sample 데이터, 2) 비교하려는 값

stats.ttest_1samp(coinflips, .5)

 

One-side test vs Two-side test

Two side (tail / direction) test : 샘플 데이터의 평균이 "X"와 같다 / 같지 않다. 를 검정하는 내용

One side test : 샘플 데이터의 평균이 "X"보다 크다 혹은 작다 / 크지 않다 작지 않다. 를 검정하는 내용

 

 

  • 1. One-Sample T-test 연습

    "서울시에는 구별로 평균 약 400 그루 정도의 이팝나무가 있다"라는 가설에 대해 가설검정을 시행하세요.

    주장 : 서울시 자치구별 평균 이팝나무 수는 약 400그루 이다.

     

    귀무 가설 : m - mean(x) = 0 or 평균은 n이다.

    대립 가설 : m - mean(x) =! 0 or 평균은 n이 아니다.

     

    2. Two-Sample T-test 연습

     

    서울시의 구별 평균 느티나무수와 왕벚나무의 수는 차이가 없다"라는 가설에 대해 가설검정

    두 집단간의 평균 비교시엔 → stats.ttest_ind() 사용

    • 귀무가설 : 서울시 느티나무와 왕벚나무의 평균 수는 차이가 없다. (m- x.mean() = 0 )
    • 대립가설 : 서울시 느티나무와 왕벚나무의 평균 수는 차이가 있다. (m - x.mean() =! 0 )

     

     

 

728x90

댓글