본문 바로가기
코드스테이츠 Ai Boostcamp

[통계학] chi-square-test(범주형 가설 검정)

by mintee
728x90

More

  • 기대횟수의 의미가 뭔지
  • 왜 기대횟수와의 차이가 연관이 있는거고, 기대횟수와 가까운 것이 연관이 없는게 되는지에 대한 학습이 더 필요할 것 같다.
  • 블로그에 과제에서 주어졌던 지역별 미분양 주택 수에 대한 EDA(그래프)와 카이제곱 검정 결과를 포스팅하기.
  • 원샘플 카이제곱 검정이란?

 

More Hypothesis Testing

🏆 학습 목표

  • t-test를 위한 조건을 알 수 있다.
    • 독립성, 정규성, 등분산성(분산이 비슷한지)
  • t-test외에 다른 가설검정 방법에 대해서 설명할 수 있다.
  • Type of Error를 구분하고 설명할 수 있다.
    • 타입1에러, 타입2에러 그거
  • 카이제곱검정의 목적과 사용예시를 설명할 수 있다.
  • 모수통계와 비모수통계의 차이에 대해 설명할 수 있다.
    • 모집단이 특정 확률 분포 (normal과 같은)를 따른 다는 전제를 하지 않는 방식. parameter estimation이 필요하지 않기 때문에 non-parametric이라고 부름
    • 비모수적 방법
      • Categorical 데이터를 위한 모델링
      • 혹은 극단적 outlier가 있는 경우 매우매우 유효한 방식
      • distribution free method라고 부르기도 함.
      • Chisquare
      • Spearman correlation
      • Run test
      • Kolmogorov Smirnov
      • Mann-Whitney U
      • Wilcoxon
      • Kruskal-Wallis 등

  • 원샘플 카이제곱 검정이란?
    • 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지에 대한 가설검정
    •  

warm up

자유도

 


 

[통계학 개론]

6장. 이원분류표

에 따르면 성별같은 변수들의 수를 세서 교차분류표로 만든 것이 이원분류표이다.

그런데 오늘 주어진 kosis 데이터는 이미 이원분류표 형태로 표현이 된 것 같다.

테이터의 컬럼과 로우가 지역과 규모이다. 지역은 서울, 대전 등으로 이루어진 범주형이고 규모는 60이하, 60~85, 85초과 로 이루어진 범주형 데이터이다. 원래는 더 큰 데이터에서 각각 범주형으로 이루어져 있던 데이터들을 kosis에서 교차분석표 형태로 보여준다고 생각하면 좋을 것 같다.

(kosis는 주로 교차분석표 형태의 데이터만 있는 것 같다. 예전에 들어가서 데이터 필요한걸 받으려 했는데 내가 원하는 머신러닝 모델에 넣을 데이터 형식이 아니라 다 표형태여서 결국엔 여기는 데이터 구할 곳이 못되구나,, 했었던.. 근데 오늘 과제를 하면서 보니 이렇게 교차분석으로 하는 데이터 분석들에는 유용하게 쓰일 수 있을 것 같다. 하나를 배운듯.)

 

이미 데이터가 crosstab되어있는 형태 이므로 이제 어떻게 카이제곱 함수에 넣을지가 문제이다.

그리고 카이제곱이 뭔지.. 다까먹..

 

23장. 두개 범주 변수 : 카이제곱 검정

 

-핵심 질문 : 두개 범주변수 간 관계가 존재하는가?

 

새로 알게된 것 메모

-이원분류표에서 정량(연속형)변수도 범주형태로 묶으면 분류기준으로 들어갈 수 있다!

 

-일반적으로 표현하면 카이제곱 검정에서의 귀무가설은 '두 변주범수 간에 관계가 없다'는 것이다.

예)교재 예제인 19~22세의 연령별 거주 형태에 관한 4개 분포 사이에 차이가 있다면 이것은 귀무가설이 틀리고 대립가설이 참이라는 것을 의미한다.

 

  • 귀무가설 : 두 범주변수 간에 연간관계가 없다.
  • 대립가설 : 두 변수간에 연간관계가 있다.

 

  • 기대횟수 = (행합*열합)/표의 총합

-H0(:연관x)이 참이라면 기대하는 횟수를 기대 횟수라고 한다.

  • 카이제곱통계량

= sum( (관찰횟수 - 기대횟수)**2 / 기대횟수 )

(관찰 횟수 = 실제 값 / 기대횟수 = 기대값 이라고 생각하면 된다.)

카이제곱통계량은 기대횟수로부터 벗어난 관찰횟수의 거리를 측정한 값이라고 생각하자. (어느 거리와 마찬가지로 관찰 횟수가 기대횟수와 정확하게 일치할 경우 0이 되기 때문이다. )

-큰 카이제곱값은 H0(:연관x)와 반대되는 증거가 된다. (즉, 연관 o)

-0인 카이제곱값은 귀무가설이 참일때 기대하는 횟수와 실제 값이 같다는 의미이므로

 

  • 왜 기대횟수와의 차이가 연관이 있는거고, 기대횟수와 가까운 것이 연관이 없는게 되지??

 


 

n122 과제 중,,

 

 

카이제곱 검정방법Permalink

카이제곱 데스트는 그룹간에 차이가 있는지 여부(= 그룹끼지 독립이 아닌지의 여부)에 대해 Chisquare 분포를 사용해 가설검정을 하는 방법이다. 그룹간에 차이가 있는지 없는지의 여부라는 의미는 그룹간의 비율차이가 있는지의 여부라는 의미이다.

독립변수: 범주형, 종속변수: 범주형

카이제곱의 검정 방법은 목적에 따라서 3가지로 크게 나눌수 있다.

  1. 독립성 검정: 두 변수는 서로 연관성이 있는가 없는가?
  1. 적합성 검정: 실제 표본이 내가 생각하는 분포와 같은가 다른가?
  1. 동일성 검정: 두 집단의 분포가 동일한가? 다른 분포인가?

카이제곱이 종류로는 크게 일원 카이제곱 검정이원 카이제곱 검정이 존재하게 된다.

  • 일원 카이제곱 검정은 하나의 범주를 대상으로 한다. -> 적합성 검정
  • 이원 카이제곱 검정은 두개 이상의 범주 대상으로 검정 한다. -> 독립성, 동일성 검정

참조:카이제곱 자세한 내용

https://wjddyd66.github.io/dataanalysis/Chisquare/

 


 

도전과제

pvalue 구하기

데이터 사이언스 스쿨
검정(testing)**은 데이터 뒤에 숨어있는 확률변수의 분포에 대한 가설이 맞는지 틀리는지 정량적으로 증명하는 작업이다. 예를 들어 다음과 같은 문제는 검정 방법론을 사용하여 접근할 수 있다. 어떤 동전을 15번 던졌더니 12번이 앞면이 나왔다. 이 동전은 조작되지 않은 공정한 동전이라고 할 수 있는가? 동전을 던져 앞면이 나오는 것을 베르누이분포 확률변수로 모형화하자.
https://datascienceschool.net/02%20mathematics/09.04%20%EA%B2%80%EC%A0%95%EA%B3%BC%20%EC%9C%A0%EC%9D%98%ED%99%95%EB%A5%A0.html
728x90

댓글