More
- 기대횟수의 의미가 뭔지
- 왜 기대횟수와의 차이가 연관이 있는거고, 기대횟수와 가까운 것이 연관이 없는게 되는지에 대한 학습이 더 필요할 것 같다.
- 블로그에 과제에서 주어졌던 지역별 미분양 주택 수에 대한 EDA(그래프)와 카이제곱 검정 결과를 포스팅하기.
- 원샘플 카이제곱 검정이란?
More Hypothesis Testing
🏆 학습 목표
t-test를 위한 조건을 알 수 있다.
- 독립성, 정규성, 등분산성(분산이 비슷한지)
t-test외에 다른 가설검정 방법에 대해서 설명할 수 있다.
Type of Error를 구분하고 설명할 수 있다.
- 타입1에러, 타입2에러 그거
카이제곱검정의 목적과 사용예시를 설명할 수 있다.
모수통계와 비모수통계의 차이에 대해 설명할 수 있다.
- 모집단이 특정 확률 분포 (normal과 같은)를 따른 다는 전제를 하지 않는 방식. parameter estimation이 필요하지 않기 때문에 non-parametric이라고 부름
비모수적 방법
- Categorical 데이터를 위한 모델링
- 혹은 극단적 outlier가 있는 경우 매우매우 유효한 방식
distribution free
method라고 부르기도 함.
- Chisquare
- Spearman correlation
- Run test
- Kolmogorov Smirnov
- Mann-Whitney U
- Wilcoxon
- Kruskal-Wallis 등
원샘플 카이제곱 검정이란?
주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지에 대한 가설검정
warm up
자유도
[통계학 개론]
6장. 이원분류표
에 따르면 성별같은 변수들의 수를 세서 교차분류표로 만든 것이 이원분류표이다.
그런데 오늘 주어진 kosis 데이터는 이미 이원분류표 형태로 표현이 된 것 같다.
테이터의 컬럼과 로우가 지역과 규모이다. 지역은 서울, 대전 등으로 이루어진 범주형이고 규모는 60이하, 60~85, 85초과 로 이루어진 범주형 데이터이다. 원래는 더 큰 데이터에서 각각 범주형으로 이루어져 있던 데이터들을 kosis에서 교차분석표 형태로 보여준다고 생각하면 좋을 것 같다.
(kosis는 주로 교차분석표 형태의 데이터만 있는 것 같다. 예전에 들어가서 데이터 필요한걸 받으려 했는데 내가 원하는 머신러닝 모델에 넣을 데이터 형식이 아니라 다 표형태여서 결국엔 여기는 데이터 구할 곳이 못되구나,, 했었던.. 근데 오늘 과제를 하면서 보니 이렇게 교차분석으로 하는 데이터 분석들에는 유용하게 쓰일 수 있을 것 같다. 하나를 배운듯.)
이미 데이터가 crosstab되어있는 형태 이므로 이제 어떻게 카이제곱 함수에 넣을지가 문제이다.
그리고 카이제곱이 뭔지.. 다까먹..
23장. 두개 범주 변수 : 카이제곱 검정
-핵심 질문 : 두개 범주변수 간 관계가 존재하는가?
새로 알게된 것 메모
-이원분류표에서 정량(연속형)변수도 범주형태로 묶으면 분류기준으로 들어갈 수 있다!
-일반적으로 표현하면 카이제곱 검정에서의 귀무가설은 '두 변주범수 간에 관계가 없다'는 것이다.
예)교재 예제인 19~22세의 연령별 거주 형태에 관한 4개 분포 사이에 차이가 있다면 이것은 귀무가설이 틀리고 대립가설이 참이라는 것을 의미한다.
- 귀무가설 : 두 범주변수 간에 연간관계가 없다.
- 대립가설 : 두 변수간에 연간관계가 있다.
- 기대횟수 = (행합*열합)/표의 총합
-H0(:연관x)이 참이라면 기대하는 횟수를 기대 횟수라고 한다.
- 카이제곱통계량
= sum( (관찰횟수 - 기대횟수)**2 / 기대횟수 )
(관찰 횟수 = 실제 값 / 기대횟수 = 기대값 이라고 생각하면 된다.)
카이제곱통계량은 기대횟수로부터 벗어난 관찰횟수의 거리를 측정한 값이라고 생각하자. (어느 거리와 마찬가지로 관찰 횟수가 기대횟수와 정확하게 일치할 경우 0이 되기 때문이다. )
-큰 카이제곱값은 H0(:연관x)와 반대되는 증거가 된다. (즉, 연관 o)
-0인 카이제곱값은 귀무가설이 참일때 기대하는 횟수와 실제 값이 같다는 의미이므로
- 왜 기대횟수와의 차이가 연관이 있는거고, 기대횟수와 가까운 것이 연관이 없는게 되지??
n122 과제 중,,
카이제곱 검정방법Permalink
카이제곱 데스트는 그룹간에 차이가 있는지 여부(= 그룹끼지 독립이 아닌지의 여부)에 대해 Chisquare 분포를 사용해 가설검정을 하는 방법이다. 그룹간에 차이가 있는지 없는지의 여부라는 의미는 그룹간의 비율차이가 있는지의 여부라는 의미이다.
독립변수: 범주형, 종속변수: 범주형
카이제곱의 검정 방법은 목적에 따라서 3가지로 크게 나눌수 있다.
- 독립성 검정: 두 변수는 서로 연관성이 있는가 없는가?
- 적합성 검정: 실제 표본이 내가 생각하는 분포와 같은가 다른가?
- 동일성 검정: 두 집단의 분포가 동일한가? 다른 분포인가?
카이제곱이 종류로는 크게 일원 카이제곱 검정, 이원 카이제곱 검정이 존재하게 된다.
- 일원 카이제곱 검정은 하나의 범주를 대상으로 한다. -> 적합성 검정
- 이원 카이제곱 검정은 두개 이상의 범주 대상으로 검정 한다. -> 독립성, 동일성 검정
참조:카이제곱 자세한 내용
https://wjddyd66.github.io/dataanalysis/Chisquare/
도전과제
pvalue 구하기
'코드스테이츠 Ai Boostcamp' 카테고리의 다른 글
[n12x] Sprint Challenge (0) | 2021.06.12 |
---|---|
[통계학] Bayesian(베이즈 정리) (0) | 2021.06.12 |
[통계학] Confidence Interval(신뢰구간, 중심극한 정리) (0) | 2021.06.12 |
[통계학] hypothesis-test(가설 검정) (0) | 2021.06.12 |
Basic Derivative(미분) (0) | 2021.05.19 |
댓글