카이제곱 검정
: 범주 변수간의 관계성을 보기 위한 검정 방법
- 일원 카이제곱 검정 : 한개의 범주를 대상으로 함
- 이원 카이제곱 검정 : 두개 이상의 범주를 대상으로 검정
이원 카이제곱 검정
- 핵심 질문 : 두개 범주변수 간 관계가 존재하는가?
- H0 : 두 범주변수 간에 연관이 없다.
- H1 : 두 볌주변수 간에 연관관계가 있다.
공식 (카이제곱 통계량)

= sum( (관찰횟수 - 기대횟수)^2 / 기대횟수 )
카이제곱 통계량은 이원분류표에서의 실제 관찰 횟수에서 기대횟수를 뺀 차이를 제곱한 후 이를 기대횟수로 나눠준 값들의 합이다.
카이제곱통계량은 기대횟수로부터 벗어난 관찰횟수의 거리를 측정한 값이라고 생각하자.
(어느 거리와 마찬가지로 관찰 횟수가 기대횟수와 완벽하게 일치할 경우에만 0이 되기 때문이다. )
- 큰 카이제곱값은 H0(:연관x)와 반대되는 증거가 된다. (즉, 연관 o)
- 그렇다면 왜 기대횟수와의 차이가 두 범주변수 간에 연관이 있는 것이 되고 카이제곱 통계량에서 기대 횟수를 지표로 삼을까?
기대횟수 공식
기대횟수 = (행합x열합) / 표의 총합
기대 횟수와의 차이를 지표로 삼는 이유
아래의 지역과 규모 두 범주 변수로 이루어진 이원분류표를 예시로 들어보자.

이 데이터는 Kosis에서 규모별 미분양현황에서 4개의 지역의 민간 부분만 가져온 것이다.
해당 데이터는 서울, 대전, 대구, 부산 4개의 지역과 60㎡이하, 60〜85㎡, 85㎡초과 3개의 규모로 이루어져 있다.
평방미터가 익숙하지 않으니 평수로 바꾸어 생각하자.
60㎡이하, 60〜85㎡, 85㎡초과 대신 '18평 이하 / 18~25평 / 25평 이상'으로 생각하면 된다.
위 데이터에서 우리는 미분양된 주택 데이터에서 지역과 평수간에 연관관계가 있는지가 궁금하다.
총 미분양 주택 3917개 중 18평 이하(60㎡이하)일때 미분양된 주택의 비율은 다음과 같다.
- p = 성공 횟수 / 표의 총합 = 1열의 합계 / 표의 총합
- = 1556 / 3917 = 약 0.4
이것을 18평 이하(60㎡이하)일때 미분양 확률 p라고 생각하자. 귀무가설이 참이라면 이것이 서울, 대전, 대구, 부산 4개 지역에서 모두 동일한 확률로
나타날 것으로 기대된다.
즉, 귀무가설이 참이라면(미분양주택의 지역과 평수에 연관이 없다면) 서울이든, 대전이든, 부산이든 모든 지역에서 비슷한 p의 확률(0.4)로 미분양될 것이다.
그러나 기대횟수와의 차이가 크다면 지역에 따라서 미분양되는 주택 평수의 비율이 일정하지 않고 지역에 따라 달라지게 된다.
따라서 서울 미분양 주택 56개 중 18평 이하일 것으로 기대되는 기대 횟수는 다음과 같다.
- np = 행합 x (열합 / 표의 총합) = (1556x56 / 3917) = 약 22
이는 실제 관찰 횟수인 서울, 18평 이하 일 때의 미분양 주택 수인 54와 꽤 차이가 있는 값이다.
물론 이 한 경우의 계산값으로 가설을 검정할 수는 없지만 이런 식으로 기대횟수와의 차이를 구하고 이 값이 얼마나 큰지로 귀무가설을 검정 할 수 있다.
이 경우엔 귀무가설은 지역별 미분양 주택의 평수와 연관이 없다, 대립가설은 지역별 미분양 주택의 평수와 연관이 있다가 된다.
만약 계산한 통계량 값이 매우 크다면 미분양되는 주택의 평수는 지역에 따라 매우 상이한 것으로 해석할 수 있다.(귀무가설 기각)
(실제 카이제곱 통계량은 약 2065, p-value는 0으로 나왔다)
이 데이터에 관한 추가적인 EDA와 카이제곱검정 결과를 다음에 정리해서 포스팅 해야겠다.
'통계' 카테고리의 다른 글
[회귀분석] 단순/ 다중/ 릿지/ 로지스틱 (0) | 2021.06.14 |
---|
댓글