지난번 두 표본의 가설검정에 이어서
이번 글에서는 범주형(Categorical) 변수의
가설검정에 대해서 알아보겠습니다.
통계 분석을 하다 보면 숫자 같은 연속형 변수뿐만
아니라 등급, 선택지와 같은 범주형(Categorical)
변수들도 마주하게 됩니다.
범주형 변수의 가설검정을 진행할 때는
카이제곱(Chi-Squared) 분포를 따르는
검정 통계량을 사용하는데
이는 밑에서 더 자세히 살펴보도록 하겠습니다.
그럼 이러한 범주형 변수에 사용하는 두 가지
주요 가설검정에 대해서 알아보겠습니다.
적합도 검정(Goodness-of-Fit)
적합도 검정은 범주형 변수가 한 가지일 때
활용가능한 가설 검정입니다.
적합도 검정은 단일 범주형 변수가
기대한 비율대로 나오는지를 확인하는
방법입니다.
아래 예시를 통해 자세히 알아보겠습니다.
가위 바위 보 게임을 생각해 보겠습니다.
가위 바위 보 게임에서 3가지 선택지가
나올 확률의 기댓값은 각각 1/3입니다.
그럼 게임을 18번 진행한다고 가정했을 때
가위 6번,
바위 6번,
보 6번
이런 식으로 균등하게 나오는 것을
귀무가설 H0로 설정합니다.
하지만 실제로 게임을 진행해 보니
가위 7번,
바위 4번,
보 7번
과 같은 결과가 나왔다고 가정하고
대립가설 H1을 셋 중 하나 이상이
기댓값과 다르다고 설정하겠습니다.
그럼 다음으로 검정통계량을 계산하겠습니다.
카이제곱 통계량은 아래 수식과 같이
계산합니다.
위 수식을 토대로 계산을 진행하겠습니다.
(7-6)^2/6 + (4-6)^2/6 + (7-6)^2/6
= 1/6 + 4/6 + 6/1 = 1
이렇게 해서 검정통계량은 1이라는 것을
알아내었습니다.
그럼 이제 P-value를 계산해 보겠습니다.
카이제곱 검정을 진행할 때는 아래와 같은
엑셀함수를 사용합니다.
CHISQ.DIST.RT(검정통계량, 자유도)
자유도는 범주 수 - 1을 하여 사용합니다.
엑셀에 CHISQ.DIST.RT(1, 2)라고 입력하면
대략 P-value가 0.6065라는 것을 확인할 수
있습니다.
유의 수준을 10%로 설정했다고 가정해도
P-value가 0.1을 초과하기 때문에
귀무가설을 기각할 수 없고
셋 중 하나 이상의 값이 기대와 다르다고
판단할 수 없습니다.
독립성 검정(Test of Association)
다음으로는 독립성 검정(Test of Association)에
대해서 알아보겠습니다.
독립성 검정은 두 개의 범주형 변수가
서로 관련이 있는지 확인할 때 사용하는
방법입니다.
아래 예시를 통해 더 자세히 살펴보겠습니다.
어떤 제약회사에서 A라는 약을 만들었다고
가정하겠습니다.
이 A라는 약의 복용 여부가 암으로 사망하는 환자와
관련이 있는지 알아보는 검정을 진행하겠습니다.
약을 먹지 않은 사람 중에
암으로 사망한 사람이 347명
암으로 사망하지 않은 사람이 11188명
이라고 설정하겠습니다.
A약을 복용한 사람 중에
암으로 사망한 사람이 327명
암으로 사망하지 않은 사람이 13708명
이라고 설정하고 진행하겠습니다.
귀무가설 H0는 약 복용과 암 사망은
무관하다라고 설정합니다.
대립가설 H1은 약 복용과 암 사망이
관련이 있다고 설정합니다.
그럼 이제 아래 수식을 통해
검정 통계량을 구해보겠습니다.
여기서 Oij와 Eij는 아래와 같은 방식으로
구할 수 있습니다.
위 수식들을 사용하여 카이제곱 통계량을
구하면 11.352라는 값을 얻을 수 있습니다.
이제 이전 예시와 마찬가지로
CHISQ.DIST.RT() 함수를 사용하여
P-value를 계산하겠습니다.
P-value = CHISQ.DIST.RT(11.352, 1)
을 계산하면 약 0.00075가 나옵니다.
여기서 2번째 인자인 자유도(degree of freedom)는
(행 - 1) * (열 - 1)로 설정합니다.
P값이 0.01보다 작은 값을 가지므로
귀무가설을 기각 하고 A약의 복용과
암 사망률에는 통계적으로 유의미한 연관이
있다고 해석할 수 있습니다.
여기서 이전 글에서 다뤘던 상대위험도(Relative Risk)를
사용하면 A약을 복용하면 약을 복용하지 않는 환자보다
22% 위험이 감소한다고 해석할 수 있습니다.
엑셀에서 활용하는 가장 쉬운 방법
위 예시들처럼 행과 열이 많지 않을 때는
위에서 다룬 것처럼 계산을 해도 무방하지만
행과 열이 너무 많아 복잡해질 때 엑셀에서
이를 간단하게 수행하는 방법이 있습니다.
엑셀에서는 CHISQ.TEST()라는 함수를
제공합니다.
CHISQ.TEST() 함수의 인자로는
첫 번째 관측범위,
두 번째 기대범위
를 입력합니다.
이를 통해 P-value를 빠르게 알아내고
귀무가설을 기각할지 말지 정하는 것이
가능합니다.
하지만 엑셀에서 범주형 가설검정을
진행할 때 기댓값이 5 미만인 셀이 많으면
결과가 왜곡될 수 있다고 하니 주의가 필요합니다.
카이제곱 검정은 범주형 데이터 분석에서
자주 사용되는 방법인만큼 잘 숙지하여
범주형 데이터 분석에 활용하시기를 바랍니다!
이번 글에서는 범주형 변수의 가설검정에
대해서 알아보았습니다.
다음 글에서는 회귀 모델(Regression Model)에
대해서 알아보겠습니다.
'엑셀과 통계 (Excel&Statistic)' 카테고리의 다른 글
초보자를 위한 기초 엑셀 통계 (17) - 분산분석(ANOVA) (2) | 2025.06.24 |
---|---|
초보자를 위한 기초 엑셀 통계 (16) - 선형 회귀 분석 (Linear Regression Analysis) (0) | 2025.06.23 |
초보자를 위한 기초 엑셀 통계 (14) - 두 집단 가설검정 (Hypothesis Test) (0) | 2025.06.21 |
초보자를 위한 기초 엑셀 통계 (13) - 단일 표본 가설검정 (Hypothesis Test) (0) | 2025.06.20 |
초보자를 위한 기초 엑셀 통계 (11) - 신뢰구간 (Confidence Interval) (0) | 2025.06.18 |