엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (14) - 두 집단 가설검정 (Hypothesis Test)

jay_the_code 2025. 6. 21. 11:00

지난번 단일 표본에서의 가설검정에 이어서
이번 글에서는 두 집단에서의 가설검정에
대해서 알아보겠습니다.

통계 분석에서 두 집단 간의 차이를 비교하는
일이 꽤나 많이 때문에 단일 표본뿐만 아니라
두 집단에서의 가설검정 역시 아주 중요합니다.

혹시 단일 표본의 가설검정에 대해서
기억이 잘 나지 않으시는 분들은 아래 링크
참고 부탁드리겠습니다.

2025.06.13 - [엑셀과 통계 (Excel&Statistic)] - 초보자를 위한 기초 엑셀 통계 (13) - 단일 표본 가설검정 (Hypothesis Test)

두 집단에서 가설검정

우선 두 집단 간의 가설검정에서도
기본적인 틀은 아래와 같이 단일 표본의
가설검정과 동일합니다.

1. 가설설정
- H0 (귀무가설): 차이가 있음
- H1 (대립가설): 차이가 없음

2. 전제조건
- 각 집단이 독립적이고 표본 수가 충분히 크다
(n > 30)

3. 검정통계량
- 평균은 t통계량
- 비율은 Z통계량

4. P-값
- 상황에 따라 양 끝단인지 한쪽인지 판단
- NORM.S.DIST or T.DIST.2T or T.DIST.RT 등등
상황에 따라 올바른 엑셀함수 활용

5. 결론
P값에따라 귀무가설을 기각할지 결정

두 집단의 가설검정 (평균 / Mean)

먼저 두 집단의 평균의 차이를 검정하는
것을 알아보겠습니다.

혈압을 측정한 102명의 남성과
98명의 여성이 있습니다.

남성과 여성 사이의 혈압 평균의
차이가 있는지에 대해서 5%의 유의 수준
기준으로 알아보겠습니다.

남성의 혈압 평균은 138.06, 표준편차는 17.12
여성의 혈압 평균은 133.08, 표준편차는 20.78
이라고 나온 데이터가 있다고 가정하겠습니다.

먼저 가설들을 설정하겠습니다.

H0: 평균에 차이가 없다
H1: 평균에 차이가 있다 

그리고 두 그룹 모두 30명이 넘으므로
표본의 수는 충분히 크다고 판단합니다.

sample error는 138.06 - 133.08 = 4.98이고
두 집단에서의 표준오차는 아래와 같은 공식으로
구할 수 있습니다.

위 공식을 통해 표준오차(Standard error)가
2.70이 나온다는 것을 구할 수 있습니다.

test statistic = sample error / standard error이므로

위 값들을 대입하여 검정통계량(test statistic)을
1.845로 구할 수 있습니다.

이제 P-value를 구해볼 차례인데
이전 글에서 언급한 것과 같이 엑셀함수
T.DIST.2T를 사용해 주겠습니다.

P-value = T.DIST.2T(1.845,97)
= 0.068 이렇게 P-value를 구할 수 있습니다.

여기서 자유도(degree of freedom)에 해당하는
97은 표본 크기 102와 98중 더 작은 표본의 크기에서
1을 빼주어서 구할 수 있습니다.

P-value가 유의 수준0.05보다 크기 때문에 귀무가설
두 평균에는 차이가 없다는 것을 기각하는데
실패했고 두 평균에는 차이가 있다는 근거가
부족하다고 해석할 수 있습니다.

두 집단의 가설검정 (비율, proportion)

그럼 이번에는 두 집단의 비율의 차이를
검정하는 것을 알아보겠습니다.

혈압을 측정한 102명의 남성과
98명의 여성이 있는데 이번에는
남성과 여성의 고혈압 비중의 차이에
대해서 5%의 유의수준 기준으로
알아보도록 하겠습니다.

먼저 남성의 경우 고혈압 비율은 0.4118
여성의 경우 고혈압의 비율은 0.3163
으로 설정하였습니다.

비율일 때의 표준편차는 p*(1-p)의 제곱근
이라는 것을 알고 있다는 전제하에
설명하도록 하겠습니다!

이해가 어려우신 분들은 이전 글들을
참고 부탁드립니다.

그럼 먼저 가설을 설정하겠습니다.

H0: 고혈압 비율에 차이가 없다
H1: 고혈압 비율에 차이가 있다

그럼 이제 검정통계량을 계산할 차례인데
이때 공통 비율을 산정하고 이 공통 비율을
토대로 표준오차를 계산합니다.

공통 비율은 위와 같은 공식으로 계산할 수 있으며
이 예시 같은 경우에는 0.3650이라는 값이 나옵니다.

그럼 이제 위 수식을 활용하여 표준오차를
계산하면 0.0681이라는 값을 얻을 수 있습니다.

이제 검정통계량 (Test Statistic) Z값을 알아볼 텐데
sample error = p1 - p2 = 0.4118 - 0.3163 = 0.0954
이고 표준오차는 위에서 구한대로 0.0681입니다.

Z = sample error / SE = 0.0954 / 0.0681
을 계산해서 1.4015라는 값을 얻을 수 있습니다.

이제 P값을 알아보겠습니다.
양측검정이므로 2*NORM.S.DIST() 엑셀함수를
아래와 같이 활용해 줍니다.

여기서 주의해야 할 점은 2를 곱해주는 이유가
한쪽 꼬리를 계산한 후에 정규분포가 대칭임을
활용하는 건데 그러기 위해서는 첫 번째 인자에
1.4015가 아닌 -1.4015를 넣어 확률 분포 그래프에서
-1.4015까지의 넓이값을 구하고 2배를 해주어야 합니다.  

P-value = 2*NORM.S.DIST(-1.4015, TRUE)
를 통해 P-value가 0.1611으로 구할 수 있습니다.

P-value가 유의 수준 0.05보다 크기 때문에
남성과 여성의 고혈압 비율에는 유의미한 차이가
있다고 보기 어렵다고 해석할 수 있습니다.

통계에서 두 집단을 비교하는 일이 흔한 만큼
두 집단에서 평균과 비율을 비교하는 방법을
잘 숙지하여 다양한 분석에 도움이 되기를
바랍니다!

이번 글에서는 두 집단의 가설검정에 대해서
알아보았습니다.

다음 글에서는 두 집단 이상의 범주형 변수들의
가설검정에 대해서 알아보겠습니다.