엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (17) - 분산분석(ANOVA)

jay_the_code 2025. 6. 24. 11:00

지난번 선형 회귀 분석에 이어서
이번글에서는 분산분석(ANOVA)에 대해서
알아보겠습니다.

ANOVAAnalysis of Variance의 약자로
한국어로 바꾸면 분산분석입니다.

분산분석은 주로 통계에서 두 개 이상의 그룹
평균이 서로 다른지를 비교할 때 사용하는 방법입니다.

예를 들어 1반, 2반, 그리고 3반의 수학 점수의
평균이 서로 다른가? 와 같은 질문에 답을 찾을 때
활용가능합니다.

ANOVA에는
일원분산분석 (One-way ANOVA),
이원분산분석 (Two-way ANOVA),
반복측정 ANOVA
로 총 세 가지 종류가 존재하는데
이번 글에서는 독립변수가 1개인 경우
일원분산분석에 초점을 맞추어 알아볼 예정입니다.   

먼저 ANOVA의 전제 조건에 대해서
알아보겠습니다.

1. 모든 그룹의 분산이 유사해야 한다.
2. 각 그룹이 정규분포 혹은 대칭형 분포를 가져야 한다.
3. 서로 독립된 표본 이어야 한다.

이렇게 3가지 전제 조건을 충족해야
ANOVA를 사용하는 것이 가능합니다.

위 이미지는 랜덤한 92명의 활동 수준의 따른
몸무게를 정리한 표입니다.

위와 같이 데이터를 표로 정리해서
평균과 중앙값을 비교해서 대칭형 분포인지
알아볼 수 있습니다.

3가지 활동 수준 모두 평균과 중앙값이
유사하니 대칭형 분포를 가지고 있다고
해석할 수 있습니다.

또 Slight만 표준편차가 큰 걸로 봐서
Slight그룹의 체중 분포가 조금 더 넓게 퍼져
있다고 예상해 볼 수 있습니다.

표뿐만 아니라 엑셀에서 Box & Whisker Plot
차트를 활용해서 각 활동 수준의 체중분포를
비교하는 것도 가능합니다.

자 먼저
귀무가설 H0: 모든 그룹의 평균은 같다
대립가설 H1: 적어도 하나의 그룹 평균은 다르다
이렇게 가설들을 먼저 설정해 주도록 하겠습니다.

ANOVA에서는 전체 분산을 두 가지로 나누어서
비교하게 됩니다.

1. 집단 간의 분산
2. 각 집단 내의 분산

집단 간의 분산은 집단 간 제곱합으로 구하는데
전체 평균을 구하고 집단 평균에서 전체 평균을 빼서
제곱한 뒤에 샘플의 수를 곱한 값을 전부 더하여
구합니다.

집단 내 분산은 집단 내 제곱합으로 구하는데
데이터 값에서 집단 평균을 빼고 제곱한 값을
전부 더하여서 구합니다.

이렇게 집단 간 제곱합과 집단 내 제곱합을
다 구하였으면
집단 간 제곱합에는 그룹의 수 - 1자유도
집단 내 제곱합에는 표본의 수 - 그룹의 수자유도
설정하여 F-통계량을 계산합니다.

F-통계량은 (집단 간 제곱합 / 자유도) / (집단 내 제곱합 / 자유도)
구할 수 있습니다.

F값을 구하였다면 엑셀에서
F.DIST.RT(F값, 집단 간 자유도, 집단 내 자유도) 함수
활용하여 P값을 구할 수 있습니다.

나온 P값으로 귀무가설을 기각할지 안 할지 결정하고
나머지 해석을 하면 ANOVA가 끝나게 됩니다.

ANOVA는 평균을 비교하면서 그 차이가
통계적으로 우연인지 아닌지를 검정하는
좋은 도구라고 생각합니다.

이번 글에서 알아본 분산분석 ANOVA를
마지막으로 초보자용 엑셀과 통계 카테고리는
여기서 마무리하도록 하겠습니다.

감사합니다!