엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (16) - 선형 회귀 분석 (Linear Regression Analysis)

jay_the_code 2025. 6. 23. 10:55

지난번 범주형 가설검정에 이어서
이번 글에서는 선형 회귀 분석(Linear Regression Analysis)
대해서 알아보겠습니다.

회귀 분석이란 하나의 변수를 기반으로
다른 변수를 예측하거나 설명하는 통계 모델입니다.

예를 들면 키가 큰 사람이 몸무게가 더
많이 나갈까?
공부를 오래 하면 점수가 높아질까?
와 같은 질문에 대한 답을 수학적으로
풀어내는 것이 회귀 분석이라고 할 수 있습니다.

기본적인 회귀 수식은 아래와 같은
모습을 띄고 있습니다.

y = a + bx + e

여기서 a는 절편
b는 기울기
e는 오차를 말하는데
저 수식 어딘가 익숙하지 않나요?

네 맞습니다.
선형 회귀 수식은 일차방정식과 같은 모습
가지고 있습니다.

그럼 아래 예시를 통해 더 자세히 알아보겠습니다.

92명의 사람들의 키와 몸무게를
조사해서 산전도 그래프를 그려보니
키와 몸무게 사이에 아래와 같은 수식이
존재한다고 가정해봅시다.

Weight = 0.91 * Height - 93.06

기울기가 0.91이므로 키가 1cm 증가하면
평균적으로 몸무게는 0.91kg 증가한다는 것을
알 수 있습니다.

또 키가 0일 때 그럼 예상 몸무게가 -93.06kg이
나오게 되는데 이는 실제로 존재하지 않는 몸무게
수치이기 때문에 의미가 없고 해석 불가 영역이라고
설정합니다.

만약에 기울기가 0일 경우에는
두 변수가 서로 관련이 없는 것입니다.

이를 토대로 아래 가설검정을 진행해 보겠습니다.

우선 기울기의 표준오차는 0.0758이라고
설정하겠습니다.

귀무가설 H0: 기울기 = 0
대립가설 H1: 기울기는 0이 아니다.

t 값은 (기울기 - 0) / 기울기 표준오차
= 0.91 / 0.0758 = 12.016으로 알아낼 수 있습니다.

 자유도는 90(n-2)으로 설정할 수 있습니다.

이를 토대로 P값을 T.DIST.2T(12.016,90)을
사용해서 구해보면 거의 0에 가까운 값을
얻을 수 있습니다.

따라서 기울기는 0이 아니고 키와 몸무게는
통계적으로 유의미한 관계가 있다고
해석할 수 있습니다.

95%의 신뢰구간을 구해보면
T.INV.2T(0.05, 90)  = 1.987이 나오고

0.91 +- 1.9867*0.0758 = [0.7605,1.0619]
가 나오기 때문에 기울기는 0이 아니고
때로는 1도 가능하다는 것을 확인할 수 있습니다.

또한 엑셀 데이터에서 CORREL(array1, array2)
상관계수를 구한 후에 제곱해 주면 이는 회귀분석에서
결정계수라고 불리는 값입니다.

결정계수가 충분히 크면(대게 0.7 이상) 예측력이
있다고 해석합니다.

이 예시에서 결정계수가 70% 일 경우에는 전체 변동성중
약 70%가 키로 설명되고 나머지 30%는 예측할 수 없는
잔차(Residual variation)이라고 해석합니다.

위 Weight = 0.91 * Height - 93.06 수식에 값들을
대입하고 예측값과의 차이를 그래프로 그리면 이를
잔차 그래프라고 합니다.

회귀 모델에서는 이 잔차 그래프에 패턴이 없어야
합니다.

선형 회귀 분석은 데이터 분석의 핵심 도구 중
하나입니다. 이 분석을 할 때는 기울기뿐만 아니라
예시에서 다뤘던 신뢰구간, 잔차 등까지 고려하여
더 꼼꼼한 분석을 하는 것이 중요합니다.

이번 글에서는 선형 회귀 분석에 대해서
알아보았습니다.

다음 글에서는 ANOVA(Analysis ofVariance)라고
불리는 분산 분석에 대해서 알아보겠습니다.