엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (6) - 두 양적 변수 조합 분석

jay_the_code 2025. 6. 13. 17:00

지난번 두 질적 변수 조합의 분석에

이어서 이번 글에서는 두 양적 변수

조합의 분석에 대해서 알아보겠습니다.

 

결과 변수(Outcome)와

설명 변수(Explanatory Variable)에

대해서 모르시는 분들은 아래 링크 참고

부탁드립니다.

2025.06.08 - [엑셀과 통계 (Excel&Statistic)] - 초보자를 위한 기초 엑셀 통계 (5) - 두 질적 변수 조합 분석

 

만약에 우리가 50명의 사람들의

키와 몸무게에 대한 정보가 있고

키와 몸무게 사이의 연관성을

살펴보고 싶다고 가정합시다.

 

키에 따른 몸무게 변화의 연관성을

알고 싶다면 Outcome은 몸무게가 될 것이고

설명 변수는 키가 될 것입니다.

 

두 양적 변수를 분석할 때 우리가 가장 많이

사용하는 차트는 아래와 같은

산점도(Scatterplot) 차트입니다.

차트를 생성할 때 우리는 결과 변수를 세로축에

설명변수를 가로축에 위치시킵니다.

 

이때 우리가 주목하는 것은 "상관계수"라는

값입니다.

 

양의 상관계수를 보일 때는

설명 변수가 증가하면 결과 변수도 증가합니다.

 

반대로 음의 상관계수를 보일 때는

설명 변수가 증가하면 결과 변수는 감소합니다.

 

이 상관계수가 양과 음에 상관없이 크면 클수록

연관성이 깊다고 판단합니다.

 

대게 0.7보다 r이 클 경우 강한 상관관계를

가진다고 생각합니다.

 

다음 글에서 자세히 다루겠지만

엑셀에서 상관관계를 매우 쉽게

구하는 방법이 있습니다.

 

그것은 바로 CORREL(x data, y data) 함수를

사용하는 것입니다.

 

하지만 추세선과 차트를 보고 예측을 할 때

주의해야 할 점이 있습니다.

 

바로 극단적인 하나 혹은 그 이상의 값들이

상관관계를 증가 혹은 감소시킬 수 있다는 점입니다.

 

만약에 위 산점도 그래프에서

4명의 학생들이 추가되는데

각각 키 160, 165, 170, 175에

몸무게 108, 117, 103, 112라고

가정합시다.

 

그럼 추세선에 저 극단적인 데이터 값에 의해

유의미한 변화가 생기게 됩니다.

 

따라서 극단적인 값들이 존재할 경우에는 해석에

주의를 해야 합니다.

 

이번 글에서는 두 양적 변수 조합의 분석에 대해서

알아보았습니다.

 

다음 글에서는 엑셀에서 산점도와 상관계수를

사용하는 방법에 대해서 알아보겠습니다.