엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (7) - 산점도 차트와 상관계수 활용법(Scatterplot & Correlation Coefficient)

jay_the_code 2025. 6. 14. 17:00

지난번 두 양적 변수 조합의 분석에 이어서

이번 글에서는 엑셀에서 산점도 차트와

상관계수를 활용하는 방법에 대해서

알아보겠습니다.

 

지난 글을 안 읽어보신 분들은 아래 링크

참고 부탁드립니다.

2025.06.08 - [엑셀과 통계 (Excel&Statistic)] - 초보자를 위한 기초 엑셀 통계 (6) - 두 양적 변수 조합 분석

 

먼저 아래 엑셀 파일을 통해서

진행해 보도록 하겠습니다.

산점도&상관계수 example.xlsx
0.02MB

 

먼저 위 엑셀파일에는 92명의

키와 몸무게 자료가 있습니다.

산전도 차트(Scatterplot)

 

먼저 키와 몸무게의 연관성을

알아보기 위해서 A와 B열을

전부 선택한 후에 '삽입' 메뉴에서

산전도 차트를 선택하겠습니다.

 

그럼 위와 같은 그래프가 나오게 되는데

보기 힘든 상태이기 때문에 축을 더블 클릭한 후에

축 옵션에서 축을 재조정해주겠습니다.

 

그럼 아래와 같은 분포를 보기 편한 차트가

완성됩니다.

 

이제 여기에 추세선을 추가해 주겠습니다.

 

그래프를 클릭한 후에 + 아이콘을 클릭하고

추세선을 선형으로 추가해 주겠습니다.

 

그 후에 추세선을 더블클릭하여 수식

차트에 표시를 선택해 줍니다.

 

그럼 아래와 같은 추세선과 수식이 함께

있는 아름다운 차트가 완성되었습니다.

 

저 수식을 이용해서 어떤 걸 할 수 있을까요?

 

지금 현재 x축이 몸무게이고 y축이 키입니다.

저 수식을 이용해서 a라는 키를 가진 사람의

몸무게를 예측하고 실제로 a라는 사람의 몸무게가

예상치에서 얼마나 벗어나 있는지

파악하는 것이 가능합니다.

 

또한 추세선의 기울기가 양수인 것으로 보아

키와 몸무게는 키가 증가하면 몸무게도 증가하는

양의 상관관계를 가지고 있다는 것을

추측해 볼 수 있습니다.

상관계수(Correlation Coefficient)

 

그럼 이제 키와 몸무게 사이의 상관계수

대해서 알아보겠습니다.

 

먼저 엑셀에서 상관계수를 구하는 법은

매우 간단합니다.

 

엑셀에서 상관계수 구하는 법

-> CORREL(array, array)

 

빈 셀에 =CORREL(A2:A93,B2:B93)

입력해 주면 0.785라는 상관계수를

구할 수 있습니다.

 

이전 글에서도 언급했지만

0.785라는 상관계수를 가진다는 것은

상관계수가 0.7 이상이기 때문에

키와 몸무게 사이에 꽤나 강한 상관관계

있다고 추측할 수 있습니다.

 

산점도와 상관계수는

두 데이터 사이의 상관관계를 추측해 볼 수 있는

아주 좋은 도구들이라고 생각합니다.

 

하지만 산점도 그래프를 그려봤을 때

점들이 너무 관계없이 퍼져있거나

상관계수가 0과 너무 밀접하다면

두 데이터 사이의 상관관계를 의심해 봐야

합니다.

 

이번 글에서는 엑셀에서 두 양적 변수를

활용하는 산전도 차트와 상관계수에 대해서

알아보았습니다.

 

다음 글에서는 조건부 확률

베이즈 정리에 대해서 알아보겠습니다.