엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (3) - 양적 변수 활용 (Quantitative Variable)

jay_the_code 2025. 6. 10. 16:00

지난번 질적 변수의 활용에 이어서

이번 글에서는 양적 변수의 활용에 대해서

알아보겠습니다.

 

통계 변수의 종류에 대해서 잘 모르시는 분들은

아래 링크 혹은 이미지 참고 부탁드립니다!

2025.06.06 - [엑셀과 통계 (Excel&Statistic)] - 초보자를 위한 기초 엑셀 통계 (1) - 통계 변수(Statistics variables)

 

초보자를 위한 기초 엑셀 통계 (1) - 통계 변수(Statistics variables)

지난번 기초 엑셀 사용법에 이어서이번 글부터는 엑셀을 활용한 통계에대해서 알아보겠습니다. 먼저 통계하면 어떤 것들이 먼저 떠오르시나요? 인구조사, 매출, 이용자 통계 등등 일상생활 속

jaythecode.tistory.com

 

양적 변수의 활용 (Quantitative Variable)

 

양적 변수가 주어졌을 때는 데이터 값들이

어떻게 분포해 있는지에 주목해야 합니다.

 

조금 더 쉽게 말하자면 평균을 기준으로

데이터 값들이 평균에서 얼마나 떨어져 있는지,

그리고 데이터들이 어디에 밀집해 있는지를

확인한 후에 그 결과에 따라 다양한 해석을

진행할 수 있습니다.

 

그럼 데이터가 어떻게 분포되어 있는지

확인하기 위해서 어떤 것들을 알아야 하는지

알아보겠습니다.

 

먼저 변수가 양적 변수일 경우에는

두 가지 값에 주목합니다.

  • 중앙값(MEDIAN)
  • 평균(MEAN)

이 두 값을 구하면 데이터가

왼쪽으로 치우쳐졌는지,

오른쪽으로 치우쳐졌는지,

대칭인지를 판단할 수 있습니다.

 

아래 예시 이미지들을 살펴보겠습니다.

  • 중앙값 = 평균 | 대칭 그래프 (Symmetric)

 

  • 중앙값 > 평균 | 왼쪽으로 치우침 (Left-Skewed)

 

  • 중앙값 < 평균 | 오른쪽으로 치우침 (Right-Skewed)

 

저는 처음에 이 그래프들을 보고

Left-Skewed와

Rigth-Skewed 그래프를 구별하는 것이

상당히 힘들었는데 구별하는 꿀팁을 알려드리겠습니다!

 

이게 어떤 형태의 그래프인지 헷갈리시면

꼬리에 집중하시면 됩니다.

 

꼬리가 왼쪽으로 길게 늘어지면 Left-Skewed

꼬리가 오른쪽으로 길게 늘어지면 Right-Skewed

라고 판단합니다.

 

자 먼저 중앙값이 평균보다 큰 경우는

대부분의 데이터들은 평균 위쪽에 존재하지만

극단적인 값을 가진 데이터들이 평균 아래에

존재한다는 것을 알 수 있습니다.

 

이해하기 쉬운 예시로는 은퇴 나이를

생각해 볼 수 있습니다.

 

대부분의 사람들은 50~60대에 은퇴하지만

극소수의 사람들은 20대 혹은 30대에 은퇴하는

경우가 존재한다는 것을 생각해볼 수 있습니다.

 

반대로 중앙값이 평균보다 작은 경우는

대부분의 데이터들이 평균 아래쪽에 존재하지만

극단적인 값을 가진 데이터들이 평균 위에

존재한다는 것을 알 수 있습니다.

 

이해하기 쉬운 예시로는 소득 분포를

생각해볼 수 있습니다.

 

대부분의 사람들이 3000~6000 만원 사이의

소득을 올리지만 소수의 사람들은 10억 이상의

소득을 올리는 경우를 생각해 볼 수 있습니다.

 

데이터가 얼마나 퍼져있는지 판단하는

좋은 기준이 되는 세 가지 통계량이 더 존재합니다.

  • 범위 (Range)
  • 사분위 범위 (Inter-Quartile Range)
  • 표준편차 (Standard Deviation)

먼저 범위는 최댓값과 최솟값의 차이를 말합니다.

단순하지만 극단적인 값에 민감하게 반응합니다.

 

사분위 범위는 데이터를 나열했을 때

중간 50%의 범위를 나타내고

사분위 범위는 범위에 비해서 극단적인 값의

영향을 덜 받습니다.

 

마지막으로 표준편차는 데이터가 평균으로부터

얼마나 떨어져 있는지를 나타냅니다.

표준편차를 구하는 공식은 아래와 같고

수학적인 이야기는 이번 글에서는 생략하겠습니다.

 

자 그럼 이제 엑셀에서 이런 통계량들을

어떻게 구할 수 있고 양적변수들은

어떤 그래프를 통해 관찰할 수 있는지

알아보겠습니다.

 

아래 엑셀파일을 이용해서 알아보겠습니다.

키.xlsx
0.01MB

 

파일에는 100명의 학생의 키가 작성되어 있습니다.

 

먼저 중앙값을 구해보겠습니다.

D2셀에는 "중앙값"을

E2셀에는 =MEDIAN(B2:B101)

을 작성합니다.

 

중앙값은 MEDIAN() 함수를 통해 구할 수 있습니다.

 

다음으로 평균을 구해볼 건데

D3에 "평균"을

E3에는 =AVERAGE(B2:B101)

을 작성합니다.

 

평균은 AVERAGE() 함수를 통해 구할 수 있습니다.

 

여기서 우리는 중앙값 174.50과

평균 174.45를 구할 수 있습니다.

 

평균과 중앙값이 유사한 값을 가지는 것으로 보아

대칭을 이루는 모양의 그래프가 나온다는 것을

예상해 볼 수 있습니다.

 

그럼 그래프를 만들어보겠습니다.

 

양적변수일 때는 바 차트 대신 히스토그램을

사용합니다.

 

그럼 B2~B101셀을 드래그해서 선택하고

히스토그램을 아래와 같이 만들어주겠습니다.

 

꽤나 대칭적인 모습을 보여주는 것을

확인할 수 있습니다.

 

또 양적변수에서 히스토그램 말고

Box and Whisker Plot이라는 차트를

사용할 수 있는데 이는 사분위 범위를

아래와 같이 쉽게 확인할 수 있습니다.

 

그럼 이제 범위, 사분위 범위, 표준편차를

구하는 것을 알아보겠습니다.

 

먼저 범위는 MAX(), MIN()을 사용해

최대와 최소를 구한 후에 두 값을 빼서

구할 수 있습니다.

 

사분위 범위는 QUARTILE.EXC()를

사용해서 구할 수 있는데

하위 25%로는 QUARTILE.EXC(range, 1)을

상위 25%로는 QUARTILE.EXC(range, 3)을

사용해서 Upper Quartile과 Lower Quartile을

구하고 두 값을 빼면 사분위 범위를 구할 수 있습니다.

 

표준편차는 STDEV.S() 함수를 사용해서

구할 수 있는데 여기서 S는 Sample을

의미합니다.

 

위와 같은 방법을 엑셀에 적용시켜 아래와 같은

표를 만들어볼 수 있습니다.

 

 

위 표를 통해서 34cm 차이 안에

모든 데이터 값들이 퍼져있고

중간 50%는 17cm 범위 안에

퍼져있고 표준편차는 10.34를

가진다는 것을 알 수 있습니다.

 

이처럼 양적 변수는 데이터 값들이

전체적으로 어떻게 분포되어 있는지에

초점을 맞추어서 분석합니다.

 

지금까지 양적 변수의 활용에 대해서

알아보았습니다.

 

다음 글에서는 Z-score 개념에 대해서

알아보겠습니다.