지난번 질적 변수의 활용에 이어서
이번 글에서는 양적 변수의 활용에 대해서
알아보겠습니다.
통계 변수의 종류에 대해서 잘 모르시는 분들은
아래 링크 혹은 이미지 참고 부탁드립니다!
2025.06.06 - [엑셀과 통계 (Excel&Statistic)] - 초보자를 위한 기초 엑셀 통계 (1) - 통계 변수(Statistics variables)
초보자를 위한 기초 엑셀 통계 (1) - 통계 변수(Statistics variables)
지난번 기초 엑셀 사용법에 이어서이번 글부터는 엑셀을 활용한 통계에대해서 알아보겠습니다. 먼저 통계하면 어떤 것들이 먼저 떠오르시나요? 인구조사, 매출, 이용자 통계 등등 일상생활 속
jaythecode.tistory.com
양적 변수의 활용 (Quantitative Variable)
양적 변수가 주어졌을 때는 데이터 값들이
어떻게 분포해 있는지에 주목해야 합니다.
조금 더 쉽게 말하자면 평균을 기준으로
데이터 값들이 평균에서 얼마나 떨어져 있는지,
그리고 데이터들이 어디에 밀집해 있는지를
확인한 후에 그 결과에 따라 다양한 해석을
진행할 수 있습니다.
그럼 데이터가 어떻게 분포되어 있는지
확인하기 위해서 어떤 것들을 알아야 하는지
알아보겠습니다.
먼저 변수가 양적 변수일 경우에는
두 가지 값에 주목합니다.
- 중앙값(MEDIAN)
- 평균(MEAN)
이 두 값을 구하면 데이터가
왼쪽으로 치우쳐졌는지,
오른쪽으로 치우쳐졌는지,
대칭인지를 판단할 수 있습니다.
아래 예시 이미지들을 살펴보겠습니다.
- 중앙값 = 평균 | 대칭 그래프 (Symmetric)
- 중앙값 > 평균 | 왼쪽으로 치우침 (Left-Skewed)
- 중앙값 < 평균 | 오른쪽으로 치우침 (Right-Skewed)
저는 처음에 이 그래프들을 보고
Left-Skewed와
Rigth-Skewed 그래프를 구별하는 것이
상당히 힘들었는데 구별하는 꿀팁을 알려드리겠습니다!
이게 어떤 형태의 그래프인지 헷갈리시면
꼬리에 집중하시면 됩니다.
꼬리가 왼쪽으로 길게 늘어지면 Left-Skewed
꼬리가 오른쪽으로 길게 늘어지면 Right-Skewed
라고 판단합니다.
자 먼저 중앙값이 평균보다 큰 경우는
대부분의 데이터들은 평균 위쪽에 존재하지만
극단적인 값을 가진 데이터들이 평균 아래에
존재한다는 것을 알 수 있습니다.
이해하기 쉬운 예시로는 은퇴 나이를
생각해 볼 수 있습니다.
대부분의 사람들은 50~60대에 은퇴하지만
극소수의 사람들은 20대 혹은 30대에 은퇴하는
경우가 존재한다는 것을 생각해볼 수 있습니다.
반대로 중앙값이 평균보다 작은 경우는
대부분의 데이터들이 평균 아래쪽에 존재하지만
극단적인 값을 가진 데이터들이 평균 위에
존재한다는 것을 알 수 있습니다.
이해하기 쉬운 예시로는 소득 분포를
생각해볼 수 있습니다.
대부분의 사람들이 3000~6000 만원 사이의
소득을 올리지만 소수의 사람들은 10억 이상의
소득을 올리는 경우를 생각해 볼 수 있습니다.
데이터가 얼마나 퍼져있는지 판단하는
좋은 기준이 되는 세 가지 통계량이 더 존재합니다.
- 범위 (Range)
- 사분위 범위 (Inter-Quartile Range)
- 표준편차 (Standard Deviation)
먼저 범위는 최댓값과 최솟값의 차이를 말합니다.
단순하지만 극단적인 값에 민감하게 반응합니다.
사분위 범위는 데이터를 나열했을 때
중간 50%의 범위를 나타내고
사분위 범위는 범위에 비해서 극단적인 값의
영향을 덜 받습니다.
마지막으로 표준편차는 데이터가 평균으로부터
얼마나 떨어져 있는지를 나타냅니다.
표준편차를 구하는 공식은 아래와 같고
수학적인 이야기는 이번 글에서는 생략하겠습니다.
자 그럼 이제 엑셀에서 이런 통계량들을
어떻게 구할 수 있고 양적변수들은
어떤 그래프를 통해 관찰할 수 있는지
알아보겠습니다.
아래 엑셀파일을 이용해서 알아보겠습니다.
파일에는 100명의 학생의 키가 작성되어 있습니다.
먼저 중앙값을 구해보겠습니다.
D2셀에는 "중앙값"을
E2셀에는 =MEDIAN(B2:B101)
을 작성합니다.
중앙값은 MEDIAN() 함수를 통해 구할 수 있습니다.
다음으로 평균을 구해볼 건데
D3에 "평균"을
E3에는 =AVERAGE(B2:B101)
을 작성합니다.
평균은 AVERAGE() 함수를 통해 구할 수 있습니다.
여기서 우리는 중앙값 174.50과
평균 174.45를 구할 수 있습니다.
평균과 중앙값이 유사한 값을 가지는 것으로 보아
대칭을 이루는 모양의 그래프가 나온다는 것을
예상해 볼 수 있습니다.
그럼 그래프를 만들어보겠습니다.
양적변수일 때는 바 차트 대신 히스토그램을
사용합니다.
그럼 B2~B101셀을 드래그해서 선택하고
히스토그램을 아래와 같이 만들어주겠습니다.
꽤나 대칭적인 모습을 보여주는 것을
확인할 수 있습니다.
또 양적변수에서 히스토그램 말고
Box and Whisker Plot이라는 차트를
사용할 수 있는데 이는 사분위 범위를
아래와 같이 쉽게 확인할 수 있습니다.
그럼 이제 범위, 사분위 범위, 표준편차를
구하는 것을 알아보겠습니다.
먼저 범위는 MAX(), MIN()을 사용해
최대와 최소를 구한 후에 두 값을 빼서
구할 수 있습니다.
사분위 범위는 QUARTILE.EXC()를
사용해서 구할 수 있는데
하위 25%로는 QUARTILE.EXC(range, 1)을
상위 25%로는 QUARTILE.EXC(range, 3)을
사용해서 Upper Quartile과 Lower Quartile을
구하고 두 값을 빼면 사분위 범위를 구할 수 있습니다.
표준편차는 STDEV.S() 함수를 사용해서
구할 수 있는데 여기서 S는 Sample을
의미합니다.
위와 같은 방법을 엑셀에 적용시켜 아래와 같은
표를 만들어볼 수 있습니다.
위 표를 통해서 34cm 차이 안에
모든 데이터 값들이 퍼져있고
중간 50%는 17cm 범위 안에
퍼져있고 표준편차는 10.34를
가진다는 것을 알 수 있습니다.
이처럼 양적 변수는 데이터 값들이
전체적으로 어떻게 분포되어 있는지에
초점을 맞추어서 분석합니다.
지금까지 양적 변수의 활용에 대해서
알아보았습니다.
다음 글에서는 Z-score 개념에 대해서
알아보겠습니다.
'엑셀과 통계 (Excel&Statistic)' 카테고리의 다른 글
초보자를 위한 기초 엑셀 통계 (5) - 두 질적 변수 조합 분석 (4) | 2025.06.12 |
---|---|
초보자를 위한 기초 엑셀 통계 (4) - Z-score (0) | 2025.06.11 |
초보자를 위한 기초 엑셀 통계 (2) - 질적 변수 활용 (Categorical Variable) (0) | 2025.06.09 |
초보자를 위한 기초 엑셀 통계 (1) - 통계 변수(Statistics variables) (4) | 2025.06.08 |
엑셀(Excel) 한 번도 안 써본 왕초보를 위한 기초 사용법 (3) - 차트(Chart) (0) | 2025.06.07 |