엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (9) - 정규 분포 (Normal Distribution)

jay_the_code 2025. 6. 16. 10:00

지난번 조건부 확률과 베이즈 정리(Bayes Theorem)에

이어서 이번 글에서는 정규분포 (Normal Distribution)

대해서 알아보겠습니다.

정규 분포 (Normal Distribution)

정규 분포는 연속형 확률 분포중에 한 가지입니다.

데이터가 평균을 중심으로 좌우 대칭적인
종 모양을 가지고, 평균을 기준으로 값들이
일정한 확률로 퍼져있는 분포입니다.

사람의 키, 시험 점수 같은 일상생활 속
다양한 실제 데이터가 정규분포를 따르고 있습니다.

정규 분포는 평균표준편차 두 가지 값으로
결정됩니다.

정규 분포에서는 대략 68%의 값이
평균 ± 1 표준편차 안에 있고
약 95%의 값이 평균 ± 1.96 표준편차 안에
존재합니다.

글로 읽으면 이해가 잘 안 가실 수 도 있으니
아래 이미지를 참고하겠습니다.

엑셀에서 정규분포 활용

이제 엑셀에서 정규분포를 어떻게 활용가능한지
예시를 통해서 알아보겠습니다.

한 병원의 수술 후 회복 시간 데이터가 있다고
가정해 봅시다.

이 데이터는 평균 20분, 표준편차 4분인
정규분포를 따르고 있습니다.

그럼 아래 질문들의 답을 찾아가면서
활용법을 알아보겠습니다.

1. 회복 시간이 15분 미만일 확률

이것은 두 가지 엑셀함수로 해결이 가능합니다.
- NORM.DIST(x, 평균, 표준편차, TRUE)
- NORM.S.DIST(Z-score, TRUE)

첫 번째 함수는 원하는 값 x, 평균, 그리고
표준편차를 넣으면 정규분포는 연속형
확률 분포이기 때문에 원하는 값에 대한
확률을 얻을 수 있습니다.

두 번째 함수는 Z-score을 이용하는 함수인데

Z-score를 어떻게 구하는지 기억하고 계신가요?
Z-score = (x - 평균) / 표준편차
따라서 위 함수와 사실 같은 요소를 사용해서
확률을 구할 수 있습니다.

엑셀에서 실제로 해보시면
0.1056이라는 값을 얻을 수 있는데
그럼 회복 시간이 15분 미만일 확률은 10프로 정도
라고 해석할 수 있습니다.

2. 회복 시간이 30분 초과일 확률

NORM.S.DIST() 그리고 NORM.DIST()
두 함수 모두 위 정규분포 그래프에서 해당하는 값까지의
넓이는 구해서 알려주는 함수입니다.

그렇다면 x분 미만과 같은 값들은

아래와 같이 넓이가 누적형으로 구해지기 때문에
저 공식을 그대로 사용가능합니다.

하지만 x분 초과와 같은 조건들은 저 누적한 부분을
전체에서 빼어야 확률을 구할 수 있습니다.

그렇다면 저 그래프 아래 전체 부분의 넓이
얼마일까요?

정답은 1입니다.
정규분포는 확률 분포인데 이 확률 분포의
전체 면적은 항상 1로 설정되어 있습니다.

자세한 설명은 너무 수학적인 부분이라
이 글에서는 설명하지 않도록 하겠습니다.

다시 돌아와서 그렇기 때문에 30분 초과할 확률은
1에서 30분 이하일 확률을 빼주면 구할 수 있습니다.

1 - NORM.DIST(x, 평균, 표준편차, TRUE)
1 - NORM.S.DIST(Z-score, TRUE)

해서 0.0062라는 값이 나오게 되고
수술 회복 시간이 30분 초과일 확률은
0.6% 라고 해석할 수 있습니다.

3. 회복 시간이 15 ~ 25분일 확률

이렇게 두 값의 사이의 확률을 구하는 경우에는
a, b 중 큰 값까지 의 면적에서 작은 값까지의
면적을 빼주면 구할 수 있습니다.

NORM.DIST(25,20,4,TRUE) - NORM.DIST(15,20,4,TRUE)
NORM.S.DIST(1.25,TRUE) - NORM.S.DIST(-1.25,TRUE)

해서 0.7887이라는 값을 구할 수 있고
수술 회복 시간이 15 ~ 25분 걸릴 확률은
78% 라고 해석할 수 있습니다.

마지막으로 살펴볼 예시는 지금까지 본
예시들과는 반대로 확률이 주어질 때
그 값을 구하는 것을 알아보겠습니다.

수술 회복의 데이터 안에서
가장 오래 기다린 환자 10프로 안에
들어가려면 몇 분 이상 기다려야 하는지
알아보겠습니다.

이때는 NORM.DIST()가 아닌
NORM.INV() 함수를 사용하는데
이때 NORM.INV()의 첫 인자
확률을 입력하는데 이때 주의가 필요합니다.

상위 10프로의 커트라인은
하위 90프로의 커트라인과
같기 때문에 누적형임을 감안해서
확률 설정하는 것이 중요합니다.

이 예시에서는
NORM.INV(0.9,20,4)
NORM.S.INV(0.9)
이렇게 함수를 활용해서 25.12라는 값을
얻을 수 있었고 25분 보다 오래 회복하신 환자분들은
전체 90프로의 환자들보다 오래 회복하셨다고
해석할 수 있습니다.

정규분포는 정말 통계에서 가장 중요한 개념들 중에
하나이기 때문에 정의와 활용법 모두 잘 익혀두어
정규분포를 따르는 주제에서 요긴하게 사용하시길
바라겠습니다.

이번 글에서는 정규분포 (Normal Distribution)에 대해서
알아보았습니다.

다음 글에서는 중심 극한 정리에 대해서
알아보겠습니다.