엑셀과 통계 (Excel&Statistic)

초보자를 위한 기초 엑셀 통계 (10) - 중심극한정리 (Central Limit Theorem)

jay_the_code 2025. 6. 17. 10:00

지난번 정규분포(Normal Distribution)에 이어서
이번 글에서는 중심극한정리(Central Limit Theorem)
대해서 알아보겠습니다.

중심극한정리(Central Limit Theorem)

정규분포를 통해서 우리는 하나의 확률변수
분석할 수 있었습니다.

중심극한정리는 표본을 바탕으로 표본의 모집단
대한 통계적인 추론을 가능하게 해주는 원리입니다.

 어떤 집단이 있다고 가정해 봅시다.

만약에 이 집단에서 매 실험마다 무작위로 15명을 뽑고
어떤 테스트에서 양성이 나올 확률을 추정해 보면
실험 1: 15명 중 3명이 양성 -> 표본비율 p = 3/15 = 0.2
실험 2: 15명 중 6명이 양성 -> 표본비율 p = 6/15 = 0.4
와 같이 표본에 따라서 확률이 달라지지만
이 과정을 무수히 많이 반복하면 이 표본 비율들은
점점 정규분포에 가까워집니다.

표본을 반복해서 추출하면 추출할수록
각 표본 평균의 분포는 전체 평균에 가까운 값들이
많아지고 극단적인 값들이 적어지면서
정규분포에 가까운 모양을 가지게 됩니다.

이때 표본 평균들의 분포를 우리는
표본분포(Sampling distribution)라고 부릅니다.

중심정리극한을 정리해 보자면
모집단이 어떤 분포를 따르든, 표본의 크기가 충분히 크면
표본평균의 분포는 정규본포에 근사한다는 이론입니다.

이때 여기서 표본의 크기가 크다는 보통 30 이상을 의미합니다.

표본의 크기가 커야 하는 이유에 대해서 알아보겠습니다.

그러기 위해서 표준오차(Standard Error)의 개념에 대해서
알아보도록 하겠습니다.

표준오차 (Standard Error)

중심정리극한에서 우리는 표본평균의 분포에
집중하는데 이 표본평균들이 평균적으로 얼마나
퍼져 있는지 수치로 나타낸 것이 표준오차입니다.

표본 통계량의 표준편차라고 생각하시면 될 것 같습니다.

표준오차를 구하는 공식은 아래와 같습니다.

평균이냐 비율이냐는 변수의 종류에 따라서
달라지게 되는데 변수의 종류 관련해서는
이전 글 참고 부탁드립니다.

저 공식들을 보면 표본의 크기에 따라서
표준오차가 달라지는 모습을 확인해 볼 수 있습니다.

표본의 크기가 커지면 커질수록 표본오차는 작아지고
이는 곧 우리가 더 정확하게 모집단의 평균을
추정할 수 있음을 나타냅니다.

이전 글과 같은 예시를 사용해서 이를 어떻게
활용할 수 있는지 알아보겠습니다.

한 병원이 있다고 가정해 봅시다. 
과거의 기록들로 미루어 보았을 때
환자들의 수술 회복 시간 평균은 20분이고
표준편차는 4분입니다.

이번 주에 100회의 수술을 실시할 때
이번 주에 평균 수술 회복 시간이 21분을
초과할 확률이 어떻게 될까요?

횟수가 30회 이상이므로 정규분포를
따른다고 볼 수 있고 아래와 같은 공식을 따르므로  
표본 평균은 모집단의 평균을 중심으로
표준편차가 모집단의 표준편차σ를 표본 크기 n의 제곱근으로
나눈 값을 가집니다.

그리고 이렇게 구한 표준편차를 우리는
 표준오차 (Standard Error)라고 부릅니다.

평균 20분, 표준편차 0.4분을 가지고
수술회복시간이 21분 초과한 것에 관심이 있으므로
1 - NORM.DIST(21,20,0.4,TRUE) 를 엑셀에 입력해서
0.0062라는 값을 얻을 수 있습니다.

따라서 이번 주에 수술회복시간이 21분을 초과할 확률은
0.6% 정도라고 해석하는 것이 가능합니다. 

중심극한정리는 표본을 바탕으로 모집단에 대해서
예측하는 것을 가능하게 하는 강력한 도구입니다.

우리가 실제로 얻을 수 있는 데이터는 대부분
전체 모집단이 아닌 표본이기 때문에 중심극한정리는
통계에서 매우 중요하다고 생각합니다.

이번글에서는 중심극한정리표준오차(Standard Error)
대해서 알아보았습니다.

다음 글에서는 신뢰구간(Confidence Interval)에 대해서
알아보겠습니다.