지난번 산전도 차트와 상관계수의 활용에 이어서
이번 글에서는 조건부 확률과 베이즈 정리에
대해서 알아보겠습니다.
아니 왜 엑셀과 통계에서 갑자기 수학 개념들이
나오지?라고 생각하는 분들이 계실 수도 있지만
실제로 통계는 수학을 잘 알아야 하는 분야라고
생각합니다.
조건부 확률
조건부 확률은 어떠한 조건이 주어진 상황에서
다른 사건이 일어날 확률입니다.
100명의 학생중에 40명은 게임을 좋아하고
그중에 20명은 축구를 좋아한다고 가정합시다.
그럼 게임을 좋아하는 학생이 축구를 좋아할 확률은
20 / 40 = 0.5라는 값을 얻을 수 있게 되는데
이게 조건부 확률의 개념입니다.
조건부 확률의 공식은 아래와 같습니다.
베이즈 정리 (Bayes Theorem)
다음으로 베이즈 정리에 대해서 알아보겠습니다.
베이즈 정리는 조건부 확률을 기반으로
특정한 사건의 확률을 계산하는 공식입니다.
공식은 아래와 같으니 참고 부탁드립니다.
어떤 상황에서 이러한 정리를 사용할 수 있는지
알아보겠습니다.
어떤 바이러스가 있는데 이 바이러스를 확인하는
키트를 사용했다고 생각해봅시다.
그럼 4가지 경우의 수가 발생합니다.
양성 + 실제로 병이 있음
양성 + 실제로는 병이 없음
음성 + 실제로는 병이 있음
음성 + 실제로 병이 없음
위 4가지 상황에서 양성일 때
실제로 병에 걸렸을 확률을 생각해 보겠습니다.
병에 걸렸을 확률 P(D) = 0.001
질병이 있는 사람이 양성 나올 확률 P( + | D ) = 0.99
질병이 있는 사람이 양성이 나오지
않을 확률 P( + | !D ) = 0.01
병에 걸리지 않았을 확률 P(!D) = 0.999
라고 설정하겠습니다.
여기서 우리가 궁금한 양성인데
실제로 병에 걸렸을 확률 P(D | +)을
구해보겠습니다.
베이즈 정리에 의해
P(D | + ) = P( + | D ) * P(D) / P(+)
이고 여기서 P(+) 값만 현재 모르는 상태입니다.
그럼 P(+)를 구해보도록 하겠습니다.
전체 양성의 확률을 구하기 위해서
(병이 있고 양성일 확률 + 병이 없는데 양성일 확률)
을 통해서 구해주겠습니다.
P(+) = P(+ | D) * P(D) + P(+ | !D) * P(!D)
계산해 보면 0.01098 이라는 값이 나오고
이를 저 위 수식에 넣어서 값을 구해주면
P(D | +) = 0.99 * 0.001 / 0.01098
해서 대략 0.09016이라는 값이 나오게 됩니다.
따라서 우리는 양성인데 실제로 병이 있을 확률이
9% 밖에 되지 않는다는 사실을 알 수 있습니다.
베이즈 정리는 직관과 다를 수 있는 확률의 해석을
수학적으로 보정해 주는 도구입니다.
따라서 정확한 분석을 위해서 적절한 상황에
사용하여 예상한 확률과 실제 확률을 비교하여
유의미한 결과를 얻어내는 데 사용하시길 바라겠습니다.
이번 글에서는 조건부 확률과 베이즈 정리에
대해서 알아보았습니다.
다음 글에서는 정규분포에 대해서
알아보겠습니다.
'엑셀과 통계 (Excel&Statistic)' 카테고리의 다른 글
초보자를 위한 기초 엑셀 통계 (10) - 중심극한정리 (Central Limit Theorem) (0) | 2025.06.17 |
---|---|
초보자를 위한 기초 엑셀 통계 (9) - 정규 분포 (Normal Distribution) (0) | 2025.06.16 |
초보자를 위한 기초 엑셀 통계 (7) - 산점도 차트와 상관계수 활용법(Scatterplot & Correlation Coefficient) (0) | 2025.06.14 |
초보자를 위한 기초 엑셀 통계 (6) - 두 양적 변수 조합 분석 (0) | 2025.06.13 |
초보자를 위한 기초 엑셀 통계 (5) - 두 질적 변수 조합 분석 (4) | 2025.06.12 |