지난번 Z-score에 이어서
이번 글에서는 두 질적 변수가 존재할때
이를 어떠한 방법으로 분석할 수 있는지에
대해서 알아보겠습니다.
만약에 두 변수가 존재한다면
두 가지 역할이 존재할 것 입니다.
하나는 결과(Outcome) 그리고
나머지 하나는 설명 변수(Explanatory Variable)가
존재합니다.
결과 변수는 우리가 관심을 가지고
이해하려고 하는 대상입니다.
설명 변수는 결과 변수의 패턴을
이해하는데 도움을 주기를 기대하는
변수입니다.
예를 들어 성별로 나누어진 흡연자 데이터가
있다고 생각해봅시다.
이 데이터에서 성별과 흡연자의 연관성을
알아내고 싶다고 생각할때
결과 변수는 흡연이 되고
설명 변수는 성별이 됩니다.
그럼 이렇게 두 가지 변수들이 존재할때
그 변수들이 모두 질적변수(Categorical)일때
그 데이터를 분석하는 방법을 알아보겠습니다.
두 질적 변수 조합의 분석
위 예시로 아래 간단한 엑셀 파일을
만들어서 진행해보도록 하겠습니다.
위 엑셀 파일에는 성별과 흡연 유뮤로 나누어진
랜덤 그룹이 있습니다.
성별의 분포를 통해 흡연자의 분포를 설명하는
것을 도우려고 한다고 가정해봅시다.
우선 각 항목이 몇 프로의 비율을
차지하는지 알아보겠습니다.
우선 남자이면서 흡연을 하는 사람들의 비율은
남자 전체 57명 중에 20명 대략 35.09%이고
남자이면서 흡연을 하지 않는 사람들의 비율은
남자 전체 57명 중에 37명 대략 64.91%입니다.
그럼 여자이면서 흡연을 하는 사람들의 비율은
여자 전체 35명 중에 8명 대략 22.86%이고
여자이면서 흡연을 하지 않는 사람들의 비율은
여자 전체 35명 중에 27명 대략 77.14%입니다.
마지막으로 전체 인원중에 흡연자의 비율은
92명중에 28명 30.43%이고
흡연을 하지 않는 사람의 비율은
92명중에 64명 69.57%입니다.
엑셀에서 정리하면 아래와 같은 표를 얻을 수
있습니다.
우선 비율의 차이를 한눈에 알아보기 쉽게
바 차트를 하나 생성하도록 하겠습니다.
아래와 같이 보기 편한 바 차트를 만들어주면
남성중에 흡연을 하는 사람의 비율이
여성중에 흡연을 하는 사람의 비율보다
높은 것을 쉽게 확인할 수 있습니다.
여기서 확대 해석하는 것을 상당히
주의해야합니다.
저 그래프와 표만으로 인과관계를
판단할 수는 없습니다. 단지 연관성을
알아보는 과정일뿐 입니다.
쉽게 설명하자면 저 그래프와 표만 보고
남자니까 흡연자 비율이 높아라고 표현하는 것은
적절하지 않습니다.
하지만 그 연관성이 우리가 예측한 방향과
일치할 경우에 우리는 증거는 부족하지만
인과관계가 있을지도 모르네? 라고 추측할 수
있습니다.
상대위험도(Relative Risk) 와 오즈(Odds Ratio)
그럼 여기서 두 가지 개념을 더 소개해보도록
하겠습니다.
먼저 상대위험도(Relative Risk)는
두 집단(노출 / 비노출)에서 어떤 사건이 발생할
확률을 비교한 값입니다.
RR = 노출군에서 사건 발생 확률 / 비노출군에서 사건 발생 확률
위 예시에서 비교해보자면
남자인데 흡연을 할 확률은 = 0.3509
여자인데 흡연을 할 확률은 = 0.2286
Relative Risk = 0.3509 / 0.2286 = 1.535
입니다.
따라서 남자가 흡연을 할 확율이 여자보다
1.535배 더 높다라고 표현할 수 있습니다.
오즈(Odds Ratio)는
사건이 발생할 확률과 발생하지 않을 확률의 비율
입니다.
Odds = 사건 발생 확률 / (1 - 사건 발생 확률)
위 예시에서 비교해보자면
남자인데 흡연을 하는 오즈 = (20/57) / (37/57) = 20/37 = 0.5405
여자인데 흡연을 하는 오즈 = (8/35) / (27/35) = 8/27 = 0.2963
남자와 여자의 Odds의 비율(Ratio)를 살펴보면
0.5405 / 0.2963 = 1.824 가 나오게되고
남성은 여성보다 흡연할 확률이 1.824배 높다
라고 표현할 수 있습니다.
그럼 여기서 Odds Ratio 와 Relative Risk의
차이가 뭐지? 라고 생각하실 수 있습니다.
우선 Odds Ratio의 수학적 의미는
발생 : 비발생의 비율이고
Relative Risk는 단순히 발생확률에만
집중합니다.
따라서 Relative Risk가 직관적으로 해석하기 용이하고
Odds Ratio는 직관적으로 해석하기 쉽지 않습니다.
두 값의 장단점이 있기 때문에
상황에 따라 적절한 값을 사용하는 것이 중요합니다.
"A가 발생할 확률이 B보다 10배 이상이다."
라는 문구만 보면 A가 발생할 확률이 굉장히 높아보입니다.
하지만 A가 발생할 확률이 0.1%이고 B가 발생할 확률이 0.01%
라고 가정해도 Relative Risk는 10의 값을 가집니다.
따라서 아주 드물게 일어나는 사건에서도
극단적으로 보일 수 있으므로 Relative Risk의
사용에 주의해야합니다.
Odds Ratio같은 경우에는 일반적인 사건일때
과대평가되는 경향이 있습니다.
자 아래 예시를 보겠습니다.
전체 수가 100인 그룹 A와 B가 있다고
가정해보겠습니다.
그룹A(노출)의 사건 발생수 80 / 사건 미발생 20
그룹B(노출)의 사건 발생수 40 / 사건 미발생 60
이 상황에서
Relative Risk = 0.8/0.4 = 2로 2배라고
나오지만
Odd ratio는
A: 0.8 / 0.2 = 4.0
B: 0.4 / 0.6 = 0.6667
Odd ratio = 4.0 / 0.6667 -> 대략 6.0으로
나와서
실제로 발생확률은 2배차이지만
Odd Ratio는 6배라고 나오기 때문에
일반적인 사건에서 Odd Ratio를 사용하면
실제보다 과장되는 경향이 있습니다.
따라서 상황에 따라 두 값을 모두 제공하거나
한 가지 값을 잘 선택해서 사용하는 것이
왜곡없는 정확한 해석을 돕는다고 생각합니다.
이번 글에서는 두 질적 변수 조합의 활용에
대해서 알아보았습니다.
다음 글에서는 두 양적 변수 조합의 활용에
대해서 알아보겠습니다.
'엑셀과 통계 (Excel&Statistic)' 카테고리의 다른 글
초보자를 위한 기초 엑셀 통계 (7) - 산점도 차트와 상관계수 활용법(Scatterplot & Correlation Coefficient) (0) | 2025.06.14 |
---|---|
초보자를 위한 기초 엑셀 통계 (6) - 두 양적 변수 조합 분석 (0) | 2025.06.13 |
초보자를 위한 기초 엑셀 통계 (4) - Z-score (0) | 2025.06.11 |
초보자를 위한 기초 엑셀 통계 (3) - 양적 변수 활용 (Quantitative Variable) (3) | 2025.06.10 |
초보자를 위한 기초 엑셀 통계 (2) - 질적 변수 활용 (Categorical Variable) (0) | 2025.06.09 |