[데이터마이닝] 베이즈 정리 (Bayes Theorem)

타우루스 2025. 8. 30. 18:16

베이즈 정리는 처음에는 조금 낯설 수 있지만, 알고 보면 우리 생활 곳곳에서 세상을 더 똑똑하게 바라볼 수 있도록 도와주는 아주 유용한 도구랍니다. 스팸 메일을 걸러내거나, 의사가 병을 진단할 때도 베이즈 정리의 원리가 숨어있어요!

베이즈 정리 학습 계획 🚀

첫 번째 단계: 조건부 확률 이해하기
- 베이즈 정리를 배우기 위한 필수 기초 개념인 조건부 확률이 무엇인지 알아볼 거예요. '만약 ~라면, ~일 확률은?' 같은 질문에 답하는 방법을 배울 거랍니다.
두 번째 단계: 베이즈 정리의 구성 요소 파헤치기
- 베이즈 정리 공식 에 등장하는 각 기호(, , , )가 사전 확률, 사후 확률, 가능도 등 어떤 의미를 갖는지 구체적인 예시를 통해 살펴볼 거예요.
세 번째 단계: 실생활 예제로 베이즈 정리 적용하기
- 질병 진단 키트와 같은 실제 예제를 통해 베이즈 정리를 직접 계산해 보면서, 새로운 정보가 어떻게 우리의 판단을 바꾸는지 체험해 볼 거예요.

1. 조건부 확률 이해하기

그럼 첫 번째 단계인 조건부 확률부터 시작해 보죠.

조건부 확률이란, 어떤 사건 B가 일어났다는 조건 하에서 다른 사건 A가 일어날 확률을 말해요. 기호로는 P(A|B)라고 쓰고, "B가 주어졌을 때 A의 확률"이라고 읽어요.

간단한 예를 들어볼게요.

상황: 바구니에 과일이 10개 있어요. (사과 🍎 3개, 빨간 사과 2개, 풋사과 1개 / 바나나 🍌 7개)

여기서 무작위로 과일 하나를 뽑는다고 해봐요.

그냥 사과를 뽑을 확률, 즉 P(사과)는 얼마일까요? 전체 10개 중에 3개가 사과니까 이겠죠.

그런데 만약 제가 과일 하나를 뽑고 나서 "이건 빨간색 과일이야!"라는 새로운 정보(조건)를 드렸다고 상상해 보세요.

이제 이 과일이 사과일 확률, 즉 P(사과|빨간색)는 얼마일까요?
- '빨간색'이라는 조건이 생겼으니, 우리는 더 이상 10개의 전체 과일을 생각할 필요가 없어요. 우리의 관심사는 이제 '빨간 과일'들로 좁혀졌어요.
- 빨간 과일은 '빨간 사과' 2개뿐이죠.
- 이 '빨간 과일' 중에서 사과는 2개 모두 해당되네요.
- 따라서 빨간 과일이라는 조건 하에 사과일 확률은 , 즉 100%가 됩니다!

이처럼 새로운 정보(조건)가 주어지면 확률이 어떻게 변하는지를 다루는 것이 바로 조건부 확률의 핵심이에요! 우리가 고려해야 할 전체 경우의 수가 줄어드는 거죠.

아래 도식을 보면 더 쉽게 이해할 수 있어요. 전체 과일 중에서 '빨간색'이라는 조건이 어떻게 전체의 범위를 좁혀주는지 보여준답니다.

2. 베이즈 정리의 구성 요소 🔬

베이즈 정리 공식은 이렇게 생겼죠.

마치 암호처럼 보이지만, 각 기호가 어떤 역할을 하는지 알면 금방 이해할 수 있어요. '어떤 병에 걸렸을 확률'을 예로 들어서 각 구성 요소를 살펴볼게요.

: 사전 확률 (Prior Probability)
- 의미: 새로운 정보(B)를 알기 전에 우리가 이미 알고 있는 사건 A의 확률이에요. 즉, 우리의 '기존 믿음' 또는 '사전 지식'이라고 할 수 있죠.
- 예시: 특정 병(A)의 유병률. 우리나라 국민 1,000명 중 1명이 이 병에 걸린다고 알려져 있다면, 이 됩니다. 어떤 검사도 받기 전에, 내가 이 병에 걸렸을 확률은 0.1%라고 생각하는 거죠.
: 가능도 또는 우도 (Likelihood)
- 의미: 사건 A가 사실일 때, 새로운 정보(B)가 관찰될 확률이에요.
- 예시: 이 병에 실제로 걸린 사람(A)이 검사를 받았을 때, '양성' 판정(B)을 받을 확률을 의미해요. 만약 이 검사의 정확도가 99%라면, 가 됩니다.
: 증거 (Evidence)
- 의미: 새로운 정보(B) 자체의 확률이에요. 즉, 내가 병에 걸렸든 안 걸렸든 상관없이, 검사 결과가 '양성'으로 나올 전체 확률을 말해요.
- 계산이 조금 복잡할 수 있어요. (병에 걸린 사람이 양성 판정을 받을 확률) + (병에 걸리지 않은 사람이 양성 판정을 받을 확률)을 모두 더해야 하거든요. 이 부분은 세 번째 단계에서 자세히 다룰 테니 지금은 '양성 판정이 나올 총 확률' 정도로만 이해하고 넘어가도 괜찮아요!
: 사후 확률 (Posterior Probability)
- 의미: 새로운 정보(B)를 알고 난 후의 사건 A의 확률. 이것이 바로 베이즈 정리를 통해 우리가 최종적으로 구하고 싶은 값이에요! 기존의 믿음()이 새로운 증거()를 만났을 때 어떻게 '업데이트' 되는지를 보여주죠.
- 예시: 내가 검사에서 '양성' 판정(B)을 받았을 때, 실제로 이 병에 걸렸을(A) 확률을 의미해요.

핵심 정리

베이즈 정리는 나의 기존 믿음(사전 확률)에 새로운 증거의 힘(가능도/증거)을 반영하여 더 합리적인 새로운 믿음(사후 확률)으로 업데이트하는 과정이에요!

시나리오 퀴즈 🕵️‍♀️

어느 가게에 도둑이 들었어요! 경찰은 목격자의 증언("범인은 파란색 옷을 입고 있었어요!")을 확보했습니다.

A: 이 마을의 주민 '철수'가 범인일 사건
B: "범인은 파란 옷을 입었다"는 목격자의 증언

여기서,

경찰이 목격자를 만나기 전에, 단순히 철수가 범인일 것이라고 생각하는 확률은 무엇에 해당할까요?
만약 철수가 범인이라면, 그가 파란 옷을 입고 있었을 확률은 무엇에 해당할까요?
"파란 옷을 입었다"는 증언을 들은 후에, 철수가 범인일 확률은 무엇에 해당할까요?

정답 :

(사전 확률): 목격자의 증언이라는 새로운 정보를 얻기 전의 믿음이므로 사전 확률이 맞습니다.
(가능도): '철수가 범인이라면'이라는 가정 하에서 '파란 옷'이라는 증거가 나타날 확률이므로 가능도가 맞습니다.
(사후 확률): '파란 옷'이라는 증거를 얻은 후에 '철수가 범인일 확률'로 믿음이 업데이트되었으므로 사후 확률이 맞습니다.

3. 실생활 예제로 베이즈 정리 적용하기 💊

가장 대표적인 예제인 '질병 진단' 문제에 베이즈 정리를 적용해 보겠습니다. 이 문제를 풀고 나면, 99% 정확도의 검사 결과도 섣불리 믿어서는 안 된다는 사실을 알게 될 거예요!

상황 : 어떤 희귀병 T가 있습니다. 이 병에 걸릴 확률은 0.1%라고 알려져 있습니다. (1,000명 중 1명꼴) 이 병을 진단하는 매우 정확한 시약(검사)이 개발되었습니다.

이 시약은 병에 걸린 사람(T)을 양성(+)으로 진단할 확률이 99%입니다. (민감도)
병에 걸리지 않은 사람(T')을 음성(-)으로 진단할 확률도 98%입니다. (특이도)
- (뒤집어 말하면, 병에 걸리지 않은 사람을 양성(+)으로 잘못 진단할 확률은 2%라는 뜻이죠. - 위양성률)

문제 : 어느 날, 당신이 이 검사를 받았고 결과는 '양성(+)' 이었습니다. 그렇다면 당신이 정말로 이 희귀병 T에 걸렸을 확률()은 얼마일까요?

직관적으로는 검사 정확도가 99%니까 내가 병에 걸렸을 확률도 99%에 가까울 것이라고 생각하기 쉬워요. 과연 그럴까요? 베이즈 정리로 차근차근 계산해 봅시다.

1. 우리가 아는 정보 정리하기

사전 확률 : (검사 전) 내가 병 T에 걸렸을 확률 =
가능도 : (병에 걸렸을 때) 양성으로 나올 확률 =
병에 걸리지 않았을 확률 :
병에 걸리지 않았는데 양성으로 나올 확률 : 100-98 = 2%

2. 베이즈 공식에 대입하기

우리가 구하고 싶은 값은 입니다. 공식은 다음과 같죠.

여기서 분모인 P(+)는 '양성이 나올 총 확률'이에요. 이 값은 아래 두 경우를 더해서 구할 수 있어요.

실제로 병에 걸린 사람이 양성 판정을 받는 경우:
병에 걸리지 않았지만 양성 판정을 받는 경우(오진):

계산해 보면,

이제 모든 재료가 준비됐으니, 최종 확률을 계산해 봅시다!

P(T∣+) = 0.99 x 0.001 / 0.02097 ≈ 0.0472

3. 결과 확인 및 해석

결과를 보니 어떤가요? 양성 판정을 받았음에도 불구하고, 실제로 병에 걸렸을 확률은 약 4.7% 밖에 되지 않아요! 99%와는 정말 큰 차이죠.

왜 이런 결과가 나왔을까요? 바로 사전 확률 P(T)이 0.1%로 매우 낮기 때문입니다.

병 자체가 워낙 희귀하다 보니, 건강한 사람들(99.9%) 중에서 오진(2%)으로 양성이 나오는 사람의 수가, 실제로 병에 걸린 소수의 사람(0.1%) 중에서 양성이 나오는 사람의 수보다 훨씬 많아지는 현상이 발생하는 거죠.

이 개념을 시각적으로 이해하면 훨씬 와닿을 거예요. 10만 명의 사람이 검사를 받는다고 상상해 봅시다.

전체 '양성' 판정자 중에서 실제 환자가 얼마나 적은 비율을 차지하는지 한눈에 볼 수 있는 원그래프에요.

최종 퀴즈 🧠

스팸 메일 필터가 베이즈 정리를 사용하는 대표적인 예시 중 하나랍니다. 아래 상황을 읽고 문제를 풀어보세요!

상황

일반적으로 받은 이메일이 스팸(A)일 확률은 20%라고 합니다. ()
스팸 메일의 50%는 '당첨'이라는 단어(B)를 포함하고 있습니다. ()
정상 메일 중에서는 단 1%만이 '당첨'이라는 단어(B)를 포함합니다. ()

문제 어느 날 '당첨'이라는 단어가 포함된 이메일을 한 통 받았습니다. 이 이메일이 실제로 스팸일 확률()은 얼마일까요?

① 약 20% ② 약 51% ③ 약 75% ④ 약 93%

정답 : ④ 약 93%

왜 이렇게 확률이 확 뛰어오르는지 함께 풀이 과정을 살펴볼까요?

퀴즈 풀이 🧐

우리가 구하고 싶은 것은 입니다.

1. '증거'의 확률 계산하기

먼저 '당첨'이라는 단어가 포함된 이메일이 올 전체 확률을 구해야 해요.

스팸이면서 '당첨'이 포함될 확률:
정상 메일이면서 '당첨'이 포함될 확률:

두 경우를 더하면, 이 됩니다.

2. 베이즈 공식으로 최종 확률 계산하기

이제 모든 재료를 공식에 넣으면 됩니다.

P(′당첨′)

P(스팸∣′당첨′) = 0.5 x 0.2 / 0.108 ≈ 0.926

따라서 확률은 약 93%가 됩니다! '당첨'이라는 단어가 스팸 메일의 강력한 증거가 되기 때문에, 기존의 20%라는 믿음이 93%로 크게 업데이트된 것이죠.

그런데, 스팸이면서 '당첨'이 포함될 확률을 구하기 위해 0.5에 0.2를 곱할까요?

P('당첨' | 스팸)은 "스팸이면서 '당첨'이 포함될 확률"이 아니라, "어떤 이메일이 스팸이라는 것을 이미 알고 있을 때(조건), 그 스팸 메일 안에 '당첨'이라는 단어가 있을 확률"을 의미해요.

둘은 미묘하지만 아주 중요한 차이가 있습니다.

더 쉽게 이해할 수 있도록 100개의 이메일이 있다고 상상해 볼게요.

1) 전체 이메일 분류하기

우리는 이메일이 스팸일 확률, 즉 P(스팸)이 20%(0.2)라는 것을 알고 있어요.

따라서 100개의 이메일 중 20개는 스팸이고, 나머지 80개는 정상 메일일 거예요.

2) 스팸 메일 안에서 '당첨' 찾기

이제 스팸 메일 20개만 따로 떼어놓고 볼게요.

P('당첨' | 스팸)이 50%(0.5)라는 말은, 이 스팸 메일 20개 중에서 50%에 '당첨'이라는 단어가 들어있다는 뜻이에요.

즉, 개.
스팸 메일 중 10개는 '당첨'을 포함하고, 나머지 10개는 포함하지 않아요.

3) 왜 곱셈을 해야 할까?

이제 원래 질문으로 돌아가 보죠. 우리가 구하고 싶었던 것은 전체 이메일 100개 중에서 "스팸이면서 '당첨'을 포함"하는 이메일의 비율이에요.

위 그림에서 그 이메일은 몇 개였죠? 바로 10개였죠.

전체 100개 중 10개니까 확률은 입니다.

이 계산 과정을 한 번의 공식으로 합친 것이 바로 곱셈이에요.

(전체 이메일 스팸일 확률) ('당첨'이 있을 조건부 확률)
개

확률로만 계산하면,

이것이 바로 전체 이메일 중 10%가 "스팸이면서 '당첨'을 포함"한다는 의미가 됩니다.

간단히 말해,

: '스팸'이라는 울타리 안에서의 확률 (범위가 좁음).
: '전체 메일'이라는 더 큰 울타리 안에서 "스팸인 동시에 '당첨'을 포함"할 확률 (범위가 넓음).

그래서 우리는 전체 확률을 구하기 위해 두 확률을 곱해주는 거랍니다.

4. 베이즈 정리 총정리 📚

그럼 오늘 배운 내용을 마지막으로 정리해 볼까요?

1단계: 조건부 확률에서 시작하기 모든 것은 조건부 확률()에서 시작했어요. 이는 'B라는 새로운 정보가 주어졌을 때 A의 확률'을 의미하며, 베이지안 추론의 기초가 됩니다.
2단계: 베이즈 정리의 구성 요소 파악하기 우리는 베이즈 정리를 구성하는 네 주인공을 배웠어요.
- 사전 확률 : 나의 기존 믿음.
- 가능도 : 내 믿음이 맞다면, 이 증거가 나타날 확률.
- 사후 확률 : 증거를 본 후, 새롭게 업데이트된 나의 믿음.
- 증거 : 증거 자체의 총 확률 (사전 확률과 가능도를 이용해 계산)
3단계: 실생활 문제에 적용하며 원리 깨닫기 질병 진단과 스팸 필터 예제를 통해 우리는 중요한 사실을 깨달았어요. 바로 사전 확률이 아무리 낮더라도, 그것을 뒤집을 만큼 강력한 증거(가능도)가 나타나면 우리의 믿음(사후 확률)은 크게 변할 수 있다는 것입니다. 베이즈 정리는 이 과정을 수학적으로 명확하게 계산하는 방법이죠.

저작자표시 비영리 변경금지 (새창열림)

'DB' 카테고리의 다른 글

[Two-way Join] 정렬병합조인 (Sort-Merge Join) (2)	2025.09.14
[Two-way Join] 중첩루프조인 (Nested Loop Join) (0)	2025.09.13
[빅데이터] HDFS (Hadoop Distributed File System) (3)	2025.08.30
[동시성제어] 다중단위 로킹 규약 (Multiple Granularity Locking) (3)	2025.08.30
[관계대수] 디비전 (3)	2025.08.30

현재글[데이터마이닝] 베이즈 정리 (Bayes Theorem)

타우루스

이 블로그의 일부 내용은 AI 도구의 도움을 받아 작성되었으며, 정보의 정확성을 위해 블로그 운영자가 직접 검토하고 수정했습니다.

ai 테스트, 상관서브쿼리, 데이터베이스, 딥러닝, 중첩루프조인, AI agent, 조인, 함수종속, nested loop join, 감리, 디자인패턴, 정보시스템감리사, 소프트웨어공학, AI, 정보처리기사, 객체지향, 빅데이터, 보안, Solid, 정보관리기술사,

Today :
Yesterday :

타우루스