베이지안 적용: Prior Alpha, Beta
베이지안 엔진의 사전 확률(Prior) α/β 설정 원리와 자동 학습 로드맵
본 글은 EXAWin 사용자에게 시스템의 핵심인 베이지안 엔진 — 특히 사전 확률(Prior) / 설정의 원리와 자동 학습 로드맵 — 을 심도 있게 설명하기 위해 작성되었다. 도움말 화면에 담기엔 너무 깊고, 그렇다고 생략하기엔 너무 중요한 이야기다.

자동차를 운전하기 위해 엔진을 분해하고 조립할 필요는 없다. 하지만 엔진의 작동 원리를 이해하는 운전자는 자동차를 더 잘 다룬다. 가속 페달의 반응이 왜 그런지 알고, 경고등이 켜졌을 때 당황하지 않으며, 차의 한계와 가능성을 직관적으로 파악한다. EXAWin의 베이지안 엔진도 마찬가지다. 그 작동 원리를 이해하면, 시스템이 내놓는 숫자를 맹목적으로 따르는 것이 아니라 그 숫자가 왜 그런 값인지 납득하고, 시스템을 신뢰하며, 활용을 극대화할 수 있다.
이 글은 그 이해를 위한 여정이다.
EXAWin의 베이지안 엔진은 NSBI(Normalized Sequential Bayesian Inference) 모델을 사용한다. 이 엔진이 어떻게 기업의 형체 없는 자산 — 직관, 경험, 시장 감각 — 을 💡 Prior(사전 확률)라는 단단한 수학적 언어로 변환하고, 정성적 경험을 어떻게 정교한 수학적 언어로 치환하여 70년 전통의 통계학적 성과와 만나 스스로 진화하는 지능형 엔진으로 거듭나는지, 이제 그 이야기를 시작한다.
본 글을 읽기 전 혹은 읽은 후, EXAWin 베이지안 엔진의 전체 그림을 더 깊이 이해하고 싶다면 다음 시리즈를 함께 참고하기를 권한다. 왜냐하면 EXAWin의 베이지안 엔진은 아래 부록1,2,3 내용의 구조를 전제로해서 작동하기 때문이다:
- EXA 베이지안 추론: 영업의 보이지 않는 손, 60일의 도박 — 소설 형식을 빌어 EXAWin이 실제 영업 현장에서 어떻게 작동하는지를 생생하게 묘사한다. 한 영업 팀이 60일간의 프로젝트에서 시스템의 확률 예측에 기대어 의사결정을 내려가는 과정을 따라가다 보면, 아래 부록의 수학이 왜 필요한지 절로 체감하게 된다.
아래 부록 1-3은 위 소설에 등장하는 EXAWin 엔진의 내부를 해부한 기술 해설이다:
- 부록1. 베이지안 엔진: 불확실성을 관리하는 수학적 연금술 — 베타 분포와 이항 분포의 켤레 관계, 재귀적 베이지안 추정(Recursive Bayesian Estimation)의 아키텍처를 해부한다. NASA 칼만 필터와 동일한 계보의 실시간 학습 구조가 어떻게 영업 현장에 적용되는지 확인할 수 있다.
- 부록2. 침묵의 역설: 정보 엔트로피와 로그 가중치 기하학 — 비즈니스에서 가장 위험한 유령, '침묵(Silence)'을 엔트로피와 베버-페히너 법칙으로 수학화한다. 데이터가 없는 날에도 왜 확률이 변하는지, 그 정보 이론적 근거를 밝힌다.
- 부록3. 영업성공확률 의사결정시스템: 의사결정 임피던스, 임계값, 확신의 가속도 — 로그오즈(Log-odds) 축적과 시그모이드 보정을 통해, '수학적 확률'과 '심리적 확신' 사이의 간극을 메우는 의사결정 필터를 설계한다. 왜 51%라는 숫자가 결단하기에 부족한지, 그 구조적 이유를 제시한다.
프롤로그: 모든 예측은 편견에서 시작된다
"편견 없는 예측은 존재하지 않는다."
이 문장은 도발적으로 들릴 수 있지만, 현대 통계학의 가장 근본적인 합의 중 하나다. 18세기 영국의 장로교 목사 토머스 베이즈(Thomas Bayes, 1701-1761)가 남긴 유고 논문 한 편은, 인류가 불확실성과 마주하는 방식을 영원히 바꾸어 놓았다. 그의 핵심 통찰은 놀라울 정도로 단순했다: 우리가 이미 알고 있는 것(사전 믿음)과 새로 관찰한 것(데이터)을 결합하면, 더 나은 앎(사후 믿음)에 도달할 수 있다.
이 원리는 오늘날 스팸 필터, 자율주행, 신약 개발, 기상 예측, 그리고 금융 리스크 모델링에 이르기까지 현대 문명의 의사결정 엔진을 구동하는 보편적 프레임워크로 자리 잡았다. 그리고 이제, 영업 현장의 가장 어려운 질문 — "이 프로젝트, 성사될 수 있을까?" — 에 답하기 위해 같은 원리가 EXAWin의 심장부에서 맥박을 치고 있다.
이 글은 EXAWin의 베이지안 엔진이 어떻게 기업의 경험적 직관을 수학의 언어로 변환하고, 데이터가 축적됨에 따라 스스로 진화하는 지능형 시스템으로 작동하는지를, 그 이론적 뿌리부터 실무 적용까지 하나의 서사로 풀어낸다. 수식을 두려워할 필요는 없다. 모든 수식 앞에는 반드시 당신의 직관이 먼저 안내할 것이다.
1장. 베이즈 정리: 200년 된 가장 강력한 학습 공식
모든 이야기는 하나의 공식에서 시작된다. 베이즈 정리(Bayes' Theorem)는 "새로운 증거가 나타났을 때, 기존의 믿음을 어떻게 업데이트할 것인가?"라는 질문에 대한 수학적으로 유일하게 일관된 답이다.
여기서 각 요소는 영업 현장의 언어로 이렇게 번역된다:
| 수학 기호 | 영업 현장의 언어 | 의미 |
|---|---|---|
| Prior (사전 확률) | 데이터 없이, 과거 경험만으로 추정한 성공 가능성 | |
| Likelihood (가능도) | 현재 관찰된 영업 활동이 이 성공률 하에서 얼마나 설명되는가 | |
| Posterior (사후 확률) | 증거를 반영한 후의 업데이트된 성공 가능성 | |
| Evidence (증거) | 모든 가설을 고려한 데이터의 전체 확률 (정규화 상수) |
이 공식의 철학적 혁명성은 , 즉 Prior를 정당한 출발점으로 인정한다는 데 있다. 전통적 빈도주의 통계학(frequentist statistics)은 "데이터만이 말할 수 있다"고 주장하며 사전 지식의 개입을 거부했다. 하지만 현실의 의사결정자 — 의사, 판사, 투자자, 그리고 영업 책임자 — 는 데이터가 한 점도 없는 상황에서도 끊임없이 판단을 내려야 한다. 베이즈 정리는 이 현실을 수학적으로 포용한다.
1.1 순차적 학습: 어제의 결론이 오늘의 출발점
베이즈 정리의 가장 우아한 성질은 순차적 업데이트(sequential updating)가 가능하다는 것이다. 오늘의 사후 확률(Posterior)은 내일의 사전 확률(Prior)이 된다. 이 재귀적 구조가 EXAWin의 실시간 학습 엔진의 근간이다.
첫 번째 데이터 관찰 후:
두 번째 데이터 관찰 후:
번째 데이터까지 관찰 후:
이것이 의미하는 바는 명확하다. EXAWin은 영업팀의 매 활동(미팅, 제안, 데모)이 기록될 때마다 자동으로 성공 확률을 재계산한다. 시스템은 잠들지 않는 분석가처럼 증거를 먹고 자라며, 첫 번째 미팅의 결과부터 마지막 협상의 신호까지 단 하나의 정보도 버리지 않는다.
2장. 베타 분포: 확률의 확률을 다루는 도구
2.1 "성공률이 정확히 32.7%다"라고 말할 수 있는가?
현실에서 어떤 프로젝트의 성공률을 단일 숫자로 확정하는 것은 위험한 자기기만이다. 진실에 더 가까운 표현은 이렇다: "성공률이 대략 25%에서 40% 사이에 있을 것 같고, 30% 근처가 가장 그럴듯하다." 이처럼 확률 자체의 불확실성을 표현하는 데 특화된 수학적 도구가 바로 💡 베타 분포(Beta Distribution)이다.
베타 분포는 0과 1 사이의 값을 가지는 확률 변수를 모델링하기 위해 설계되었고, 두 개의 형태 파라미터(shape parameters) 와 에 의해 모양이 완전히 결정된다. 그 확률밀도함수(PDF)는 다음과 같다:
여기서 는 베타 함수(Beta function)로, 전체 확률이 1이 되도록 정규화하는 역할을 한다:
은 감마 함수로, 자연수 에 대해 이다.
이 수식의 겉모습에 당황할 필요는 없다. 핵심은 단 두 개의 숫자 와 로 "성공에 대한 믿음의 분포"를 완벽하게 기술할 수 있다는 사실이다.
2.2 α와 β의 직관적 해석: 가상의 실험 기록
와 를 이해하는 가장 직관적인 방법은 "아직 일어나지 않은 가상의 실험 결과"로 보는 것이다.
| 파라미터 | 비즈니스 해석 | 수학적 역할 |
|---|---|---|
| 과거에 "성공했다"고 간주하는 가상의 횟수 | 분포를 오른쪽(높은 확률)으로 밀어냄 | |
| 과거에 "실패했다"고 간주하는 가상의 횟수 | 분포를 왼쪽(낮은 확률)으로 밀어냄 | |
| 총 가상 실험 횟수 = 확신의 강도 | 분포를 뾰족하게(좁게) 만듦 |
이 해석에서 베타 분포의 핵심 통계량들이 자연스럽게 도출된다.
기대값(Mean) — 우리가 "가장 그럴듯하다"고 믿는 성공률:
분산(Variance) — 그 믿음이 얼마나 흔들리는가:
최빈값(Mode) — 분포의 꼭대기, 가장 가능성 높은 값 (일 때):
2.3 구체적 예시: 기업의 직관이 수식이 되는 순간
한 기업의 영업 이사가 이렇게 말한다고 해보자:
"우리 회사는 보통 프로젝트 5건 중 1건 정도 수주에 성공하고, 이 패턴은 꽤 일관적입니다."
이 한 마디의 직관에서 EXAWin은 두 개의 수치를 추출한다:
- 기대 성공률: (20%)
- 확신의 강도: 중간 정도 (아직 확고하진 않지만 경험에 기반)
이를 , 로 설정하면:
이 분산값 0.0145는 표준편차로 약 0.12, 즉 성공률의 불확실성이 대략 퍼센트포인트라는 뜻이다. "20%라고 믿지만, 8%에서 32% 사이 어딘가일 수도 있다"는 솔직한 자기 인식이 수식에 투영된 것이다.
만약 같은 20% 기대값이라도 확신이 더 강한 경우 — 예를 들어 수백 건의 과거 데이터가 있는 기업이라면 — , 으로 설정할 수 있다:
분산이 0.0145에서 0.0016으로 약 9배 줄어들었다. 같은 "20%"라는 믿음이지만, 후자는 훨씬 더 단단한 확신이다. 이것이 , 즉 "정보의 강도(Precision)"의 역할이다. 값이 클수록 분포는 뾰족해지고, 새로운 데이터 한 점의 영향력은 작아진다. 반대로 값이 작을수록 분포는 넓게 퍼지고, 시스템은 새 증거에 민감하게 반응한다.
3장. 켤레 사전 분포: 수학적 우아함이 실용성을 만나다
3.1 베타-이항 켤레 관계
베타 분포가 Prior로 선택된 것은 감상적 취향이 아니라 수학적 필연이다. 영업 프로젝트의 결과(성공/실패)는 이항 분포(Binomial Distribution)를 따른다. 그리고 베타 분포는 이항 분포의 💡 켤레 사전 분포(conjugate prior)이다. 이는 사전 분포와 사후 분포가 같은 분포 가족에 속한다는 뜻이며, 업데이트가 닫힌 형태(closed-form)로 이루어진다는 것을 의미한다.
번의 시행(영업 활동) 중 번 성공을 관찰했다고 하자. 이항 가능도는:
Prior가 일 때, 사후 분포는:
이것은 다시 베타 분포의 형태다:
이 결과의 우아함을 음미해보자. 관찰된 성공 횟수 는 에 더해지고, 실패 횟수 는 에 더해진다. 마치 가상의 과거 기록에 실제 경험치가 자연스럽게 누적되는 것과 같다.
3.2 업데이트의 역학: 사후 평균의 구조
업데이트된 성공률의 기대값을 풀어쓰면 흥미로운 구조가 드러난다:
이것을 가중 평균의 형태로 재구성할 수 있다:
이 공식은 EXAWin 엔진의 동작 원리를 단 한 줄로 요약한다:
- 데이터가 적을 때 (이 작을 때): Prior의 가중치가 크다 → 기업의 경험적 직관이 예측을 지배
- 데이터가 쌓일수록 (이 커질수록): 데이터의 가중치가 커진다 → 실제 관찰한 성공률이 예측을 지배
- 극한에서 (): 사후 평균 관찰 성공률 → Prior의 영향은 완전히 소멸
이것이 베이지안 시스템의 자기 교정 능력이다. 처음에 어떤 Prior를 설정하든, 충분한 데이터가 쌓이면 진실은 스스로 자신을 드러낸다. 이 성질을 통계학에서는 💡 사후 일치성(posterior consistency)이라 부르며, 이는 수학적으로 증명된 정리(theorem)이다.
4장. 70년의 추적: 경험적 베이즈 — 데이터가 스승을 넘어서는 순간
4.1 허버트 로빈스의 혁명적 질문 (1956)
1956년, 컬럼비아 대학교의 수리통계학자 허버트 로빈스(Herbert Robbins)가 제3회 버클리 통계학 심포지엄에서 발표한 논문 "An Empirical Bayes Approach to Statistics"는 통계학계에 조용한 혁명을 일으켰다.
그의 질문은 대담했다: "Prior를 주관적으로 설정하지 않고, 데이터 자체에서 Prior를 추정할 수는 없는가?"
이것은 베이지안과 빈도주의 사이의 수십 년간 이어진 철학적 논쟁에 대한 우회적이면서도 깊이 있는 해답이었다. 로빈스는 여러 관련 문제(related problems)가 동시에 존재할 때 — 예를 들어 한 기업이 동시에 수십 개의 영업 프로젝트를 관리하고 있을 때 — 개별 문제의 데이터를 합산하여 전체 집단의 구조적 패턴을 역추정할 수 있음을 보여주었다.
이 아이디어를 💡 경험적 베이즈(Empirical Bayes)라 부른다.
4.2 에프론과 모리스의 야구 이야기 (1975)
로빈스의 이론이 학계를 넘어 산업계의 주목을 받게 된 계기는 브래들리 에프론(Bradley Efron)과 칼 모리스(Carl Morris)의 1975년 논문 "Data Analysis Using Stein's Estimator and its Generalizations"이다.
그들은 1970년 메이저리그 시즌 초반 45타석의 성적만으로 시즌 전체 타율을 예측하는 문제를 다루었다. 놀랍게도, 각 선수의 개별 성적(45타석 타율)을 그대로 사용하는 것보다, 전체 선수 집단의 평균으로 "수축(shrinkage)"시킨 추정치가 시즌 종료 후 실제 타율에 더 가까웠다.
이 현상의 수학적 근거는 💡 제임스-스타인 추정량(James-Stein Estimator)이다:
여기서 는 전체 평균, 는 동시에 추정하는 파라미터의 수(), 는 개별 추정의 분산이다. 이 추정량은 개별 최대우도추정량(MLE)보다 항상 더 작은 평균제곱오차(MSE)를 가진다. 이것을 스타인의 역설(Stein's paradox)이라 부르며, 1961년 찰스 스타인(Charles Stein)이 증명한 이래 현대 통계학의 가장 반직관적이면서도 강력한 결과 중 하나로 남아 있다.
EXAWin에 대한 시사점은 명확하다: 개별 프로젝트의 성공률을 그 프로젝트의 데이터만으로 추정하는 것보다, 기업 전체의 프로젝트 풀에서 구조적 패턴을 추출하여 각 프로젝트의 추정치를 보정하는 것이 수학적으로 보장된 더 나은 전략이다.
4.3 적률법에 의한 파라미터 역추정
경험적 베이즈의 핵심 기법 중 하나는 💡 적률법(Method of Moments)을 이용한 하이퍼파라미터(hyperparameter) 추정이다. 수십 개의 프로젝트가 종료되고 실제 성공률의 분포가 관찰되면, 그 분포의 평균과 분산으로부터 베타 분포의 파라미터를 역으로 계산할 수 있다.
관찰된 성공률들의 표본 평균을 , 표본 분산을 이라 하면:
이 수식이 보여주는 통찰은 분산()에 대한 통제에 있다.
먼저, 의 구조를 해석해 보자:
- 분산이 작으면 (모든 프로젝트가 비슷한 성공 패턴을 보이면): 가 커짐 → 강한 Prior → 시스템이 기업의 패턴에 확신을 가짐
- 분산이 크면 (프로젝트마다 결과가 들쑥날쑥이면): 가 작아짐 → 약한 Prior → 시스템이 각 프로젝트의 개별 데이터에 더 민감하게 반응
이 자동 조절 메커니즘은 기업의 데이터가 들려주는 목소리에 시스템이 스스로 귀를 기울이는 과정이다. "우리 기업의 영업 패턴은 일관적이니 과거 경험을 더 믿겠다" 또는 "프로젝트마다 결과가 워낙 다르니 각 건의 현장 데이터를 더 존중하겠다"는 전략적 판단을 시스템이 자동으로 내리는 것이다.
4.4 최대우도추정법(MLE)에 의한 정밀 추정
적률법보다 통계적으로 더 효율적인(즉, 더 적은 데이터로 더 정확한 추정이 가능한) 방법은 💡 최대우도추정법(Maximum Likelihood Estimation, MLE)이다.
개의 프로젝트에서 각각 번의 시행 중 번 성공을 관찰했다면, 주변 우도(marginal likelihood)는:
여기서 은 베타 함수다. 이 우도를 최대화하는 , 를 구하면 데이터에 가장 잘 맞는 Prior를 얻는다. 로그 우도를 전개하면:
이를 디감마 함수(digamma function) 를 이용하여 미분하면:
이 연립방정식은 해석적 해가 존재하지 않아 뉴턴-랩슨(Newton-Raphson) 또는 고정점 반복법(fixed-point iteration)으로 수치적으로 풀어야 한다. EXAWin은 데이터가 충분히 축적된 Phase 3 단계에서 이 MLE 추정을 자동으로 실행하여, 적률법 추정치를 정밀하게 보정한다.
5장. EXAWin의 지능형 진화 로드맵
데이터는 쌓일수록 생명력을 얻는다. EXAWin은 기업의 데이터 성숙도에 따라 파라미터 학습 전략을 5단계(Phase)로 나누어 실행한다. 이것은 임의적 구분이 아니라, 통계학의 💡 소수의 법칙(law of small numbers)에서 💡 큰 수의 법칙(law of large numbers)으로의 전환 과정을 반영하는 설계이다.
핵심 원칙이 하나 있다: Won과 Lost 중 적은 쪽(min)이 전체 신뢰 등급을 결정한다. Won이 50건이어도 Lost가 3건뿐이라면, "Lost 패턴"을 학습할 근거가 부족하다. 축구에서 승리한 경기만 분석하고 패배한 경기를 무시한 채 전술을 논하는 것은 코치의 자격이 아니다 — 같은 이치다.
| Phase | 등급 | min(Won, Lost) | 학습 범위 | 설계 근거 |
|---|---|---|---|---|
| ❌ Phase 1 | 불가 | < 5 | 분석 자체 불가 | 이항 검정에서 이면 기각력(power)이 사실상 0 |
| 🟠 Phase 2 | 최소 | 5 ~ 9 | 표시만 (Apply 잠금) | 방향성 참조만 가능, 과적합 위험 극대 |
| ✅ Phase 3 | 보통 | 10 ~ 19 | Impact, T, k + MCMC | 중심극한정리 작동 개시, MCMC 실행 가능(수렴 불안정 가능성) |
| 🟢 Phase 4 | 양호 | 20 ~ 49 | 전체 (Dampening, Silence 포함) + MCMC | 대부분 파라미터 신뢰도 높음 |
| 🔵 Phase 5 | 우수 | 50+ | 전체 + MCMC 안정 수렴 | Grid Search 수렴, MCMC 사후분포 신뢰도 최대 |
이하에서 각 Phase의 통계적 근거와 EXAWin의 동작을 해설하되, 완전한 기술 해부는 Auto-Tuner 해부 시리즈를 참조하기 바란다:
Phase 1. 분석 불가 (min < 5)
"아직 눈을 뜨지 못한 엔진"Won 또는 Lost가 5건 미만일 때, 표본 통계량은 극도로 불안정하다. 3건 시도에 2건 성공하면 표본 성공률은 66.7%가 되지만, 이것으로 기업의 구조적 승률이 67%라고 결론 내리는 것은 동전을 세 번 던져 두 번 앞면이 나왔다고 "이 동전은 앞면이 나올 확률이 67%"라고 선언하는 것과 같다.
이 시기에 EXAWin은:
- 기업의 역사적 성공률과 산업 벤치마크를 바탕으로 관리자가 직접 , 를 설정
- 시스템은 설정된 Prior의 의미를 시각적으로 보여줌 (기대값, 신뢰구간)
- 자동 분석 없음 — 인간의 판단을 존중하는 시기
Phase 2. 방향성 참조 (min 5 ~ 9)
"눈을 뜨기 시작한 엔진 — 그러나 아직 손은 묶여 있다"최소 데이터 요건(Won ≥ 5 AND Lost ≥ 5)이 충족되면, Auto-Tuner가 처음으로 분석 결과를 화면에 표시하기 시작한다. Signal Lift, Impact 추천값, T/k 추천값이 산출되지만, Apply 버튼은 잠긴다. 이 시기의 추정치는 과적합(overfitting) 위험이 극도로 높기 때문이다.
에서의 이항 비율 추정의 95% 신뢰구간 폭은 약 포인트에 달한다. "5전 3승이면 성공률 60%"라고 말하는 것은, 실제 참값이 17%에서 93% 사이 어디에나 있을 수 있다는 뜻이다 — 예측이라 부르기엔 너무 넓은 그물이다.
Phase 3. 주요 파라미터 조정 (min 10 ~ 19)
"판별의 눈이 열리는 시기"min(Won, Lost) ≥ 10이 달성되면, 중심극한정리(CLT)에 의해 표본 평균의 분포가 정규분포에 수렴하기 시작한다. 이 시점부터 적률법 추정이 통계적으로 정당하며, Auto-Tuner는 Impact, T, k 세 가지 핵심 파라미터의 추천값을 실제로 적용할 수 있도록 Apply를 해제한다.
단, Dampening과 Silence Penalty처럼 미세 조정 파라미터는 아직 조정하지 않는다. 이 파라미터들의 최적값을 분리하려면 더 풍부한 데이터가 필요하다 — 적은 데이터로 너무 많은 파라미터를 동시에 움직이면 과적합의 늪에 빠진다.
Phase 4. 전체 파라미터 해금 (min 20 ~ 49)
"엔진이 자기 연료를 조절하기 시작하다"20건 이상의 데이터가 양쪽 모두에 축적되면, 큰 수의 법칙이 본격적으로 작동하기 시작한다. 이 시기에 EXAWin은 나머지 두 파라미터 — Dampening(동시 시그널의 감쇄 비율)과 Silence Penalty(침묵 페널티 강도) — 까지 Grid Search로 최적화한다.
또한 적률법 추정치와 Grid Search 최적치를 교차 검증(K-fold Cross-Validation)으로 상호 대조한다. 학습 분리도와 검증 분리도의 격차(Gap)가 크면 과적합 경고를 발행하고, Gap이 작으면 추천의 일반화 가능성이 높다고 판단한다.
Phase 5. 통계적 안정 + MCMC 안정 수렴 (min 50+)
"완숙한 엔진의 자기 통치"50건 이상이 양쪽 모두에 축적되면, MLE 추정이 점근적 효율성(asymptotic efficiency)을 달성한다. 이는 MLE보다 분산이 작은 불편추정량(unbiased estimator)이 존재하지 않는다는 💡 크래메르-라오 하한(Cramer-Rao Lower Bound)에 의해 보장된다:
여기서 는 피셔 정보(Fisher Information)이다.
이 Phase에서 EXAWin은 Grid Search의 점추정(point estimate)을 넘어, 💡 MCMC(Markov Chain Monte Carlo)로 파라미터의 사후분포(posterior distribution) 전체를 추정한다. MCMC는 Phase 3부터 실행되지만, Phase 5에서 데이터가 충분하여 수렴이 가장 안정적이다. Emcee(Affine-Invariant Ensemble Sampler)를 사용하여 (N+2)차원 파라미터 공간 — 개의 Impact 값 + Dampening + Silence Penalty — 의 결합 사후분포를 샘플링하고, 각 파라미터에 대해 HDI(Highest Density Interval)를 제공한다( = No Signal을 제외한 Impact 타입 수, 표준 구성 시 8).
Grid Search가 "최적의 한 점"을 찾는다면, MCMC는 "그 점 주변의 불확실성 지형"을 지도로 그려준다. R̂(수렴 진단)이 1.0에 가까우면 체인이 수렴했다고 판단하고, HDI가 좁으면 해당 파라미터에 대한 데이터의 확신이 강하다는 뜻이다.
이 시기에 EXAWin은:
- Grid Search 점추정 + MCMC 구간추정을 동시에 제공
- K-fold 교차검증으로 과적합 감시
- ROC AUC로 전체 판별력 보고
- 적률법으로 Prior , 추천값 제공 (인간 승인 필수, 자동 적용 없음)
- 데이터 주도 — 그러나 최종 적용은 여전히 인간이 결정한다
6장. 증거 성숙도: 예측에 무게가 실리는 과정
6.1 정보의 단조 증가(Monotonic Accumulation of Evidence)
프로젝트의 생애주기에 걸쳐 관찰되는 데이터()가 증가할수록, 사후 분포의 총 파라미터 합 은 단조 증가한다. 이는 사후 분포의 분산이 단조 감소함을 의미한다:
이 증가하면 분모가 지배적으로 커지므로:
이것은 베이지안 엔진이 단순한 계산기를 넘어, 증거가 쌓일수록 확신을 더해가는 "학습하는 유기체"임을 수학적으로 증명한다.
6.2 세 단계의 성장
| 단계 | 상태 | 설명 |
|---|---|---|
| 🌱 Early Stage | 정보가 부족하여 외부의 작은 자극에도 민감하게 반응. 확률 예측이 넓은 범위에서 변동한다. | |
| 🌿 Growing Stage | 데이터의 방향성이 잡히며 예측이 묵직한 중심을 잡기 시작한다. 신뢰구간이 좁아진다. | |
| 🌳 Mature Stage | 압도적인 증거가 확보되어 웬만한 소음(noise)에는 흔들리지 않는 "전문가적 신뢰도"를 유지한다. |
각 단계에서 95% 신뢰구간의 폭을 베타 분포의 분위수 함수로 계산하면:
Early Stage에서 이 폭이 0.4 이상(40 퍼센트포인트)이었다면, Mature Stage에서는 0.1 미만(10 퍼센트포인트)으로 수렴하는 것이 일반적이다. 이것이 데이터가 확신의 무게를 더해가는 과정이다.
7장. 이론적 보증: 왜 이 시스템을 믿어도 되는가
7.1 사후 일치성 정리 (Posterior Consistency Theorem)
베이지안 추론에 대한 가장 빈번한 비판은 "Prior가 주관적이지 않느냐?"는 것이다. 이 비판에 대한 수학적 답변은 💡 사후 일치성(posterior consistency)이다.
도넨스코르와 프리드먼(Doob, 1949; Schwartz, 1965; Ghosh and Ramamoorthi, 2003)의 연구에 의해 확립된 이 정리는, 참값 의 모든 열린 근방 에 대해:
즉, Prior를 어디에 설정하든(극단적으로 편향된 Prior가 아닌 한), 데이터가 충분히 쌓이면 사후 분포는 진실에 확률 1로 수렴한다.이것은 "처음에 20%로 설정하든 50%로 설정하든, 30건의 프로젝트가 끝나면 시스템은 같은 결론에 도달한다"는 것을 의미한다. Prior는 출발점이지 종착점이 아니다. 이 수학적 보증이 있기에 EXAWin은 기업의 초기 직관적 설정을 두려움 없이 받아들일 수 있다.
7.2 최적성 보증: 빈도주의적 리스크에서도 우월
경험적 베이즈 추정량은 베이지안 프레임워크에서뿐만 아니라, 빈도주의적 관점에서도 우월함이 증명되어 있다. 로빈스(1956)와 에프론-모리스(1975)의 결과를 종합하면: 인 동시 추정 문제에서 경험적 베이즈 수축 추정량의 빈도주의적 리스크(frequentist risk)는 MLE의 리스크보다 항상 작다:
이 부등식은 모든 값에 대해 성립한다(admissibility). 3개 이상의 프로젝트를 동시에 관리하는 모든 기업에서 경험적 베이즈가 개별 추정보다 보편적으로 우월하다는 것이다.
에필로그: 확신의 무게가 달라지는 순간
돌아보면, EXAWin의 베이지안 Prior 설정은 단순히 "숫자 두 개를 입력하는 화면"이 아니다.
그것은 기업이 수십 년간 시장에서 체득한 고유의 직관과 경험적 승률이라는, 형체 없지만 실재하는 자산을 가장 엄밀한 수학적 언어로 기록하는 행위다. 그리고 그 기록 위에 매일의 영업 활동이 새로운 증거로 쌓여가며, 시스템은 인간의 초기 설정을 존중하면서도, 궁극적으로는 데이터의 목소리에 의해 스스로를 교정해 나간다.
이 과정이 논리적으로, 이론적으로, 그리고 실증적으로 정당하다는 확신의 무게는 한두 사람의 천재적 직관에서 온 것이 아니다. 1763년 베이즈의 유고 논문에서 시작하여, 1956년 로빈스의 경험적 베이즈, 1961년 스타인의 역설, 1975년 에프론-모리스의 수축 추정, 2003년 고쉬-라마무르시의 사후 일치성 정리에 이르기까지 — 260년에 걸친 글로벌 학계의 집단 지성이 한 줄 한 줄 증명해온 수학적 보증 위에 서 있다.
EXAWin의 와 를 설정하는 순간, 사용자는 이 260년의 지적 유산과 조용히 악수하는 것이다.
참고 문헌
Bayes, T. (1763). "An Essay towards Solving a Problem in the Doctrine of Chances." Philosophical Transactions of the Royal Society of London, 53, 370-418.
Robbins, H. (1956). "An Empirical Bayes Approach to Statistics." Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 1, 157-163.
Stein, C. (1956). "Inadmissibility of the Usual Estimator for the Mean of a Multivariate Normal Distribution." Proceedings of the Third Berkeley Symposium, 1, 197-206.
James, W. and Stein, C. (1961). "Estimation with Quadratic Loss." Proceedings of the Fourth Berkeley Symposium, 1, 361-379.
Efron, B. and Morris, C. (1975). "Data Analysis Using Stein's Estimator and its Generalizations." Journal of the American Statistical Association, 70(350), 311-319.
Casella, G. (1985). "An Introduction to Empirical Bayes Data Analysis." The American Statistician, 39(2), 83-87.
Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A., and Rubin, D.B. (2013). Bayesian Data Analysis. 3rd Edition, CRC Press.
Ghosh, J.K. and Ramamoorthi, R.V. (2003). Bayesian Nonparametrics. Springer Series in Statistics.