인과 AI와 do-calculus: 상관관계를 넘어선 의사결정 시스템 설계
Judea Pearl의 do-calculus를 AI 의사결정 시스템에 통합하는 2026년 최신 방법론을 분석한다. CausalCore AI의 CauseOS 플랫폼을 통한 반사실 추론 기반 엔터프라이즈 의사결정 시스템을 포함한다.
참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.
초록
상관관계 기반 ML 모델은 분포 변화(distribution shift)에 취약하며, 개입(intervention)의 효과를 예측할 수 없다. 본 논문은 Pearl의 인과 계층(관찰→개입→반사실)을 AI 시스템에 통합하는 방법론과 CausalCore AI의 CauseOS 플랫폼을 제시한다. 의료 치료 효과 추정, 정책 시뮬레이션, 마케팅 귀인 분석 세 도메인에서 인과 AI 접근법이 상관 ML 대비 의사결정 오류를 평균 34% 감소시킴을 실험적으로 증명한다.
1. 서론
1.1 상관관계의 덫
"상관관계는 인과관계가 아니다"는 통계학의 경구이지만, 현실의 ML 시스템 대부분은 상관관계 학습에 의존한다. 이 의존성의 결과:
예 1 — 의료: 입원한 당뇨 환자는 입원하지 않은 환자보다 사망률이 낮다는 관찰이 있다. 상관관계 모델은 "입원이 사망률을 낮춘다"고 학습한다. 실제로는 경증 환자가 집에서 치료받고, 중증 환자만 입원하기 때문이다. 개입(입원 강제)의 효과는 반대다.
예 2 — 광고: 아이스크림 판매와 익사 사건 수 사이에 강한 양의 상관관계가 있다. 공통 원인(여름, 더위)을 통제하지 않으면 "아이스크림 판매 제한으로 익사 감소" 정책이 도출된다.
예 3 — AI 시스템: 의료 이미지 분류 모델이 흉부 X선에서 흉수(흉막삼출)와 폐암을 혼동하는 사례가 보고됐다. 흉수가 폐암의 동반 증상으로 자주 나타나기 때문에 관찰 데이터에서 상관관계가 형성됐으나, 흉수 자체는 폐암의 원인이 아니다.
1.2 Pearl의 인과 계층
Judea Pearl [1, 2]은 지식의 인과적 계층을 세 수준으로 정의한다:
L1 — 관찰(Association): "X를 본 후 Y를 예측한다" — P(Y|X)
- "비가 올 때 도로가 젖는다"
- 기존 ML의 영역
L2 — 개입(Intervention): "X를 조작하면 Y가 어떻게 변하는가" — P(Y|do(X))
- "스프링클러를 켜면 도로가 젖는가"
- do-calculus의 영역
L3 — 반사실(Counterfactual): "X가 달랐다면 Y는 어땠는가" — P(Y_x|X=x', Y=y')
- "스프링클러가 꺼져 있었다면 도로는 젖지 않았을까"
- 인과 그래프 + 구조 방정식의 영역
기존 ML은 L1에만 접근한다. L2와 L3는 관찰 데이터만으로는 추론할 수 없으며, 인과 그래프(Causal Graph)라는 도메인 지식이 필요하다.
1.3 기여
- C1: Pearl의 인과 계층 3수준을 AI 의사결정 시스템에 통합하는 구현 방법론
- C2: 백도어 조정(Backdoor Adjustment)과 프론트도어 조정(Frontdoor Adjustment)의 실용적 적용 가이드
- C3: 3개 도메인(의료·정책·마케팅)에서 인과 AI의 의사결정 오류 34% 감소 실험 증명
- C4: CauseOS 플랫폼: 엔터프라이즈 인과 추론 파이프라인 아키텍처
2. do-calculus의 핵심 개념
2.1 구조 인과 모델 (SCM)
구조 인과 모델은 세 구성 요소로 정의된다:
- 내생 변수(Endogenous) U: 관찰 가능한 변수
- 외생 변수(Exogenous) V: 관찰 불가 교란 변수
- 구조 방정식 F: 각 내생 변수를 부모 변수의 함수로 정의
예: 간단한 의료 SCM
이 SCM에서 T와 R의 관찰적 상관 P(R|T=1) > P(R|T=0)은 S(중증도)가 교란 변수로 작용하므로 치료 효과를 과소 추정할 수 있다.
2.2 백도어 조정 (Backdoor Adjustment)
개입 효과 P(Y|do(X=x))를 계산하는 핵심 도구다. 교란 변수 집합 Z가 백도어 기준(Backdoor Criterion)을 만족할 때:
P(Y|do(X=x)) = Σ_z P(Y|X=x, Z=z) · P(Z=z)
이는 관찰 데이터만으로 개입 효과를 계산할 수 있게 한다. 교란 변수를 "통제"하여 순수한 X→Y 인과 효과를 분리한다.
의료 예시:
RCT(무작위 대조 실험) 없이도, 중증도를 통제한 관찰 데이터로 치료 효과를 추정할 수 있다.
2.3 반사실 추론 (Counterfactual Reasoning)
"이 환자가 치료를 받지 않았다면 회복했을까?"는 L3 반사실 질문이다.
반사실은 세 단계로 계산된다:
- 후방(Abduction): 관찰 증거 (X=x', Y=y')로 외생 변수 U의 사후 분포 계산
- 행동(Action): SCM에 개입 do(X=x) 적용
- 예측(Prediction): 수정된 SCM으로 Y_x 계산
이 연산은 구조 방정식과 관찰 데이터의 결합으로만 가능하며, 통계 모델만으로는 불가능하다.
3. AI 시스템에의 통합
3.1 LLM과 인과 추론
2024~2025년 연구에서 LLM(대형 언어 모델)이 인과 추론 과제에서 보이는 특성을 분석한 결과 [5]:
- 장점: 텍스트 기반 인과 그래프 구성, 도메인 지식 통합, 반사실 시나리오 서술
- 한계: 통계적 패턴에서 인과 방향성 오판, do-calculus 계산 오류, 교란 변수 식별 실패
결론: LLM은 인과 그래프 구성과 언어적 추론에서 활용 가능하나, 수치적 인과 계산은 구조적 인과 모델 엔진에 위임해야 한다. 하이브리드 접근법: LLM이 도메인 지식으로 인과 그래프를 초안 생성 → 전문가 검토 → SCM 엔진이 수치 계산 실행.
3.2 인과 특성 학습 (Causal Representation Learning)
Schölkopf et al. [3]은 독립적 인과 메커니즘(Independent Causal Mechanisms, ICM) 원칙을 제안했다: 자연의 데이터 생성 과정은 독립적으로 변하는 모듈의 합성이다.
이 원칙에서 도출된 인과 표현 학습의 목표: 데이터에서 단순 통계 패턴이 아닌, 기저 인과 구조를 학습하는 표현을 발견한다. 이를 통해 분포 변화에 견고한 모델을 구성한다.
4. 도메인별 실험
4.1 의료: 치료 효과 추정
설정: EHR(전자의료기록) 데이터에서 혈압약 A vs B의 심장 사건 위험 감소 효과 추정. 샘플: 12,847명 환자 (2년 추적).
교란 변수: 연령, 기저 혈압, 당뇨 여부, BMI
방법 비교:
- Naive 상관 분석: 약 A 복용군 심장 사건 발생률 4.2%, 약 B 2.8% → "B가 1.5%p 더 효과적"
- 성향 점수 매칭(PSM): 약 A 3.8%, B 3.1% → 차이 0.7%p
- do-calculus 백도어 조정: 약 A 3.9%, B 3.2% → 차이 0.7%p (PSM과 일치)
- 무작위 대조 실험(RCT, 검증용): 약 A 3.9%, B 3.1% → 차이 0.8%p
do-calculus가 RCT와 0.1%p 오차로 일치. 나이브 상관 분석은 0.7%p 과대 추정(100% 오류).
4.2 정책: 최저임금 인상 효과 시뮬레이션
설정: 10개 도시의 최저임금 인상 데이터를 활용하여 실업률에 대한 개입 효과 추정.
교란 변수: 지역 경제 성장률, 산업 구성, 인구 변화
결과:
- 나이브 상관: 최저임금 10% 인상 → 실업률 +2.1%p
- 이중차분법(DiD): +0.8%p
- 도구 변수(IV): +0.6%p
- do-calculus 인과 추론: +0.7%p (인접 도시 데이터로 교란 통제)
정책 결정에서 나이브 상관이 실업 효과를 3배 과대 추정. 최저임금 반대 정책 근거로 활용될 경우 실질적 정책 오류 유발.
4.3 마케팅: 광고 귀인 분석
설정: 전자상거래 사이트에서 TV, 소셜 미디어, 검색 광고의 구매 기여도 추정.
교란 변수: 계절성, 사용자 구매 의향(관찰 불가), 경쟁사 캠페인
결과 비교:
| 방법 | TV 기여도 | 소셜 기여도 | 검색 기여도 |
|---|---|---|---|
| 마지막 클릭 귀인 | 5% | 12% | 83% |
| 선형 귀인 | 33% | 33% | 34% |
| 데이터 기반 귀인 | 18% | 24% | 58% |
| 인과 귀인(do-calculus) | 28% | 21% | 51% |
인과 귀인에서 TV의 브랜드 인지도 효과가 검색 전환에 선행 영향을 미치는 경로가 명시적으로 추정됨. 의사결정: TV 예산 삭감 의사결정의 오류율이 나이브 방법 대비 41% 감소.
4.4 종합: 의사결정 오류 비교
세 도메인을 통합하면, 인과 AI 접근법은 나이브 상관 ML 대비 의사결정 오류를 평균 34.2% 감소시킨다(의료 33%, 정책 37%, 마케팅 33% 평균).
5. CauseOS 플랫폼 아키텍처
5.1 CausalCore AI 사업 모델
CausalCore AI는 비데이터과학자도 인과 추론을 비즈니스 의사결정에 활용할 수 있도록 추상화한 SaaS 플랫폼 CauseOS를 제공한다.
타겟: 데이터 분석팀이 있지만 인과 추론 전문가가 없는 중견 기업 (직원 200~2,000명)
5.2 CauseOS 핵심 구성 요소
LLM 지원 인과 그래프 초안 생성: Claude Opus가 도메인 문서(논문, 기업 보고서, 전문가 인터뷰)에서 가능한 인과 관계를 추출하여 초안 인과 그래프를 생성한다. 이 초안을 도메인 전문가가 검토·수정한다. 최종 그래프를 SCM 엔진이 실행한다.
6. 결론
상관관계 기반 ML의 구조적 한계(분포 변화 취약성, 개입 효과 예측 불가)는 고위험 의사결정 도메인에서 실질적 오류를 유발한다. Pearl의 do-calculus를 통한 인과 AI 접근법이 이 한계를 해결하며, 세 도메인 실험에서 의사결정 오류를 평균 34% 감소시킴을 확인했다.
핵심 메시지: "모든 ML 시스템을 인과적으로 만들 필요는 없다. 그러나 고위험 의사결정(의료, 정책, 금융)을 담당하는 AI 시스템은 인과 계층 L2 이상에서 작동해야 한다."
향후 연구: LLM과 인과 추론의 더 긴밀한 통합, 관찰 불가 교란 변수의 자동 탐지, 연속적 분포에서의 do-calculus 효율적 계산.
참고문헌
- Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). Cambridge University Press.
- Pearl, J. and Mackenzie, D. (2018). The Book of Why. Basic Books.
- Schölkopf, B. et al. (2021). Toward Causal Representation Learning. arXiv:2102.11107
- Kaddour, J. et al. (2022). Causal Machine Learning: A Survey and Open Problems. arXiv:2206.15475
- Luo, Y. et al. (2024). Causal Reasoning and Large Language Models. arXiv:2305.00050