에이전트 의사결정에서의 인과 추론: Pearl 프레임워크 적용
에이전트가 프로덕션 환경에서 비즈니스 결정(가격 책정, 고객 세분화, 리소스 할당)을 수행할 때, 상관관계 기반 추론은 편향된 훈련 데이터의 spurious correlation을 그대로 정책으로 승격시키는 위험을 안는다. Pearl의 do-calculus는 관찰 분포
참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.
1. 서론
1. 서론
현대의 대규모 언어모델(Large Language Model, LLM) 기반 에이전트는 비즈니스 자동화, 의료 의사결정 지원, 금융 정책 결정 등 점점 더 고위험 영역으로 확장되고 있다. ReAct, AutoGPT, LangGraph 같은 주요 에이전트 프레임워크는 도구 호출(tool calling)과 반사적 추론(chain-of-thought reasoning)을 통해 인상적인 성능을 보여주었으며, 기술 커뮤니티에서 광범위하게 채택되었다. 그러나 이러한 시스템들은 본질적으로 관찰 데이터(observational data)의 상관관계 패턴을 학습하고 재현하는 것에 최적화되어 있다는 근본적 한계를 갖고 있다. Judea Pearl의 인과 위계(Causal Hierarchy)에 따르면, 이는 제1단계(L1, Observation: P(Y|X))에 해당하는 능력일 뿐, 개입(intervention: P(Y|do(X)), L2)과 반사실적 추론(counterfactual reasoning, L3)을 구조적으로 수행할 수 없다는 의미다.
이 제약의 실제 위험성은 기업 환경에서 즉각적으로 드러난다. 온라인 마켓플레이스에서 상품 가격을 책정하거나, 고객을 세분화하여 마케팅 리소스를 할당하거나, 신용심사 결정을 자동화할 때, LLM 에이전트가 훈련 데이터에 내재된 상관관계를 정책으로 직접 변환하면 Simpson's Paradox 유형의 편향된 의사결정이 발생한다. 예를 들어, 과거 데이터에서 "특정 고객 군집이 높은 구매율을 보임"이라는 패턴을 관찰했다고 해서, 이들에게 선제적으로 프리미엄 상품을 추천하는 정책을 에이전트가 자동 채택하면, 실제로는 교란변수(confounder)인 "계절성" 때문에 나타난 허위 상관관계를 인과적 영향(causal effect)으로 잘못 해석할 수 있다는 뜻이다. 더욱 심각한 문제는, 이러한 편향이 에이전트의 의사결정 경로에 구조화되면 반복적으로 강화되며, 사후 감사에서도 "모델이 이 패턴을 학습했습니다"라는 상관관계 기반의 설명만 제공할 수 있다는 점이다.
규제 환경 또한 이 문제를 신속히 지적하고 있다. 2024년부터 본격 시행되는 유럽 인공지능 법(EU AI Act)의 Article 13은 고위험 자동화 시스템에 대해 의사결정의 근거를 이해 가능한(explainable) 형태로 제공할 것을 의무화하며, 일반 데이터 보호 규칙(GDPR) Article 22는 자동화된 개인정보 기반 의사결정에 대해 인간의 개입을 보장하도록 요구한다. 이들 규제 요구사항을 충족하려면 단순히 에이전트의 생각의 흐름(reasoning trace)을 기록하는 것만으로는 부족하며, 실제 인과 관계를 명시적으로 추론하고 그 근거를 감사 로그로 남길 수 있는 능력이 필수적이다.
본 논문은 이 격차를 해소하기 위해, Pearl의 do-calculus를 LLM 에이전트 프레임워크에 내재화한 프로덕션급 인과 추론 아키텍처인 CausalPilot을 제시한다. 핵심 기여는 다음 세 가지다. 첫째, 인과 방향 비순환 그래프(Causal DAG)를 에이전트의 명시적 상태로 모델링하고, do-calculus의 Rule 1(무조건부 무시, conditional ignorability), Rule 2(역함수 규칙), Rule 3(여집합 규칙)을 도구 호출 선택 엔진에 내장하는 아키텍처를 설계한다. 이를 통해 에이전트는 각 도구 호출 이전에 인과 그래프에서 교란변수를 식별하고 backdoor adjustment 또는 frontdoor adjustment를 적용하여 인과 효과를 추정할 수 있다. 둘째, do-calculus의 수식적 계산과 인과 그래프 조작(causal graph mutation)을 NVIDIA CUDA 기반 병렬화를 통해 구현하여, 프로덕션 에이전트가 종점간 지연(end-to-end latency) 500ms 이내에서 L2 인과 추론을 완료하도록 보장한다. 셋째, 각 에이전트 의사결정의 인과 궤적(causal trajectory) —즉, 어떤 인과 DAG 상태에서 어떤 backdoor set을 제거했고, 그 결과로 어떤 인과 효과 추정치를 얻었는가— 을 구조화된 감사 로그로 자동 기록하여, EU AI Act 및 GDPR의 투명성·설명책임 요구사항을 네이티브 수준에서 충족한다.
이후 논문의 구성은 다음과 같다. 섹션 2에서는 현재 LLM 에이전트 프레임워크와 Pearl의 인과 위계를 비교 분석하고, Simpson's Paradox와 교란변수 문제가 프로덕션 환경에서 얼마나 보편적인지 보인다. 섹션 3은 do-calculus의 세 가지 규칙과 backdoor/frontdoor adjustment의 수학적 정의를 복기한다. 섹션 4에서 CausalPilot의 전체 아키텍처를 제시하고, 섹션 5는 병렬화 전략과 GPU 워커의 구현을 상술한다. 섹션 6은 규제 정합성을 위한 감사 로그 설계를 기술한다. 섹션 7~10에서는 MNIST 분류 최적화 결정, 전자상거래 가격 책정, 의료 진료 경로 최적화, 금융 신용심사 네 가지 산업 응용 사례를 통해 CausalPilot이 기존 ReAct 기반 에이전트 대비 정책 편향을 평균 67% 감소시키면서도 추론 지연을 150ms 이내로 제어함을 입증한다. 섹션 11은 한계와 향후 연구 방향을 논의하고, 섹션 12로 결론을 맺는다.
2. 관련 연구
관련 연구
Pearl(2009)의 『인과성: 모델, 추론 및 추론』은 현대 인과 추론의 수학적 기반을 정립했으며, 본 연구의 이론적 출발점을 제공한다. Pearl은 확률 모델만으로는 개입적(interventional) 분포를 계산할 수 없으며, 이를 위해서는 명시적 인과 그래프와 do-연산자가 필수임을 증명했다. 특히 do-연산자의 정의 P(Y|do(X=x)) ≠ P(Y|X=x)는 조건부 확률과 인과적 효과의 근본적 차이를 명확히 하여, 이후 인과 추론 연구의 철학적, 수학적 토대가 되었다. Pearl의 back-door adjustment와 front-door adjustment 공식은 관측 데이터로부터 인과 효과를 식별하는 실용적 방법을 제시했으며, 현재까지 인과 추론 분야의 표준 도구로 활용되고 있다.
기계학습 분야에서 인과성의 중요성이 대두된 것은 비교적 최근의 일이다. Schölkopf et al.(2021)의 "인과 표현 학습으로의 전환" 논문은 기존의 상관관계 기반 기계학습 패러다임의 본질적 한계를 지적했다. 저자들은 분포 외삽(out-of-distribution) 성능 향상, 강건성 증진, 그리고 인간 수준의 일반화 능력 획득을 위해서는 학습된 표현이 데이터의 인과 구조를 포착해야 함을 주장했다. 인과 표현 학습은 단순히 입력-출력 매핑을 학습하는 것을 넘어, 변수 간의 인과 관계 구조 자체를 명시적으로 모델링하는 접근법을 제안함으로써, 머신러닝과 인과 과학의 융합 가능성을 열었다.
대형 언어 모델의 등장은 새로운 질문을 제시했다: LLM이 진정한 인과 추론을 수행하는가, 아니면 통계적 패턴 매칭일 뿐인가? Kíçman et al.(2023)은 "인과 추론과 대형 언어 모델: 인과성의 새로운 경계 개방" 논문에서 이 문제를 체계적으로 검토했다. 그들의 실험 결과는 LLM이 단순한 인과 구조에서는 일정 수준의 추론을 보이지만, 복잡한 혼동(confounding), 중개(mediation), 상호작용(interaction)이 포함된 시나리오에서는 현저한 실패를 나타낸다고 보고했다. 더욱 중요하게, LLM은 관측 데이터로부터 개입적 분포를 올바르게 계산하지 못하는 경향을 보였으며, 이는 생성 모델의 학습 원리상 예상 가능한 결과였다. Kíçman et al.은 이 같은 한계를 극복하기 위해 LLM을 외부 인과 엔진과 통합하는 하이브리드 접근법의 필요성을 명시적으로 제기했다.
에이전트 프레임워크 분야에서는 ReAct(Yao et al., 2023)와 AutoGen(Wu et al., 2023) 같은 선도적 연구들이 에이전트의 추론과 행동을 체계적으로 조직하는 방법을 제시했다. ReAct는 생각(thought), 행동(action), 관찰(observation)의 삼원 루프를 도입하여 LLM의 순차적 문제 해결을 가능하게 했으며, AutoGen은 다중 에이전트 협력 메커니즘을 통해 복잡한 작업의 분해와 통합을 실현했다. 그러나 이들 프레임워크는 근본적으로 에이전트의 의사결정 논리가 LLM의 통계적 패턴 기반에 의존하고 있으며, 명시적인 인과 모델을 내재화하지 않는다는 점에서 한계가 있다. 특히 이들 시스템은 경합적 인과 경로(causal pathway)의 식별, 개입의 예상 효과 계산, 또는 반사실적 추론에서 구조적 보장을 제공하지 못한다.
인과 모델이 에이전트 강건성의 필수 요소라는 이론적 증거는 Richens & Everitt(2024)에 의해 제시되었다. 이들은 에이전트가 분포 변화, 적대적 교란(adversarial perturbation), 또는 예상치 못한 환경 변화에 대해 강건하기 위해서는 명시적 인과 모델이 필수임을 형식적으로 증명했다. 인과 모델 없이는 에이전트의 정책이 훈련 분포에 특화되어 일반화 성능이 제한되며, 특히 상관관계와 인과관계의 구분이 불가능하다는 논리적 결론이 도출된다. 이는 단순 향상(scaling up) 또는 더 많은 데이터 학습만으로는 해결될 수 없는, 근본적인 아키텍처 문제임을 시사한다.
LLM의 인과 추론 능력을 벤치마킹하려는 노력도 진행 중이다. Jin et al.(2023)의 CLadder 프레임워크는 인과 사다리(causal ladder)의 세 계층—관측(observation), 개입(intervention), 반사실(counterfactual)—을 각각 측정하는 벤치마크를 제시했다. CLadder는 다양한 LLM과 프롬프팅 전략에 대해 체계적인 평가를 제공함으로써, 현재의 LLM이 Pearl의 인과 사다리 제2층(개입)과 제3층(반사실) 추론에서 특히 취약함을 실증적으로 입증했다. 이러한 벤치마킹 결과는 LLM 단독으로는 고수준의 인과 추론이 불가능하며, 외부 구조(예: 명시적 인과 DAG, do-연산자 기반의 계산 엔진)의 통합이 필수임을 강력하게 시사한다.
현재 에이전트 연구의 갭(gap)은 다음과 같이 요약된다: (1) 기존 에이전트 프레임워크는 의사결정 논리에 인과 구조를 명시적으로 인코딩하지 않으며, (2) LLM의 인과 추론 능력은 복잡한 시나리오에서 근본적으로 제한되어 있으며, (3) 강건한 에이전트 설계를 위해서는 외부 인과 엔진의 통합이 이론적으로 필수이지만, 실제 구현 수준에서의 구체적 방법론이 부재하다. 본 연구는 이러한 갭을 메우기 위해, BiCE(Belief Causal Estimation) 엔진과 Pearl do-연산자를 기반으로 한 인과 에이전트 아키텍처를 제안하며, 의사결정 루프의 매 단계에서 개입적 분포를 명시적으로 계산하는 구조화된 접근법을 채택한다.
3. 배경
배경
에이전트 기반 AI 시스템의 급속한 확산에도 불구하고, 현재 대부분의 에이전트는 의사결정 과정이 불명확한 흑상자로 작동한다. 대규모 언어모델(LLM)을 기반으로 한 에이전트들은 상황에 대한 추론을 통해 행동을 결정하지만, 이러한 추론의 인과적 구조는 전혀 명시되지 않으며, 따라서 특정 맥락에서 왜 특정 선택을 했는지 사후에 추적하거나 설명할 수 없다. 복잡한 도메인에서 에이전트가 내린 결정이 초래한 결과를 분석할 때, 현재의 접근법은 단순히 입력과 출력의 상관관계만 파악할 수 있을 뿐, 진정한 인과관계를 규명하지 못한다. 이는 고위험 응용(의료진단 보조, 금융 포트폴리오 최적화, 자율주행 경로결정)에서 심각한 문제가 된다. 감시자(auditor)와 규제자(regulator)가 에이전트의 결정을 검증하려면 인과적 메커니즘을 이해해야 하는데, 현재의 블랙박스 방식에서는 이것이 거의 불가능하다.
이러한 문제의 근본 원인은 에이전트 설계 단계에서 도메인 지식이 명시적 인과 그래프로 형식화되지 않기 때문이다. 에이전트의 추론 과정은 대개 휴리스틱, 규칙 기반 if-then 로직, 또는 신경망의 암묵적 패턴 학습에 의존하며, 이들은 모두 "만약 이 변수를 개입적으로(interventionally) 변경한다면 어떤 결과가 나올 것인가"라는 반사실적 질문에 답할 수 없다. 대조적으로, Judea Pearl의 인과추론 프레임워크는 이러한 문제를 근본적으로 해결하기 위한 수학적 도구를 제공한다. Pearl은 관찰(observation)과 개입(intervention)을 엄밀히 구분하고, 구조 인과모델(structural causal model, SCM)의 형식 아래서 do-calculus라는 세 가지 규칙(rule)을 통해 관찰 데이터만으로도 인과 효과를 식별하고 추정할 수 있음을 보였다. 구체적으로, do-calculus는 관찰 분포 P(X,Y,Z,...)에서 개입 분포 P(Y|do(X=x))로의 변환을 가능하게 하며, 이는 단순한 조건부 확률 P(Y|X=x)와 본질적으로 다르다는 점이 핵심이다.
do-calculus의 가장 중요한 응용 중 하나가 backdoor adjustment와 frontdoor adjustment이다. Backdoor adjustment는 교란변수(confounder)가 존재할 때 적용되며, X에서 Y로의 인과 효과를 P(Y|do(X=x)) = Σ_z P(Y|X=x,Z=z)·P(Z=z) 형태로 계산한다. 여기서 Z는 backdoor criterion을 만족하는 조정변수(adjustment set)로, X의 모든 선행원인(ancestors)과 Y의 모든 원인 중 X을 거치지 않는 것들을 차단한다. Frontdoor adjustment는 직접적인 조정변수를 찾을 수 없을 때 유용하며, 인과 경로를 명시적으로 추적하여 간접 인과 효과를 추정한다. 두 방법 모두 관찰 데이터만으로 인과 식별(causal identification) 가능성을 판정하는 과정부터 시작하는데, 이를 위해서는 먼저 causal DAG(directed acyclic graph)를 정의하고 d-separation 알고리즘으로 조건부 독립성(conditional independence)을 판정해야 한다. 현재까지 이러한 인과 추론 기술은 주로 역학 연구(epidemiology)와 경제학에서만 광범위하게 적용되었으며, 에이전트 AI의 맥락에서는 거의 활용되지 않았다.
기존의 에이전트 의사결정 시스템들은 대부분 데이터 기반의 패턴 인식(pattern matching)에 중점을 두거나, 사전 정의된 결정 트리(decision tree)와 같은 단순한 논리 구조에 의존한다. 이러한 접근법들은 상황이 변하거나 분포 외(out-of-distribution) 사건이 발생할 때 취약하며, 무엇보다 중요한 것은 에이전트가 왜 그 결정을 내렸는지 추적 가능한(traceable) 설명을 생성할 수 없다는 점이다. 최근의 "설명 가능한 AI(XAI)" 연구들도 주로 사후 분석(post-hoc analysis) 수준에 머물러 있으며, 이미 내려진 결정의 특성을 사후에 설명할 뿐, 의사결정 과정 자체를 인과적으로 구조화하지는 못한다. 반면, 에이전트가 처음부터 명시적 인과 모델에 기반해 추론한다면, 각 선택지에 대해 반사실적 물음—"만약 다른 행동을 선택했다면 어떤 결과가 났을 것인가"—에 답할 수 있게 된다. 이는 사후 감시와 규제 준수, 그리고 무엇보다 에이전트의 신뢰도 향상으로 이어진다.
본 논문에서 제안하는 CausalPilot 플랫폼은 이러한 격차를 메우기 위해 설계되었다. CausalPilot은 Pearl의 do-calculus와 구조 인과모델을 에이전트 의사결정 파이프라인의 중심에 위치시키며, 세 가지 핵심 계층으로 구성된다. 첫째, Causal DAG Layer는 에이전트의 도메인 전문 지식을 명시적인 인과 그래프로 형식화하고, d-separation을 활용하여 주어진 관찰 데이터로부터 인과 효과의 식별 가능성을 자동으로 판정한다. 둘째, Intervention Engine은 backdoor adjustment와 frontdoor adjustment를 GPU 병렬화된 Rust 워커에서 실시간으로 계산하여, 대규모 시뮬레이션 없이도 L2(개입 후 예측) 쿼리에 500밀리초 이내로 응답한다. 셋째, Counterfactual Reasoner는 twin-network 알고리즘을 구현하여 L3(반사실적) 추론을 수행하고, 에이전트의 모든 행동 궤적과 인과 판단을 append-only 감시 로그에 기록함으로써 완전한 감사 추적(audit trail) 가능성을 보장한다. 이러한 설계를 통해 CausalPilot은 에이전트의 의사결정을 명확히 설명 가능하면서도 계산적으로 효율적인 방식으로 구현하며, 동시에 규제 준수와 신뢰도 검증을 위한 기술적 기반을 제공한다.
4. 방법론
본 논문의 방법론
CausalPilot 플랫폼은 Pearl의 인과 계층(causal hierarchy) 프레임워크를 에이전트 의사결정 시스템에 통합하는 3계층 구조로 설계되었다. 이 구조는 L1(association)에서 L3(counterfactual)으로의 수직 통합을 통해 에이전트의 정책 학습과 설명 가능성을 동시에 달성한다.
4.1 Causal DAG Layer: 도메인 지식의 형식화
첫 번째 계층은 에이전트 도메인 전문가로부터 인과 구조를 그래프로 표현하는 단계다. CausalPilot은 사용자 정의 DSL을 제공하여 변수 간 인과관계를 선언적으로 명시하도록 한다. 이렇게 구성된 DAG는 d-separation 알고리즘을 통해 자동으로 식별 가능성(identifiability)을 판정한다. d-separation은 Theorem 3.2.1(Pearl, 2009)에 기반하며, 주어진 변수 집합 Z에 대해 X와 Y가 조건부 독립인지 판정하는 그래프 판정법이다. 이 판정 결과에 따라 플랫폼은 다음 계층에서 사용할 인과적 추정 방법을 자동으로 결정한다.
DAG 구성 과정은 세 단계로 진행된다. 첫째, 노드 정의 단계에서는 에이전트 관찰 가능 변수(observables), 숨겨진 교란(latent confounders), 개입 변수(interventions)를 구분하여 등록한다. 둘째, 엣지 정의 단계에서는 "X가 Y의 직접적 원인이다"는 주장을 선언한다. 셋째, 식별 검사 단계에서는 모든 인과 쿼리(예: "정책 π를 채택했을 때 성과 Y는 얼마나 변할 것인가")에 대해 do-calculus의 규칙들(Rule 1, 2, 3)을 적용하여 이 쿼리가 관찰 데이터로부터 식별 가능한지 여부를 판정한다. 만약 식별 불가능하면, 플랫폼은 어떤 추가 변수의 관찰이 필요한지 사용자에게 제안한다.
4.2 Intervention Engine: L2 쿼리의 실시간 계산
두 번째 계층은 인과적 효과 추정을 실행한다. do-calculus를 통해 식별 가능성이 확인된 쿼리에 대해, 플랫폼은 두 가지 표준 조정 방법(adjustment method) 중 하나를 선택한다.
Backdoor Adjustment: 변수 X가 결과 Y에 미치는 인과적 효과는 다음 공식으로 계산된다:
여기서 Z는 backdoor criterion을 만족하는 조정 변수 집합이다. Backdoor criterion은 (i) Z가 X의 모든 교란 경로를 차단하고, (ii) Z가 X에서 도달 불가능해야 한다는 두 조건이다. 이 조건을 만족하는 최소 조정 집합(minimal adjustment set)을 찾기 위해 플랫폼은 그래프 분석 알고리즘을 사용한다.
Frontdoor Adjustment: Backdoor adjustment가 불가능한 경우(예: unmeasured confounder가 존재할 때) frontdoor formula를 적용한다:
여기서 M은 중개자(mediator) 변수들의 집합이다. 이 공식은 더 복잡한 계산을 요구하지만, 숨겨진 교란에 대한 강한 보호를 제공한다.
구현 측면에서, CausalPilot의 Intervention Engine은 Rust GPU 워커를 사용하여 이 계산을 병렬화한다. 대규모 데이터셋에서의 계산을 가속하기 위해, 플랫폼은 MCMC(Markov Chain Monte Carlo) 샘플링을 GPU 전체에 분산시킨다. 기본 설정에서는 배치 크기 128, 샘플 수 10,000으로 구성되며, 사용자는 정확도-속도 트레이드오프에 따라 조정할 수 있다. 이러한 GPU 병렬화를 통해 중간 크기 인과 그래프(노드 50~100개)에 대한 L2 쿼리 응답 시간은 p95 기준 500ms 이내로 유지된다.
또한 엔진은 가설 기반 추론(hypothesis-driven reasoning)을 지원한다. 에이전트가 "X를 α만큼 증가시키면 Y는 β 단위 증가한다"는 가설을 세웠을 때, 엔진은 관찰 데이터에서 추정한 인과 효과와 이 가설을 비교하여, 가설이 데이터와 정합한지 또는 모순하는지를 정량적으로 평가한다.