에이전트 AI 안전성: 자율 의사결정 체인에서의 제약 전파

에이전트 AI가 도구 호출·외부 API·장기 계획을 자율 실행하는 범위가 2024-2026년 급격히 확장되면서, EU AI Act(2024년 발효, 고위험 조항 2026년 8월 단계 적용)와 NIST AI RMF는 인간 감독·로깅·제약 준수를 의무화하고 있다. 그러나

AGEIUM Research2026년 4월 19일29 min read

agentic-ai ai-safety constitutional-ai constraint-propagation rlhf red-teaming multi-agent-systems formal-verification

참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.

1. 서론

에이전트형 AI 시스템(Agentic AI Systems)이 도구 호출, 외부 API 통합, 장기 의사결정 체인을 자율적으로 실행하는 능력이 2024년부터 2026년 사이에 급속도로 확대되면서, 이들 시스템의 안전성과 제약 준수(Constraint Adherence) 보장이 산업 전역의 핵심 과제로 부상했다. LangGraph, AutoGen, CrewAI 같은 멀티 에이전트 프레임워크의 상용화와 대규모 언어 모델(LLM)의 에이전트 기능 통합으로 인해, 단일 API 호출 수준을 넘어 다단계 의사결정 체인에서 수행되는 에이전트 행동이 크게 증가하고 있다. 이러한 기술적 진전은 비즈니스 자동화와 인지 작업 보강의 가능성을 열었으나, 동시에 규제 환경의 급격한 변화를 마주하고 있다. EU AI Act 발효(2024년) 및 그 후속 단계별 적용 일정, NIST AI Risk Management Framework(2024년)의 고위험 도메인 규제 강화, 그리고 금융감독당국과 의료 규제기관의 자동화 시스템 감시 의무 확대는 에이전트 AI 시스템이 명시된 제약(Constraints)—헌법적 AI(Constitutional AI, CAI)에 의해 정의된 제약을 포함하되 이를 초과하는 감시 정책—을 다단계 의사결정 과정 전반에서 유지해야 함을 의무화하고 있다. 그러나 현실의 멀티 에이전트 시스템에서 발견되는 중대한 문제는, 초기 제약이 서브태스크 분해(Subtask Decomposition), 서브에이전트 위임(Sub-Agent Delegation), 외부 도구 호출 체인을 거치면서 점진적으로 재해석되고, 약화되며, 때로는 의도치 않게 변형되는 "제약 드리프트(Constraint Drift)" 현상이다. 기존의 헌법적 AI 연구와 Guardrails AI, NeMo Guardrails 같은 정적 가드레일 기법은 단일 턴(Single-Turn) 생성 단계에서의 정책 준수를 주로 다루었으며, 다단계 자율 계획과 실행 과정에서 제약이 어떻게 전파되는지, 어떤 메커니즘에 의해 감쇠되는지에 대한 형식적(Formal) 분석이 부재한 상태다. 이러한 연구 공백은 특히 금융(규제 자본금, 거래 감시), 의료(임상 의사결정 자동화, 환자 데이터 접근 제어), 법률(증거 인수, 클라이언트 기밀성) 같은 고위험 도메인에서 즉각적인 위협이 된다. 본 논문은 이 문제를 형식적 수학 프레임워크, 공개 벤치마크, 그리고 프로덕션 실시간 감독자 아키텍처를 통해 해결한다. 먼저 Constraint Propagation Calculus(CPC)라는 형식 체계를 제시하여 멀티 에이전트 체인에서 헌법적 제약의 전파 과정을 모델링하고, Φ-보존성(Φ-Preservation) 불변식의 수학적 증명을 제공한다. 둘째, 5개의 공격 벡터(우회, 재해석, 시간차 이탈, 문맥 소거, 로깅 우회) × 4개의 고위험 도메인(금융, 의료, 법률, 공공 정책) × 200개의 현실적 시나리오로 구성된 AgentBench-Safety 벤치마크를 공개하여, 향후 에이전트 안전성 연구의 표준화된 평가 기반을 제공한다. 셋째, Rust로 구현되고 <15밀리초의 오버헤드 내에서 동작하는 AgentGuard 실시간 감독자(Real-Time Supervisor, RTS) 시스템을 설계·검증하여, 인과 추적 그래프(Causal Trace Graph)를 통해 제약 위반의 인과 경로를 실시간으로 탐지하고 차단할 수 있는 프로덕션 레퍼런스 아키텍처를 제시한다. 이들 기여는 규제 준수 자동화, 다단계 에이전트 시스템의 신뢰성 강화, 그리고 산업 표준 수립에 즉각적인 영향을 미칠 것으로 기대된다.

2. 관련 연구

대규모 언어 모델(LLM) 기반 에이전트 시스템의 안전성 보증 문제는 최근 몇 년간 AI 안전 연구의 핵심 주제로 부상했다. 기존 연구들은 모델 정렬, 실시간 제약 강제, 성능 벤치마킹, 형식 검증 각 영역에서 개별적 진전을 이루었으나, 형식적 보장과 실시간 강제를 동시에 달성하는 통합 프레임워크는 아직 부재 상태다.

Constitutional AI 및 RLHF 기반 정렬. Constitutional AI(Bai et al., 2022)는 명확한 원칙 집합과 AI 피드백(CAI 루프)을 활용하여 모델 내부 정렬을 달성하는 방법론을 제시했으며, 인간 피드백 기반 강화학습(Ouyang et al., 2022)과 함께 오늘날 LLM 정렬 파이프라인의 표준 기반이 되었다. 두 접근법은 단일 모델의 거동 제약 인코딩에 탁월한 효과를 입증했다. 그러나 두 방법 모두 본질적으로 모델 학습 단계에서의 정렬에 초점을 맞추어, 에이전트 시스템에서 발생하는 다단계 위임(multi-hop delegation) 구조와 동적 제약 전파(dynamic constraint propagation) 문제를 다루지 못한다. 에이전트가 외부 도구를 호출하거나 다른 에이전트에게 작업을 위임할 때 원본 제약이 모든 하위 단계에서 유지되어야 하는데, 학습 시 인코딩된 정적 정렬만으로는 위임 연산이 제약을 보존하는지 수학적으로 증명할 수 없다. 이것이 런타임 형식 보증의 필요성을 낳는 근본 간극이다.

실시간 규칙 기반 제약 강제. NeMo Guardrails(Rebedea et al., 2023)와 Guardrails AI는 프로그래머가 정의한 규칙을 LLM 추론 시간에 실시간으로 적용하는 방식을 채택했다. 이들은 즉시성(immediacy)과 가해석성(interpretability) 측면에서 실질적 이점을 제공하며 산업 배포 환경에서 검증된 신뢰성을 보였다. 그러나 이러한 시스템들은 근본적으로 정적(static) 규칙 엔진에 기반하여 에이전트 환경의 복잡한 상호작용 그래프와 제약 간 의존성을 표현하기 어렵다. 특히 조건부 제약("도구 A를 사용할 때만 제약 X를 강제")이나 확률적 제약을 에이전트 위임 그래프 전체에 전파해야 할 때, 선언적 규칙의 표현력은 한계에 직면한다. CPC가 τ: (State, Constraints) → (State', Constraints') 형태의 위임 연산자를 형식화하는 것은 이 한계를 1차 논리 수준에서 돌파하기 위한 직접적 동기다.

에이전트 성능 벤치마킹. AgentBench(Liu et al., 2023)는 다양한 도메인(웹 네비게이션, 데이터 처리, 수학적 추론 등)에서 에이전트 능력을 측정하는 포괄적 평가 표준을 수립해 재현성과 비교 가능성을 크게 향상시켰다. 그러나 AgentBench는 성능 지표(정확도, 완료율)에 초점을 맞추어 설계되었으며, 안전성 관련 차원—제약 위반율, 형식적 보증의 충족 여부, 적대적 조작에 대한 강건성—을 체계적으로 다루지 않는다. 따라서 고성능 에이전트가 반드시 안전한 에이전트임을 보장하지 못하며, 이는 성능-안전성 통합 평가 체계의 필요성을 직접 지시한다.

시뮬레이션 기반 리스크 평가. ToolEmu(Ruan et al., 2024)는 LLM 자체를 샌드박스 환경에서 실행하여 도구 오용 시나리오를 에뮬레이트하는 창의적 접근을 제시했다. 실제 배포 전 리스크를 조기에 발견할 수 있다는 실질적 가치가 있으나, 시뮬레이션 기반 평가는 본질적으로 휴리스틱에 의존하며 도출된 결론이 형식적 보증으로 번역되지 않는다. 시뮬레이션에서 특정 위험이 관찰되지 않았다는 것이 그 위험의 부재를 의미하지 않으며, 새로운 에이전트 아키텍처나 도구 조합에 대한 일반화 가능성도 제한적이다.

형식 검증 및 제약 프로그래밍과의 관계. 소프트웨어 공학 분야의 형식 검증 연구—TLA+(Lamport, 1994), Alloy(Jackson, 2002), 모델 검사(Clarke et al., 1986)—는 시스템 불변식의 수학적 보존을 증명하는 성숙한 방법론 기반을 제공한다. 또한 제약 프로그래밍(Rossi et al., 2006)의 호弧 일관성(arc consistency) 및 경로 일관성(path consistency) 알고리즘은 제약 전파의 효율적 실행 기반을 제시한다. 그러나 이 형식 방법론들은 LLM 에이전트의 확률적·자연언어 생성 특성과 동적으로 확장되는 도구 호출 그래프에 직접 적용되도록 설계되지 않았다. CPC의 Φ-보존성 증명 요건은 형식 검증의 불변식 개념을 LLM 에이전트 위임 연산에 맞게 재정립한 것으로, 형식 방법론과 에이전트 AI 안전 연구 사이의 교량적 기여를 구성한다.

종합적 위치 설정. 본 연구는 기존 연구들의 강점을 통합하되, 각각이 해결하지 못한 핵심 메커니즘 간극—위임 시 제약의 수학적 보존 증명과 런타임 인과 경로 추적의 동시 달성—을 CPC를 통해 정면으로 해결한다. Constitutional AI의 원칙 기반 정렬 개념은 Φ 불변식 집합의 설계 기초가 되고, NeMo Guardrails의 실시간 강제 경험은 AgentGuard Rust 코어의 요구사항 분석에 직접 반영된다. 결정적으로, CPC의 Causal Trace Graph는 ToolEmu의 사후 휴리스틱 시뮬레이션과 달리 런타임에 제약 위반의 인과 경로를 실시간·형식적으로 탐지하는 절차를 제공함으로써, 위반 탐지를 확률적 추정이 아닌 형식적으로 완전한(formally complete) 절차로 격상시킨다. AgentBench의 다면적 벤치마킹 구조는 성능-안전성 통합 평가 메트릭 설계에 흡수된다. 이러한 메커니즘적 차별화가 AgentGuard를 기존 부분 해법의 단순 조합이 아닌, 에이전트 위임 체인 전 계층에 걸친 형식 보증 레이어로 위치시킨다.

3. 배경

대규모 언어 모델(Large Language Models, LLM)의 발전과 함께 자율 에이전트 시스템이 복잡한 의사결정 작업에 배포되는 사례가 빠르게 증가하고 있다. LangGraph, AutoGen, CrewAI 같은 프레임워크는 에이전트가 도구 호출(tool use), 다단계 추론(multi-step reasoning), 다중 에이전트 협력(multi-agent collaboration)을 통해 실시간 의사결정을 수행할 수 있도록 지원한다. 그러나 이러한 자율성의 확대는 심각한 안전성 과제를 동반한다. 단일 에이전트가 사용자의 명시적 지침을 우회하거나 조직의 핵심 정책과 충돌하는 행동을 수행하는 것에 그치지 않고, 에이전트가 다른 에이전트에게 작업을 위임하는 계층적 구조에서는 취약성이 구조적으로 증폭된다. 상위 에이전트의 제약(constraint)이 하위 위임 체인 전반에 걸쳐 올바르게 전파되지 않으면, 어느 한 에이전트도 단독으로는 정책을 위반하지 않더라도 위임 조합의 결과가 원래 의도된 안전 경계를 벗어나는 **조합적 취약성(compositional vulnerability)**이 발생할 수 있다.

기존의 안전성 강화 방법론들은 주로 두 가지 방향에서 전개되어 왔다. 첫째, Constitutional AI(CAI) 패러다임은 헌법적 원칙들을 LLM의 프롬프트 또는 보상 신호에 인코딩하고, RLHF(Reinforcement Learning from Human Feedback)와 결합하여 모델 수준의 행동 규범을 학습하게 한다. 둘째, Red-teaming 및 적대적 평가는 모델의 안전성 경계를 사전에 탐색하고 취약점을 발견하려는 시도다. 그러나 두 방법론 모두 에이전트 시스템 수준의 제약 무결성(constraint integrity)을 보장하지 못한다는 근본적 한계를 지닌다. RLHF로 학습된 모델이 단일 에이전트 맥락에서는 헌법적 원칙을 충실히 따르더라도, (a) 중간 에이전트가 상위 제약을 명시적으로 하위에 전달하지 않는 묵시적 위임, (b) 도구 호출 연쇄에서 각 단계의 제약 집합이 독립적으로 평가되어 합성 효과를 놓치는 분절적 검증, (c) 동적 환경 변화로 인해 사전 학습된 행동 경계가 실시간으로 무력화되는 배포 시점 표류(deployment-time drift)라는 세 가지 실패 유형이 관찰된다. Red-teaming은 본질적으로 샘플링 기반이므로 위임 깊이 k에 대한 경우의 수가 지수적으로 증가하는 다중 에이전트 시나리오에서 모든 제약 위반 경로를 탐지하기 어렵다. 더 나아가, 두 방법론 모두 제약 위반이 발생했을 때 그 **인과 경로(causal provenance)**를 추적할 수 있는 메커니즘을 제공하지 않아 사후 분석과 개선이 구조적으로 제한된다.

자율 에이전트의 안전성을 보장하기 위해서는 두 가지 속성이 필수적이다. 첫째, 헌법적 제약은 형식적이고 검증 가능한 방식으로 정의되어야 하며, 런타임에 제약 위반이 감지되면 어떤 에이전트의 어떤 행동이 원인이었는지를 추적할 수 있어야 한다. 둘째, 에이전트의 위임 연쇄(delegation chain) 전체에서 제약이 손실되지 않도록 위임 연산 자체가 제약 보존 속성을 형식적으로 만족해야 한다. 단순한 사후 모니터링(post-hoc monitoring)만으로는 충분하지 않으며, 위임 연산이 제약을 보존하는 형태로 설계되고 검증되어야 한다. 그러나 현재의 에이전트 프레임워크들은 이러한 제약 전파를 위한 전용 추상화나 형식 체계를 제공하지 않아, 개발자가 제약 전파 논리를 애플리케이션 코드에 수동으로 산재시켜야 하는 상황이 빈번하다. 이는 유지보수 부담을 가중시킬 뿐만 아니라, 검증 커버리지를 개발자 역량에 전적으로 의존하게 만들어 시스템 수준의 안전성 보증을 불가능하게 한다.

본 논문이 제안하는 Constraint Propagation Calculus(CPC)는 위에서 기술한 갭을 메우기 위해 고안된 형식 체계다. CPC는 헌법적 제약을 1차 논리(first-order logic) 기반의 불변식 집합 Φ로 형식화하고, 에이전트 위임 연산 τ: (State, Constraints) → (State', Constraints')에 대해 Φ-보존성(Φ-preservingness)을 수학적으로 강제한다. 즉, 주어진 상태 σ와 제약 집합 Φ에서 출발하여 위임 연산을 거친 후의 상태 σ'에서도 Φ가 여전히 만족되어야 한다는 조건을 정리(theorem) 수준에서 검증한다. 더 나아가 CPC는 런타임 Causal Trace Graph를 구축하여, 제약 위반이 발생했을 때 위반을 초래한 행동 체인과 그 인과 경로를 실시간으로 추적한다. AgentGuard는 CPC를 Rust 네이티브 코어로 구현하고, LangGraph, AutoGen, CrewAI 등 주류 에이전트 프레임워크와의 통합을 지원하는 프로덕션급 플랫폼으로, 기존의 Constitutional AI 및 RLHF 기반 접근과 달리 에이전트 시스템 전체에 걸친 제약의 **형식적 무결성 보증(formal integrity guarantee)**을 제공한다.

4. 방법론

Constraint Propagation Calculus(CPC)의 형식적 토대는 헌법적 제약을 1차 논리(first-order logic) 기반의 불변식 집합 Φ = {φ₁, φ₂, …, φₙ}으로 정의하는 것에서 출발한다. 각 불변식 φᵢ는 에이전트 상태 공간 S와 도구 호출 공간 A에 걸쳐 정의된 술어(predicate)로, "금융 거래 승인은 반드시 인간 검토자의 명시적 서명을 수반해야 한다"와 같은 도메인별 안전 속성을 포착한다. Φ 집합은 단순한 규칙 목록이 아니라, 상호 간의 함의(implication) 및 충돌 관계를 명시적으로 인코딩한 편서(偏序, partial order) 구조를 지니도록 설계된다. 이를 통해 φᵢ → φⱼ의 형태로 위반 전파 방향을 사전 분석할 수 있으며, 복합 에이전트 파이프라인에서 어느 단계의 제약 완화가 하위 단계의 어떤 불변식을 위협하는지를 정적으로 추론하는 기반을 마련한다.

위임 연산 τ: (State, Constraints) → (State', Constraints')는 CPC의 핵심 변환 단위로, 에이전트 A가 서브에이전트 B에게 작업을 위임하는 행위를 형식적으로 포착한다. τ가 Φ-보존적(Φ-preserving)이라 함은, 임의의 상태 s ∈ S와 제약 집합 C(C는 Φ의 임의의 부분집합에 국한되지 않는 일반 제약 집합임)에 대해 τ(s, C) = (s', C')가 성립할 때 C' ⊇ C∩Φ를 만족함을 의미한다. 즉, 위임 이후의 제약 집합이 입력 제약 중 Φ와 교차하는 부분 전체를 포함해야 하며, 이 조건은 위임 과정에서 헌법적 제약이 희석(dilution)되지 않음을 보장한다. 다단계 위임 체인 τₙ∘…∘τ₁에서는 각 τᵢ가 Φ-보존적이면 합성 연산 역시 Φ-보존적임을 귀납적으로 증명할 수 있으며, 이를 단조 합성 정리(Monotone Composition Theorem, MCT)로 명명한다. Φ-보존성의 기계 검증을 실현하기 위해, 본 연구는 각 τ 인스턴스에 대해 사전조건과 사후조건을 Hoare 트리플 형식으로 명세하고, Coq 증명 보조기(proof assistant)를 활용해 MCT의 귀납 단계를 수동 보조된 반자동(semi-automated) 방식으로 검증하는 파이프라인을 구축한다. 특히, AgentGuard가 지원하는 유한 비순환 위임 그래프(Finite Acyclic Delegation Graph, FADG) 패턴에 한정하여 Coq 증명 템플릿을 사전 합성(pre-synthesized)해 두고, 새로운 에이전트 구성이 해당 패턴에 부합하는지를 정적 분석기로 자동 확인한 후 대응 증명 인스턴스를 발행하는 구조를 채택한다. 이로써 FADG 범위 내에서 배포 이전 제약 보존성의 수학적 확신을 확보한다.

런타임 제약 위반 탐지는 Causal Trace Graph(CTG)를 통해 실현된다. CTG는 에이전트 실행 과정에서 발생하는 모든 상태 전환, 도구 호출, 메모리 접근을 방향성 비순환 그래프(DAG)로 실시간 기록하는 구조체로, 각 노드는 에이전트 행동 단위에 해당하고 각 엣지는 인과적 의존 관계를 나타낸다. CTG에는 두 종류의 레이블이 부착된다. 첫째, 제약 태그(constraint tag)로 해당 노드가 Φ의 어떤 불변식과 연관되는지를 명시하며, 둘째, 전파 가중치(propagation weight)로 부모 노드의 위반이 자식 노드에 미치는 영향 강도를 수치화한다. 실시간 감시기(Real-Time Supervisor, RTS)는 CTG를 온라인으로 순회하면서 φᵢ 위반이 감지될 경우 역방향 인과 추적을 통해 근본 원인 노드를 식별하고, 해당 서브트리의 실행을 즉각 차단하거나 대체 위임 경로로 리라우팅하는 인터럽트 신호를 발생시킨다. CTG 순회의 시간 복잡도는 노드 수 V와 엣지 수 E에 대해 O(V+E)이며, 유한 전파 종료 보조정리(Finite Propagation Termination Lemma, FPTL)는 FADG 구조 하에서 역방향 추적이 유한 단계 내에 반드시 종료됨을 보장한다.

AgentGuard 플랫폼은 CPC 및 CTG 로직 전체를 메모리 안전성과 결정론적 실행 시간이 보장되는 Rust 코어로 구현한다. Φ 불변식 집합은 정적으로 컴파일되어 바이너리에 내장되며, τ 위임 연산의 Φ-보존성 검사는 제로카피(zero-copy) 직렬화를 활용해 에이전트 호출당 추가 지연을 목표 기준인 15밀리초 이내로 억제하도록 설계된다. 이 Rust 코어 위에 네 계층의 통합 인터페이스가 구축된다. SDK 계층은 LangGraph, AutoGen, CrewAI 각각의 네이티브 API에 타입 안전한 래퍼를 제공한다. Console 계층은 웹 기반 대시보드로, CTG 시각화와 Φ 위반 히스토그램, 에이전트 파이프라인의 제약 커버리지 지표를 실시간으로 제공한다. RTS 계층은 독립 프로세스 형태로 배포되어 메인 에이전트 실행 루프와 분리된 장애 도메인(fault domain)을 형성한다. Certification 계층은 배포 전 정적 분석 파이프라인으로, FADG 패턴에 해당하는 에이전트 그래프에 대해 사전 합성된 Coq 증명 템플릿을 인스턴스화하고 그 통과 여부를 인증서(certificate) 형태로 발행한다.

에이전트 AI 안전성: 자율 의사결정 체인에서의 제약 전파

1. 서론

2. 관련 연구

3. 배경

4. 방법론

관련 글

에이전트 의사결정에서의 인과 추론: Pearl 프레임워크 적용

에이전트 AI 평가 벤치마크: 태스크 완료 지표를 넘어서

에이전트 기업 워크플로우: RPA를 인지 자동화로 대체