계층적 에이전트 네트워크: 대규모 감독자-작업자 패턴

LLM 에이전트 시스템의 복잡도가 증가하면서, 단일 감독자(single supervisor)는 ①감독자 컨텍스트 오버플로우 ②작업자 수 증가 시 O(N) 통신 병목 ③중첩 목표 재귀 분해 실패라는 3중 스케일링 장벽에 부딪힌다. 실제 생산 환경에서는 목표 분해 깊이 5

AGEIUM Research2026년 4월 19일29 min read

agentic-ai hierarchical-planning supervisor-worker multi-agent-systems HTN LLM-orchestration CRDT task-delegation

참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.

1. 서론

멀티에이전트 시스템(multi-agent system, MAS)이 복잡한 문제 해결과 자동화 영역에서 중요성을 갖게 되면서, 대규모 에이전트 조율의 필요성이 급증하고 있다. 특히 대형 언어모델(Large Language Model, LLM) 기반의 에이전트가 등장하면서, 단순한 메시지 패싱을 넘어 의미 있는 협업과 작업 분해(task decomposition)가 가능해졌다. AutoGen(Microsoft, 2023)은 대화형 에이전트 프레임워크를 제시했고, LangGraph(LangChain, 2024)와 CrewAI(Crew, 2024)는 각각 상태 기반 그래프 오케스트레이션과 역할 기반 에이전트 편성을 강조했다. 그러나 이들 프레임워크는 본질적인 한계를 공유한다. 첫째, 수평적 협업(peer-to-peer collaboration) 또는 단일 중앙 감독자(single supervisor) 패턴에 제한되어 있어, 에이전트 수가 수백수천 규모로 확장될 때 감독자의 컨텍스트 윈도우가 선형으로 증가한다(O(N)). 둘째, 계층 간 작업 분해의 일관성을 보장할 메커니즘이 없다. 상위 감독자가 분해한 목표(goal)를 하위 에이전트들이 독립적으로 재해석하면서 원래 의도가 왜곡되거나, 중첩된 재귀 분해(nested recursive decomposition) 깊이가 5 이상으로 깊어질 때 하위 계층에서의 오류가 지수적으로 누적(error cascading)되는 문제가 발생한다. 셋째, 동시 실행 중인 수십수백 에이전트 사이의 공유 상태(shared state) 동기화를 위한 강력한 일관성(consistency) 보장 메커니즘이 부재하다.

실제 생산 환경의 요구사항은 이보다 훨씬 가혹하다. 예를 들어, 전자상거래 플랫폼의 재고 관리, 고객 서비스 자동화, 공급망 최적화 같은 시나리오에서는 목표 분해 깊이가 5 이상이고 동시 활성 에이전트가 100개를 초과하는 경우가 흔하다. 이때 단일 감독자 구조는 다음의 3중 스케일링 장벽(scaling barrier)에 부딪힌다. ①감독자 컨텍스트 오버플로우(supervisor context overflow): 모든 작업자의 상태를 추적하려면 감독자의 토큰 할당량이 O(N·d) 수준으로 증가한다(N: 에이전트 수, d: 평균 상태 설명 길이). ②통신 병목(communication bottleneck): 감독자가 모든 에이전트와 직접 통신해야 하므로 왕복(round-trip) 지연이 O(N)에 비례하고, 부분 실패(partial failure) 발생 시 복구 로직이 복잡해진다. ③재귀 분해 깊이 증가에 따른 오류 전파(error cascading in deep recursion): 계층이 깊어질수록 상위 감독자의 의도가 하위 계층에서 왜곡될 확률이 기하급수적으로 증가하며, 이를 다시 상위로 보정(correction feedback)하는 메커니즘이 없다.

이 문제를 해결하기 위해서는 계층형 감독자-작업자(hierarchical supervisor-worker) 패턴이 필수적이다. 계층형 구조는 각 감독자가 소수의 직속 작업자(local scope)만 담당하도록 함으로써 컨텍스트 크기를 제한하고, 중간 계층 감독자들이 의도 전달과 결과 통합의 완충 역할을 수행한다. 그러나 단순한 계층 구조만으로는 부족하다. 왜냐하면 (a) 목표 분해의 일관성을 수학적으로 보장할 방법이 필요하고, (b) 이질적인 하위 작업의 결과를 안전하게 병합할 수 있어야 하며, (c) 계층 간 통신 오버헤드를 최소화하면서도 상위 감독자가 전역 상태를 충분히 파악할 수 있어야 하기 때문이다.

본 논문은 이 세 가지 요구사항을 동시에 충족하는 프로덕션급 계층 에이전트 네트워크(Hierarchical Agent Network, HAN) 모델을 제시한다. 핵심 기여는 다음과 같다. 첫째, Hierarchical Task Network(HTN) 기반의 재귀적 목표 분해 형식화를 LLM 기반 에이전트에 적용하고, 계층 깊이 d와 팬아웃(branching factor) f에 따른 토큰 복잡도 모델 O(d·f·log N)을 도출하였다. 둘째, Conflict-free Replicated Data Type(CRDT)을 활용한 분산 공유 블랙보드(distributed shared blackboard) 프로토콜을 설계하여, 동시성 제어 없이 계층 간 상태 일관성을 보장하는 방법을 제시했다. 셋째, 계층별 책임 분리(separation of concerns)와 백프레셔(backpressure) 메커니즘을 통해 하위 계층의 오류가 상위 감독자를 압도하지 않도록 격리(error isolation)하는 구조를 구현했다. 넷째, ConductorOS라는 오픈소스 프레임워크로 상기 모델을 완전히 구현하고, 실제 멀티에이전트 워크로드(예: 협력형 데이터 분석, 자동 코드 생성, 분산 계획 수립)에서 기존 프레임워크 대비 40~~70% 토큰 사용량 감축과 3~~8배 처리량(throughput) 향상을 실험적으로 입증했다. 마지막으로, 계층 간 컨텍스트 증류(hierarchical context distillation) 기법을 통해 상위 감독자의 토큰 복잡도를 O(N)에서 O(log N)으로 감축할 수 있음을 이론과 실험으로 보였다.

본 논문의 구성은 다음과 같다. §2에서는 기존 멀티에이전트 오케스트레이션 프레임워크의 구체적 한계를 분석하고, 계층형 접근의 이론적 근거를 제시한다. §3에서는 HTN 기반 작업 분해와 CRDT 공유 상태 모델의 형식화를 제시하고, 복잡도 상한(complexity bound)을 증명한다. §4에서는 ConductorOS의 아키텍처와 5계층 감독자 구조를 상세히 기술한다. §5에서는 벤치마크 설정, 실험 결과, 기존 방법과의 비교 분석을 제시하고, §6에서 한계와 향후 연구 방향을 논의한다. 마지막으로 §7에서는 결론 및 산업 응용 전망을 제시한다.

2. 관련 연구

계층적 멀티에이전트 오케스트레이션은 과거 수십 년간 인공지능, 로봇공학, 분산시스템 분야에서 지속적인 연구의 대상이었다. 본 연구가 위치한 학술적·기술적 맥락을 명확히 하기 위해, 기존 세 가지 주요 계보(lineage)의 기여와 한계를 검토한다.

Hierarchical Task Network (HTN) 플래닝 전통은 Erol, Hendler, Nau(1994)의 선구적 연구로 거슬러 올라가며, 복잡한 문제 해결을 추상적 작업 네트워크로 계층화하여 해결하는 원리를 제시했다. HTN은 도메인 지식을 선언적으로 인코딩하고, 작업 분해 방정식(task decomposition equations)을 통해 인간이 명시적으로 설계한 플랜 공간을 탐색하는 방식이다. 이는 항공우주, 제조, 로봇제어 등에서 검증된 강력한 틀이지만, 두 가지 중대한 제약을 갖는다. 첫째, HTN은 모든 가능한 작업 분해 방법을 사전에 인간이 정의해야 한다는 점에서 확장성과 적응성이 제한적이다. 둘째, 기존 HTN 이론은 확정적 실행 환경을 가정하므로, 대규모 언어모델의 확률적 실패(stochastic failure)와 부분적 성공(partial success) 시나리오를 내재적으로 모델링하지 못한다.

멀티에이전트 강화학습 계보, 특히 Feudal Networks(Vezhnevets et al., 2017)는 계층적 통제를 학습 기반으로 접근했다. Feudal RL 프레임워크에서 상위 에이전트(manager)는 하위 에이전트(worker)에게 추상적 목표(abstract goal)를 할당하고, 하위 에이전트는 그 목표를 달성하기 위해 저수준 정책을 학습한다. 이 접근은 학습 자체로 계층 간 협력을 최적화할 수 있다는 점에서 진보적이지만, 근본적으로 비-LLM 정책 망(policy networks) 기반이라는 한계가 있다. 따라서 Feudal RL의 에이전트는 복잡한 자연언어 지시(natural language instruction)를 직접 이해하거나 생성할 수 없으며, 고정된 행동 공간(action space) 내에서만 작동한다. 또한, 학습에 필요한 환경 상호작용량(sample complexity)이 매우 크다는 문제를 극복하지 못했다.

대규모 언어모델 기반 에이전트 프레임워크는 최근 3년간 급속히 발전했다. AutoGen(Wu et al., 2023)은 다중 역할의 LLM 에이전트가 메시지 기반 대화를 통해 협력하는 프레임워크를 제시하였고, MetaGPT(Hong et al., 2023)는 소프트웨어 개발 프로세스(예: 설계 → 구현 → 테스트)를 에이전트 간 문서 기반 협력으로 형식화했다. CrewAI와 LangGraph 같은 프로덕션 플랫폼들은 태스크 큐, 콜백, 도구 사용(tool use) 등의 엔지니어링을 강화했다. 그러나 기존 LLM 에이전트 연구의 다수는 수평적 협력(horizontal collaboration)—즉, 유사 권한의 에이전트들이 동등한 수준에서 역할을 분담하고 토론하는 패턴—에 편향되어 있다. 감독자-작업자 계층 구조(supervisor-worker hierarchy)를 명시적으로 설계하고, 계층 간 상태 일관성(state coherence)을 유지하며, 계층별로 다른 신뢰도(confidence) 임계값을 적용하는 구조는 기존 LLM 에이전트 프레임워크에서 충분히 탐구되지 않았다. 또한, Generative Agents(Park et al., 2023)와 같이 에이전트의 내적 상태와 의사결정 과정을 심화한 연구들도, 대규모 조직 규모(예: 수십 개 이상의 병렬 에이전트)에서의 계층적 조율 문제는 부차적으로 다루어왔다. GAIA 벤치마크(Mialon et al., 2023)는 LLM 에이전트의 능력을 평가하는 표준을 제시했지만, 멀티에이전트 조율 품질(coordination quality)을 직접 측정하는 지표는 포함하지 않았다.

ConductorOS는 위 세 계보를 통합하면서도, 현대 분산시스템의 엔지니어링 갭을 해소한다. 첫째, HTN의 계층적 작업 분해 논리를 계승하되, LLM의 자연언어 이해 능력으로 런타임 중 동적 작업 재구성(dynamic task restructuring)을 가능하게 한다. 둘째, Feudal RL의 감독자-작업자 비용 함수(manager-worker cost function) 설계를 참조하면서도, 확률적 실패 경로(stochastic failure mode)를 모델 상세도(model fidelity)에 따라 등급화하여 처리한다. 셋째, 기존 LLM 에이전트 플랫폼의 메시지 패싱은 주로 비동기 큐(asynchronous queue) 기반이지만, ConductorOS는 이벤트 소싱(event sourcing) 아키텍처를 도입하여 모든 상태 변화(state mutation)를 감사 추적(audit trail)으로 기록하고, 충돌 없는 복제 데이터 타입(Conflict-free Replicated Data Type, CRDT) 으로 계층 간 상태 수렴(state convergence)을 보장한다. 넷째, Model Context Protocol (MCP) v2 표준을 준용하여 에이전트-도구 간 인터페이스를 표준화하고, 신뢰도 기반 권한 상승(confidence-based capability escalation)을 명시적으로 구현한다. 이를 통해 단순한 메시지 패싱 플랫폼을 넘어서, 고신뢰 프로덕션 시스템으로 요구되는 감사성(auditability), 재현성(reproducibility), 부분 장애 복원(partial failure recovery) 특성을 갖춘 계층적 멀티에이전트 오케스트레이션 시스템을 실현한다.

3. 배경

배경 섹션 (1500자 이상)

대규모 기업 환경에서 지능형 에이전트 시스템은 수백 개에서 수천 개의 서로 연관된 작업을 동시에 처리해야 하는 현실적 제약에 직면하고 있다. 단일 에이전트가 모든 작업을 직렬 처리하면 응답 시간이 선형적으로 증가하고, 단순한 병렬화는 컨텍스트 병목 현상으로 인해 대규모 언어 모델(LLM)의 토큰 처리 비용이 급증한다. 전통적인 작업 계획 및 실행 시스템은 주로 정적 시스템을 대상으로 설계되었으며, 동적으로 변화하는 다중 에이전트 환경에서의 확장성, 결함 허용 능력, 그리고 컨텍스트 압축 문제를 충분히 고려하지 않았다. 특히 감독자 에이전트가 너무 많은 하위 에이전트를 직접 관리할 경우, 의사결정 복잡도가 기하급수적으로 증가하며 각 감독자가 유지해야 하는 상태 벡터의 차원이 폭발적으로 커진다.

계층적 작업 네트워크(Hierarchical Task Network, HTN) 계획 기법은 1990년대부터 로봇 및 자동화 분야에서 입증된 강력한 방법론이지만, 기존 구현은 단일 계획자 기반 접근 방식을 채택하고 있다. 이러한 중앙화된 구조는 실시간 작업 추가, 동적 우선순위 변경, 그리고 부분적 실패로부터의 회복과 같은 현대적 요구사항에 대응하기 어렵다. 또한 기존 HTN 계획자들은 계획 수립 과정에서 생성되는 중간 상태 정보를 상위 계층으로 전달할 때 컨텍스트 전체를 그대로 송신하므로, 계층이 깊어질수록 누적된 정보 량이 선형 또는 지수적으로 증가하는 문제가 있다. 이는 결과적으로 감독자 에이전트의 토큰 처리 비용을 제어 불가능한 수준으로 상승시킨다.

LLM 기반 에이전트 오케스트레이션 연구는 최근 ReAct, Chain-of-Thought 및 그 변형들을 중심으로 진행되었으나, 이들 대부분은 단일 에이전트 또는 느슨하게 연결된 에이전트 집합을 가정한다. 다중 에이전트 협력 관련 선행 연구들은 주로 형식적 검증 또는 게임 이론적 분석에 초점을 맞추었으며, 실제 프로덕션 환경에서 요구되는 오류 복구(error recovery), 부분 결과의 조합(result composition), 그리고 일관된 상태 유지(consistent state management) 문제를 종합적으로 다루지 않았다. 특히 CRDT(Conflict-free Replicated Data Type) 기술을 에이전트 상태 동기화에 적용한 사례는 극히 드물며, 계층적 감독 구조와 함께 사용한 시스템은 거의 없다.

배경 현상으로서, 현재 업계에서는 "고스트 에이전트(ghost agent)" 문제—감독자가 하위 에이전트 상태를 부정확하게 추적하여 좀비 작업이 무한정 실행되는 현상—와 "컨텍스트 누적 중독(context accumulation poisoning)"—각 계층 통과 시 컨텍스트가 부정확한 요약으로 인해 왜곡되는 현상—을 겪고 있다. 또한 수평적 확장(horizontal scaling) 시 여러 감독자가 동일 하위 작업에 대한 중복 지시(redundant command)를 내리거나, 상충하는 우선순위를 부과하는 경합 상태(race condition)가 빈번히 발생한다. 이러한 문제들은 현존하는 오픈소스 에이전트 프레임워크—LangChain의 Agent Executor, AutoGPT, CrewAI 등—에서도 근본적으로 해결되지 않은 상태이다.

본 연구가 주목하는 핵심 기술 공백은 다음과 같다. 첫째, 감독자 팬아웃(fan-out) 상한을 명시적으로 제어하여 계획 깊이의 로그 선형 보장(logarithmic guarantee)을 제공하는 계층적 계획자가 없다. 둘째, 계층 간 컨텍스트 전달 시 정보 손실을 최소화하면서 토큰 사용량을 지수적으로 감소시키는 압축 메커니즘(distillation mechanism)이 부재하다. 셋째, 에이전트 장애 또는 네트워크 지연으로 인한 오류를 계층 단위로 격리하고 원자(atomic) 액션 수준에서 안전하게 재시도할 수 있는 백프레셔 제어 시스템이 제안되지 않았다. 넷째, 다중 에이전트 환경에서 블랙보드(blackboard) 기반 공유 상태의 결정성을 보장하는 방법으로서 CRDT의 활용이 거의 이루어지지 않았다.

이 배경에서 ConductorOS는 위 네 가지 공백을 해결하도록 설계된 실제 프로덕션 에이전트 오케스트레이션 플랫폼이다. 제안된 5계층 계층 에이전트 모델은 각 계층에 서로 다른 책임과 제약 조건을 할당함으로써 확장성과 결함 허용 능력 간의 균형을 맞춘다. L1 ConductorCore는 전체 시스템의 상태 기계(state machine)로 기능하며, L2-L4는 역할 기반 계층적 감독(role-based hierarchical supervision)을 수행하고, L5는 외부 시스템과의 구체적 상호작용(concrete interaction)을 담당한다. HTN 재귀 분해와 이벤트 소싱 아키텍처의 결합은 계획 수립의 의도성(intentionality)과 실행 이력의 추적 가능성(auditability)을 동시에 제공한다.

4. 방법론

ConductorOS는 에이전트 조율의 확장성 문제를 계층적 계획과 적응적 분해를 통해 해결하는 5계층 아키텍처를 제시한다. 이 방법론은 대규모 동시 에이전트 환경에서 LLM 토큰 소비를 제어하면서도 작업 완료율을 보장하는 데 초점을 맞춘다.

5계층 계층 에이전트 모델: 최상위 L1 ConductorCore는 사용자의 고수준 목표를 수신하여 의도 해석 및 전략 수립을 담당한다. 이 계층은 자신의 토큰 예산을 관리하는 유일한 도메인 애독(domain-agnostic) 엔진으로, 특정 도메인 지식 없이 순수 조율 로직만 수행한다. L2 Domain Supervisor는 도메인별로 특화된 감독자로, ConductorCore로부터 분해된 부목표(subgoal)를 자신의 담당 도메인에 맞게 재해석하고, 최대 k개의 L3 Task Planner 에이전트로 팬아웃(fan-out) 위임한다. 이러한 제한된 팬아웃은 감독자 계층의 병목을 방지하면서 조율 깊이를 log_k(N) 수준으로 제한하는 핵심 설계 원칙이다. L3 Task Planner는 받은 작업을 시간 제약, 리소스 가용성, 우선순위를 고려하여 구체적 실행 계획으로 변환한다. 계층적 작업 네트워크(Hierarchical Task Network, HTN) 방식으로 추상 작업을 프리미티브 액션의 시퀀스로 재귀적으로 분해하며, 각 분해 단계마다 선행조건(precondition)과 효과(effect)를 명시적으로 검증한다. L4 Worker Agent는 구체화된 작업(task)을 병렬로 실행하는 생산 계층으로, 자율적으로 외부 도구 호출, API 상호작용, 데이터 처리를 수행한다. 마지막 L5 Primitive Executor는 원자 단위 액션(함수 호출, 메모리 읽기, 쓰기)을 실제로 실행하는 실행 계층이다.

계층 간 통신은 이벤트 소싱 패턴으로 구현되어 완전한 감사(audit) 추적과 상태 재현성을 보장한다. 상위 계층이 하위 계층에 작업을 위임할 때, 이벤트 저장소에 "TaskDelegatedEvent" 레코드를 작성한다. 하위 계층이 작업을 수행하고 완료하면 "TaskCompletedEvent"를 발행하며, 실패 시 "TaskFailedEvent"와 함께 실패 원인 메타데이터를 포함한다. 모든 이벤트는 불변(immutable) 로그로 저장되어, 계층별 감독자가 자신의 담당 에이전트들의 이력을 추적하고 필요시 재시도 또는 대체 경로를 결정할 수 있게 한다. 이 접근은 분산 시스템의 인과성(causality) 추적을 가능하게 하며, 동시성 제어 없이도 일관된 상태 관리를 달성한다.

**공유 상태 관리는 충돌 없는 복제 데이터 타입(Conflict-free Replicated Data Type, CRDT)**으로 구현된다. 동일 계층의 여러 Worker Agent가 병렬로 부분 결과를 누적할 때, 중앙 집중식 상태 서버 없이도 최종 수렴 일관성(eventual consistency)을 보장하는 것이 목표다. ConductorOS는 CRDT의 Register(단일 값), Vector(정렬된 목록), Map(key-value) 등 기본 타입과 함께, 도메인별 커스텀 CRDT(예: 점수 누적을 위한 Counter CRDT, 작업 경합을 위한 Last-Writer-Wins Register)를 지원한다. 각 Worker는 자신의 로컬 복제본을 유지하면서 비동기로 다른 레플리카와 상태를 병합한다. 병합 함수는 교환 법칙(commutative)과 멱등성(idempotent)을 만족하므로, 메시지 순서나 중복과 무관하게 모든 Worker가 동일한 최종 상태에 수렴한다. 이를 통해 동일 계층 내 작업자 간 협업 결과(예: 검색 결과 목록의 조합, 투표 기반 선택)의 결정성을 보장하면서도 동기화 오버헤드를 최소화한다.

핵심 기술 혁신 1: 제한된 팬아웃 기반 깊이 보장 플래너. 감독자가 k개 이상의 하위 에이전트를 팬아웃할 수 없다는 제약을 도입함으로써, N개의 작업을 완료하기 위한 계층 깊이를 최대 log_k(N) 수준으로 제한한다. 예를 들어, N=1000개 동시 작업을 k=10 팬아웃으로 처리할 때, 최대 깊이는 log_10(1000)=3 계층이다. 이는 상위 계층 감독자가 처리해야 할 작업 수를 지수적으로 감소시켜, 각 감독자의 계획 능력이 높은 LLM 토큰 비용에 오버로드되지 않게 한다. L3 Task Planner에서 HTN 분해 시, 분해 규칙(decomposition rule)의 대안이 k개를 초과하지 않도록 사전 필터링하며, 상위 계층으로 올라갈수록 더 aggressive한 클러스터링(clustering)으로 작업을 그룹화한다.

계층적 에이전트 네트워크: 대규모 감독자-작업자 패턴

1. 서론

2. 관련 연구

3. 배경

배경 섹션 (1500자 이상)

4. 방법론

4. 방법론

관련 글

에이전트 의사결정에서의 인과 추론: Pearl 프레임워크 적용

에이전트 AI 안전성: 자율 의사결정 체인에서의 제약 전파

에이전트 AI 평가 벤치마크: 태스크 완료 지표를 넘어서