계층적 에이전트 네트워크: 대규모 감독자-작업자 패턴
수백~수천 개 에이전트를 조율하는 계층적 감독자-작업자(Supervisor-Worker) 패턴의 2026년 SOTA 설계를 분석한다. HierarchAI의 ConductorOS 플랫폼을 통한 프로덕션급 계층 오케스트레이션 아키텍처를 포함한다.
참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.
초록
단일 감독자 에이전트는 관리 대상이 15개를 초과하면 인지 부하로 성능이 급감한다. 본 논문은 계층적 에이전트 네트워크(Hierarchical Agent Network, HAN)의 3계층 설계 — 상위 Planner, 중위 Supervisor, 하위 Worker — 를 통해 이 한계를 극복하는 방법을 제시한다. HierarchAI의 ConductorOS 플랫폼에서 500개 Worker 에이전트를 25개 Supervisor, 5개 Planner로 조율한 실험 결과, 평면 구조 대비 Task Completion Rate +31%, 평균 응답 지연 −42%를 달성한다.
1. 서론
1.1 평면 구조의 규모 한계
20242025년 멀티에이전트 연구에서 반복적으로 관찰된 패턴: 에이전트 수가 증가할수록 조율 오버헤드가 초선형적으로 증가한다. AutoGen [5]의 Group Chat은 510개 에이전트에서 효과적이지만 20개를 넘으면 토픽 드리프트와 중복 작업이 급증한다. Magentic-One [1]의 단일 Orchestrator 구조도 15~20개 전문 에이전트를 넘으면 의사결정 병목이 발생한다.
이 한계의 근본 원인은 단일 감독자의 **인지 부하(cognitive load)**다. LLM 기반 감독자가 N개 작업자의 상태를 동시에 추적할 때, 컨텍스트 윈도우 내 각 작업자에게 할당되는 평균 토큰 수가 N에 반비례한다. N이 커질수록 각 작업자에 대한 감독 품질이 저하된다.
1.2 인간 조직의 교훈
인간 조직 이론은 **관리 범위(Span of Control)**라는 오래된 원칙을 제공한다. 한 명의 관리자가 효과적으로 감독할 수 있는 직속 부하 수는 510명이며, 이를 초과하면 계층을 추가하여 확장한다. 군대의 분대(10명)→소대(34분대)→중대(3~4소대) 구조, 기업의 팀→부서→본부 구조가 모두 이 원칙을 따른다.
멀티에이전트 시스템에 이 원칙을 적용하면: 단일 감독자 대신 재귀적 계층 구조로 확장한다.
1.3 기여
- C1: 계층적 에이전트 네트워크의 3계층 참조 아키텍처 (Planner → Supervisor → Worker)
- C2: 관리 범위 5~10 원칙의 LLM 에이전트 적용 타당성 실험적 검증
- C3: 계층 간 통신 프로토콜 (집계·위임·에스컬레이션) 설계
- C4: 500 Worker 스케일 실험 — 평면 대비 TCR +31%, 지연 −42%
2. 관련 연구
2.1 평면 멀티에이전트 프레임워크
MetaGPT [4]는 역할 기반 협업(PM·Architect·Engineer·QA)으로 5개 에이전트 스케일에서 효과적이나, 확장 전략이 명시적이지 않다. AutoGen [5]의 Group Chat은 대화 기반으로 유연성이 높지만 규모 한계가 뚜렷하다.
HuggingGPT [3]는 ChatGPT를 Controller로 두고 HuggingFace의 다수 전문 모델을 호출하는 마스터-슬레이브 구조다. 이는 2계층 구조의 원형이지만, Controller 단일 인스턴스에 의존하여 규모 확장에서 병목이 된다.
2.2 Plan-and-Solve Prompting
Wang et al. [2]의 Plan-and-Solve 접근법은 단일 LLM 내에서 "계획 수립 → 하위 과제 해결" 2단계를 분리한다. 이 원칙을 에이전트 수준으로 확장하면: Planner 에이전트가 고수준 계획을 수립하고, Worker 에이전트가 하위 과제를 실행한다.
2.3 Magentic-One의 계층적 설계
Magentic-One [1]은 하나의 Orchestrator가 4개 전문 에이전트(WebSurfer, FileSurfer, Coder, ComputerTerminal)를 조율하는 2계층 구조다. GAIA 벤치마크에서 최고 성능을 달성했으나, 단일 Orchestrator의 SPOF(Single Point of Failure)와 규모 확장 한계가 있다.
HAN은 Magentic-One의 설계 원칙을 확장하여 Orchestrator 자체를 계층화한다.
3. HAN 참조 아키텍처
3.1 3계층 설계
Planner (상위): 전체 과제의 전략적 분해. 복잡한 목표를 Supervisor들이 실행 가능한 하위 목표로 분할. 일반적으로 1~5개 Planner만 존재. 가장 강력한 모델(Opus 4.1 등) 사용.
Supervisor (중위): Planner로부터 받은 하위 목표를 5~20개 Worker에게 분배. 중간 결과 집계. 이상 발생 시 Planner에 에스컬레이션. Sonnet 4.5 사용.
Worker (하위): 구체적 도구 호출 및 단일 태스크 실행. 전문화된 에이전트(웹 스크래퍼·코드 작성자·문서 요약자 등). Haiku 3.5 사용 — 비용 최적화.
3.2 관리 범위 원칙의 적용
각 계층의 fan-out(하위 관리 대상 수)은 인간 조직 원칙을 따른다:
- Planner:Supervisor = 1:5
10 (한 Planner가 510개 Supervisor 감독) - Supervisor:Worker = 1:10
20 (한 Supervisor가 1020개 Worker 감독)
이 비율에서 500 Worker 규모의 시스템은: 5 Planner → 25 Supervisor → 500 Worker (전체 530 에이전트).
3.3 통신 프로토콜
HAN의 계층 간 통신은 4가지 메시지 유형으로 제한된다:
| 메시지 | 방향 | 용도 |
|---|---|---|
DELEGATE | 상→하 | 과제 할당 (목표·제약·예산) |
REPORT | 하→상 | 진행 보고 (상태·부분 결과) |
ESCALATE | 하→상 | 예외 상황 (실패·모호성·범위 초과) |
AGGREGATE | 하→상 | 최종 결과 집계 |
각 메시지는 JSON 스키마로 구조화되어 LLM 자유 형식 대화 대비 파싱 오류가 제거된다.
4. 실험
4.1 실험 설정
과제: 100개 기업의 공개 재무제표에서 특정 재무 지표(EBITDA, 부채비율, 영업이익률) 추출 및 이상 탐지. 각 기업당 ~50페이지 PDF 분석 필요.
비교 시스템:
- A: 평면 구조 (AutoGen Group Chat, 20 에이전트)
- B: 2계층 (Magentic-One 스타일, 1 Orchestrator + 20 Worker)
- C: 3계층 HAN (5 Planner + 25 Supervisor + 500 Worker) ← 본 연구
측정 지표:
- TCR (Task Completion Rate): 100개 기업 중 성공적 추출 완료 비율
- 평균 응답 지연: 단일 기업 처리 소요 시간
- 토큰 비용: 전체 100개 처리 비용
- 오류 전파율: 단일 에이전트 실패가 전체 과제에 영향을 미치는 비율
4.2 결과
| 시스템 | TCR | 평균 지연 | 토큰 비용 | 오류 전파율 |
|---|---|---|---|---|
| A (평면) | 62% | 47분 | $24.80 | 38% |
| B (2계층) | 78% | 31분 | $31.20 | 22% |
| C (HAN 3계층) | 93% | 18분 | $28.40 | 6% |
주요 발견:
- TCR: HAN이 평면 대비 +31%p 향상. 계층화가 인지 부하 분산을 통해 품질을 높임.
- 지연: HAN이 평면 대비 −42%. 병렬화 효율 증가 (평면은 순차 의존성 많음).
- 비용: HAN은 Worker에 Haiku 사용으로 2계층 대비 −9% 절약.
- 오류 전파율: HAN이 가장 낮은 6%. Supervisor 층이 격리 버퍼로 작동.
4.3 관리 범위 민감도
Supervisor:Worker 비율을 5, 10, 15, 20, 30으로 변화시키며 TCR 측정:
| 비율 | TCR |
|---|---|
| 1:5 | 91% |
| 1:10 | 93% |
| 1:15 | 92% |
| 1:20 | 89% |
| 1:30 | 78% |
결론: 1:1015에서 정점. 1:20 이상에서 성능 저하 시작. 인간 조직의 "관리 범위 510" 원칙이 LLM 에이전트에도 유효.
5. HierarchAI ConductorOS 플랫폼
5.1 사업 모델
HierarchAI는 계층형 에이전트 운영 플랫폼 ConductorOS를 제공한다. 대상 고객: 기업 운영 자동화(RPA 대체), 대규모 데이터 처리, 복잡한 콜센터 자동화를 필요로 하는 Fortune 500 기업.
핵심 가치 제안: "수백 개 에이전트를 안정적으로 운영하는 인프라 — Kubernetes가 컨테이너를 관리하듯, ConductorOS가 에이전트를 관리한다."
5.2 ConductorOS 핵심 기능
자동 계층 생성: 사용자가 고수준 목표를 입력하면, ConductorOS가 목표 복잡도를 분석하여 필요한 Planner/Supervisor/Worker 수와 역할을 자동 결정한다.
동적 계층 재구성: 실행 중 특정 Supervisor의 부하가 증가하면, 해당 Supervisor 하위의 Worker 일부를 다른 Supervisor로 재할당한다. Kubernetes의 HPA(Horizontal Pod Autoscaler)와 유사한 원리.
계층별 관찰 가능성(Observability): 각 계층의 메시지 흐름, 의사결정 이유, 비용 소모를 계층별로 시각화. Planner 레벨의 전략적 의사결정부터 Worker 레벨의 개별 도구 호출까지 완전한 추적.
장애 격리 (Fault Isolation): Worker 수준 실패는 Supervisor에 국한. Supervisor 수준 실패는 Planner에 에스컬레이션하여 다른 Supervisor로 재시도. Planner 수준 실패는 인간 운영자에게 알림.
5.3 배포 사례: 보험사 청구 자동 심사
대형 보험사 A사에 ConductorOS를 적용한 사례:
- 규모: 월 12만 건 보험 청구 → 자동 1차 심사
- 계층: 2 Planner (질병·상해 분류), 15 Supervisor (청구 유형별), 180 Worker (문서 파싱·의료 코드 매칭·규정 체크)
- 결과: 자동 심사 완결율 74%(나머지 26%만 인간 상담원 이관). 평균 처리 시간 2.3일 → 4시간. 연간 운영 비용 $12M → $4.1M.
6. 한계 및 향후 연구
6.1 한계
계층 간 정보 손실: 하위 계층의 풍부한 디테일이 집계 과정에서 요약되어 상위 계층에 전달. 일부 중요 신호가 손실될 수 있음. 완화 방안: 이상 탐지 시 원본 컨텍스트 자동 상향 전파.
비용 최적화의 역설: Worker에 Haiku를 사용하면 비용은 절감되지만 Worker 품질이 Sonnet/Opus 대비 낮아 Supervisor의 재시도 빈도가 증가할 수 있음. 과제 복잡도에 따른 동적 모델 선택이 향후 연구 과제.
계층 수 결정의 휴리스틱 의존: 현재 ConductorOS는 규칙 기반으로 계층 수를 결정한다. 학습 기반 최적화는 향후 연구.
6.2 향후 연구
- 4계층+ 확장성: 수만 개 에이전트 규모에서 계층을 4~5층으로 확장할 때의 통신 오버헤드 분석
- 연속 학습: 실제 운영 데이터로 계층 구성 자동 최적화
- 이종 에이전트 혼합: LLM 에이전트와 규칙 기반 시스템(RPA)의 통합 계층 설계
7. 결론
본 논문은 인간 조직 이론의 "관리 범위" 원칙을 LLM 기반 멀티에이전트 시스템에 적용한 계층적 에이전트 네트워크(HAN)를 제시했다. 500 Worker 규모 실험에서 평면 구조 대비 Task Completion Rate +31%, 응답 지연 −42%를 달성하여 계층화의 효용을 실증했다. HierarchAI의 ConductorOS 플랫폼은 이 아키텍처를 Kubernetes 수준의 운영 안정성과 결합하여 엔터프라이즈 에이전트 인프라로 제공한다.
핵심 메시지: 멀티에이전트 시스템의 다음 프론티어는 개별 에이전트 품질이 아닌 에이전트 조직 구조다. 인간 조직이 수천 년간 진화시킨 계층 구조의 원칙이 AI 에이전트 생태계에도 동일하게 적용된다.
참고문헌
- Fourney, A. et al. (2024). Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks. arXiv:2411.04468
- Wang, L. et al. (2023). Plan-and-Solve Prompting. arXiv:2305.04091
- Shen, Y. et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. arXiv:2303.17580
- Hong, S. et al. (2023). MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv:2308.00352
- Wu, Q. et al. (2023). AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. arXiv:2308.08155