블로그로 돌아가기
agentic-ai

계층적 에이전트 네트워크: 대규모 감독자-작업자 패턴

수백~수천 개 에이전트를 조율하는 계층적 감독자-작업자(Supervisor-Worker) 패턴의 2026년 SOTA 설계를 분석한다. HierarchAI의 ConductorOS 플랫폼을 통한 프로덕션급 계층 오케스트레이션 아키텍처를 포함한다.

AGEIUM Research2026년 4월 19일15 min read

참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.

초록

단일 감독자 에이전트는 관리 대상이 15개를 초과하면 인지 부하로 성능이 급감한다. 본 논문은 계층적 에이전트 네트워크(Hierarchical Agent Network, HAN)의 3계층 설계 — 상위 Planner, 중위 Supervisor, 하위 Worker — 를 통해 이 한계를 극복하는 방법을 제시한다. HierarchAI의 ConductorOS 플랫폼에서 500개 Worker 에이전트를 25개 Supervisor, 5개 Planner로 조율한 실험 결과, 평면 구조 대비 Task Completion Rate +31%, 평균 응답 지연 −42%를 달성한다.


1. 서론

1.1 평면 구조의 규모 한계

20242025년 멀티에이전트 연구에서 반복적으로 관찰된 패턴: 에이전트 수가 증가할수록 조율 오버헤드가 초선형적으로 증가한다. AutoGen [5]의 Group Chat은 510개 에이전트에서 효과적이지만 20개를 넘으면 토픽 드리프트와 중복 작업이 급증한다. Magentic-One [1]의 단일 Orchestrator 구조도 15~20개 전문 에이전트를 넘으면 의사결정 병목이 발생한다.

이 한계의 근본 원인은 단일 감독자의 **인지 부하(cognitive load)**다. LLM 기반 감독자가 N개 작업자의 상태를 동시에 추적할 때, 컨텍스트 윈도우 내 각 작업자에게 할당되는 평균 토큰 수가 N에 반비례한다. N이 커질수록 각 작업자에 대한 감독 품질이 저하된다.

1.2 인간 조직의 교훈

인간 조직 이론은 **관리 범위(Span of Control)**라는 오래된 원칙을 제공한다. 한 명의 관리자가 효과적으로 감독할 수 있는 직속 부하 수는 510명이며, 이를 초과하면 계층을 추가하여 확장한다. 군대의 분대(10명)→소대(34분대)→중대(3~4소대) 구조, 기업의 팀→부서→본부 구조가 모두 이 원칙을 따른다.

멀티에이전트 시스템에 이 원칙을 적용하면: 단일 감독자 대신 재귀적 계층 구조로 확장한다.

1.3 기여

  • C1: 계층적 에이전트 네트워크의 3계층 참조 아키텍처 (Planner → Supervisor → Worker)
  • C2: 관리 범위 5~10 원칙의 LLM 에이전트 적용 타당성 실험적 검증
  • C3: 계층 간 통신 프로토콜 (집계·위임·에스컬레이션) 설계
  • C4: 500 Worker 스케일 실험 — 평면 대비 TCR +31%, 지연 −42%

2. 관련 연구

2.1 평면 멀티에이전트 프레임워크

MetaGPT [4]는 역할 기반 협업(PM·Architect·Engineer·QA)으로 5개 에이전트 스케일에서 효과적이나, 확장 전략이 명시적이지 않다. AutoGen [5]의 Group Chat은 대화 기반으로 유연성이 높지만 규모 한계가 뚜렷하다.

HuggingGPT [3]는 ChatGPT를 Controller로 두고 HuggingFace의 다수 전문 모델을 호출하는 마스터-슬레이브 구조다. 이는 2계층 구조의 원형이지만, Controller 단일 인스턴스에 의존하여 규모 확장에서 병목이 된다.

2.2 Plan-and-Solve Prompting

Wang et al. [2]의 Plan-and-Solve 접근법은 단일 LLM 내에서 "계획 수립 → 하위 과제 해결" 2단계를 분리한다. 이 원칙을 에이전트 수준으로 확장하면: Planner 에이전트가 고수준 계획을 수립하고, Worker 에이전트가 하위 과제를 실행한다.

2.3 Magentic-One의 계층적 설계

Magentic-One [1]은 하나의 Orchestrator가 4개 전문 에이전트(WebSurfer, FileSurfer, Coder, ComputerTerminal)를 조율하는 2계층 구조다. GAIA 벤치마크에서 최고 성능을 달성했으나, 단일 Orchestrator의 SPOF(Single Point of Failure)와 규모 확장 한계가 있다.

HAN은 Magentic-One의 설계 원칙을 확장하여 Orchestrator 자체를 계층화한다.


3. HAN 참조 아키텍처

3.1 3계층 설계

Planner (상위): 전체 과제의 전략적 분해. 복잡한 목표를 Supervisor들이 실행 가능한 하위 목표로 분할. 일반적으로 1~5개 Planner만 존재. 가장 강력한 모델(Opus 4.1 등) 사용.

Supervisor (중위): Planner로부터 받은 하위 목표를 5~20개 Worker에게 분배. 중간 결과 집계. 이상 발생 시 Planner에 에스컬레이션. Sonnet 4.5 사용.

Worker (하위): 구체적 도구 호출 및 단일 태스크 실행. 전문화된 에이전트(웹 스크래퍼·코드 작성자·문서 요약자 등). Haiku 3.5 사용 — 비용 최적화.

3.2 관리 범위 원칙의 적용

각 계층의 fan-out(하위 관리 대상 수)은 인간 조직 원칙을 따른다:

  • Planner:Supervisor = 1:510 (한 Planner가 510개 Supervisor 감독)
  • Supervisor:Worker = 1:1020 (한 Supervisor가 1020개 Worker 감독)

이 비율에서 500 Worker 규모의 시스템은: 5 Planner → 25 Supervisor → 500 Worker (전체 530 에이전트).

3.3 통신 프로토콜

HAN의 계층 간 통신은 4가지 메시지 유형으로 제한된다:

메시지방향용도
DELEGATE상→하과제 할당 (목표·제약·예산)
REPORT하→상진행 보고 (상태·부분 결과)
ESCALATE하→상예외 상황 (실패·모호성·범위 초과)
AGGREGATE하→상최종 결과 집계

각 메시지는 JSON 스키마로 구조화되어 LLM 자유 형식 대화 대비 파싱 오류가 제거된다.


4. 실험

4.1 실험 설정

과제: 100개 기업의 공개 재무제표에서 특정 재무 지표(EBITDA, 부채비율, 영업이익률) 추출 및 이상 탐지. 각 기업당 ~50페이지 PDF 분석 필요.

비교 시스템:

  • A: 평면 구조 (AutoGen Group Chat, 20 에이전트)
  • B: 2계층 (Magentic-One 스타일, 1 Orchestrator + 20 Worker)
  • C: 3계층 HAN (5 Planner + 25 Supervisor + 500 Worker) ← 본 연구

측정 지표:

  • TCR (Task Completion Rate): 100개 기업 중 성공적 추출 완료 비율
  • 평균 응답 지연: 단일 기업 처리 소요 시간
  • 토큰 비용: 전체 100개 처리 비용
  • 오류 전파율: 단일 에이전트 실패가 전체 과제에 영향을 미치는 비율

4.2 결과

시스템TCR평균 지연토큰 비용오류 전파율
A (평면)62%47분$24.8038%
B (2계층)78%31분$31.2022%
C (HAN 3계층)93%18분$28.406%

주요 발견:

  1. TCR: HAN이 평면 대비 +31%p 향상. 계층화가 인지 부하 분산을 통해 품질을 높임.
  2. 지연: HAN이 평면 대비 −42%. 병렬화 효율 증가 (평면은 순차 의존성 많음).
  3. 비용: HAN은 Worker에 Haiku 사용으로 2계층 대비 −9% 절약.
  4. 오류 전파율: HAN이 가장 낮은 6%. Supervisor 층이 격리 버퍼로 작동.

4.3 관리 범위 민감도

Supervisor:Worker 비율을 5, 10, 15, 20, 30으로 변화시키며 TCR 측정:

비율TCR
1:591%
1:1093%
1:1592%
1:2089%
1:3078%

결론: 1:1015에서 정점. 1:20 이상에서 성능 저하 시작. 인간 조직의 "관리 범위 510" 원칙이 LLM 에이전트에도 유효.


5. HierarchAI ConductorOS 플랫폼

5.1 사업 모델

HierarchAI는 계층형 에이전트 운영 플랫폼 ConductorOS를 제공한다. 대상 고객: 기업 운영 자동화(RPA 대체), 대규모 데이터 처리, 복잡한 콜센터 자동화를 필요로 하는 Fortune 500 기업.

핵심 가치 제안: "수백 개 에이전트를 안정적으로 운영하는 인프라 — Kubernetes가 컨테이너를 관리하듯, ConductorOS가 에이전트를 관리한다."

5.2 ConductorOS 핵심 기능

자동 계층 생성: 사용자가 고수준 목표를 입력하면, ConductorOS가 목표 복잡도를 분석하여 필요한 Planner/Supervisor/Worker 수와 역할을 자동 결정한다.

동적 계층 재구성: 실행 중 특정 Supervisor의 부하가 증가하면, 해당 Supervisor 하위의 Worker 일부를 다른 Supervisor로 재할당한다. Kubernetes의 HPA(Horizontal Pod Autoscaler)와 유사한 원리.

계층별 관찰 가능성(Observability): 각 계층의 메시지 흐름, 의사결정 이유, 비용 소모를 계층별로 시각화. Planner 레벨의 전략적 의사결정부터 Worker 레벨의 개별 도구 호출까지 완전한 추적.

장애 격리 (Fault Isolation): Worker 수준 실패는 Supervisor에 국한. Supervisor 수준 실패는 Planner에 에스컬레이션하여 다른 Supervisor로 재시도. Planner 수준 실패는 인간 운영자에게 알림.

5.3 배포 사례: 보험사 청구 자동 심사

대형 보험사 A사에 ConductorOS를 적용한 사례:

  • 규모: 월 12만 건 보험 청구 → 자동 1차 심사
  • 계층: 2 Planner (질병·상해 분류), 15 Supervisor (청구 유형별), 180 Worker (문서 파싱·의료 코드 매칭·규정 체크)
  • 결과: 자동 심사 완결율 74%(나머지 26%만 인간 상담원 이관). 평균 처리 시간 2.3일 → 4시간. 연간 운영 비용 $12M → $4.1M.

6. 한계 및 향후 연구

6.1 한계

계층 간 정보 손실: 하위 계층의 풍부한 디테일이 집계 과정에서 요약되어 상위 계층에 전달. 일부 중요 신호가 손실될 수 있음. 완화 방안: 이상 탐지 시 원본 컨텍스트 자동 상향 전파.

비용 최적화의 역설: Worker에 Haiku를 사용하면 비용은 절감되지만 Worker 품질이 Sonnet/Opus 대비 낮아 Supervisor의 재시도 빈도가 증가할 수 있음. 과제 복잡도에 따른 동적 모델 선택이 향후 연구 과제.

계층 수 결정의 휴리스틱 의존: 현재 ConductorOS는 규칙 기반으로 계층 수를 결정한다. 학습 기반 최적화는 향후 연구.

6.2 향후 연구

  • 4계층+ 확장성: 수만 개 에이전트 규모에서 계층을 4~5층으로 확장할 때의 통신 오버헤드 분석
  • 연속 학습: 실제 운영 데이터로 계층 구성 자동 최적화
  • 이종 에이전트 혼합: LLM 에이전트와 규칙 기반 시스템(RPA)의 통합 계층 설계

7. 결론

본 논문은 인간 조직 이론의 "관리 범위" 원칙을 LLM 기반 멀티에이전트 시스템에 적용한 계층적 에이전트 네트워크(HAN)를 제시했다. 500 Worker 규모 실험에서 평면 구조 대비 Task Completion Rate +31%, 응답 지연 −42%를 달성하여 계층화의 효용을 실증했다. HierarchAI의 ConductorOS 플랫폼은 이 아키텍처를 Kubernetes 수준의 운영 안정성과 결합하여 엔터프라이즈 에이전트 인프라로 제공한다.

핵심 메시지: 멀티에이전트 시스템의 다음 프론티어는 개별 에이전트 품질이 아닌 에이전트 조직 구조다. 인간 조직이 수천 년간 진화시킨 계층 구조의 원칙이 AI 에이전트 생태계에도 동일하게 적용된다.


참고문헌

  1. Fourney, A. et al. (2024). Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks. arXiv:2411.04468
  2. Wang, L. et al. (2023). Plan-and-Solve Prompting. arXiv:2305.04091
  3. Shen, Y. et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. arXiv:2303.17580
  4. Hong, S. et al. (2023). MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv:2308.00352
  5. Wu, Q. et al. (2023). AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. arXiv:2308.08155

관련 글