장기 수평 에이전트 시스템을 위한 영속 메모리 아키텍처
에피소딕·의미적·절차적 메모리 계층을 통합한 MemNexus 플랫폼이 장기 수평 AI 에이전트의 일관성 문제를 해결하는 방법을 분석한다. 세션 간 메모리 지속성 93% 달성 실험 결과를 포함한다.
참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.
초록
장기 수평 에이전트(Long-Horizon Agent)의 핵심 한계는 세션 간 컨텍스트 단절이다. 본 논문은 에피소딕·의미적·절차적 3계층 메모리 아키텍처를 통합한 MemNexus 플랫폼을 제안한다. 계층 간 인과적 링크를 통한 연관 검색과 HNSW 기반 근사 최근접 이웃 인덱싱을 결합하여, 에이전트 세션 간 메모리 지속성 93%와 관련 기억 검색 정밀도 0.87을 달성한다.
1. 서론
1.1 장기 수평 과제의 도전
LLM 기반 에이전트의 실용적 적용이 확대되면서, 단순 단일 세션 과제를 넘어 며칠 또는 몇 주에 걸친 장기 수평 과제(Long-Horizon Task)에 대한 수요가 증가하고 있다. 소프트웨어 프로젝트 관리 에이전트, 연구 보조 에이전트, 개인화된 학습 에이전트 등이 대표적 사례다.
이들 과제의 공통 요건: 에이전트는 이전 상호작용에서 무엇을 했는지, 무엇을 배웠는지, 어떤 방식이 효과적이었는지 기억해야 한다. 현재 LLM의 컨텍스트 윈도우(최대 128K~1M 토큰)는 단일 세션 내 기억에는 충분하지만, 수백 세션에 걸친 누적 경험을 표현하기에는 구조적으로 부적합하다.
1.2 컨텍스트 창 넘어서기
기존 접근법들의 한계:
- 단순 RAG: 과거 대화를 청크로 분할하여 검색. 문서 간 인과 관계 추적 불가. 검색 결과의 시간적 순서와 맥락 손실.
- 요약 기반: 장기 기억을 점진적으로 요약. 중요한 세부사항 손실. 요약의 정확성이 LLM 능력에 과도하게 의존.
- MemGPT 방식: LLM 자체를 메모리 관리자로 활용. 토큰 비용 과다. 메모리 관리의 신뢰성이 LLM 품질에 종속.
MemNexus는 이 한계들을 인지과학의 기억 구조 이론에서 영감을 받아 해결한다.
1.3 기여
- C1: 3계층(에피소딕·의미적·절차적) 영속 메모리 아키텍처 설계 및 구현
- C2: 계층 간 인과적 링크를 활용한 연관 기억 검색 알고리즘
- C3: HNSW + 시간적 감소 함수의 하이브리드 인덱싱 전략
- C4: 세션 간 메모리 지속성 93%, 검색 정밀도 0.87 달성
2. 메모리 구조 이론적 기반
2.1 인지과학적 기억 분류
인지과학은 인간 기억을 다음과 같이 분류한다(Tulving, 1972; Squire, 2004):
- 에피소딕 기억(Episodic): 특정 시간·장소와 연결된 개인적 경험. "지난 월요일 프로젝트 X에서 Y를 구현했다."
- 의미적 기억(Semantic): 일반적 사실과 개념. "Python의 list comprehension은 map보다 빠르다."
- 절차적 기억(Procedural): 어떻게 하는지에 대한 암묵적 지식. "이 유형의 버그는 로그 분석 후 스택 트레이스 확인 순서로 디버깅한다."
AI 에이전트에 이 분류를 적용하는 것은 직관적으로 타당하다. 에피소딕 기억은 과거 행동의 추적가능성을, 의미적 기억은 도메인 지식의 축적을, 절차적 기억은 경험 기반 전략의 학습을 가능하게 한다.
2.2 망각 곡선과 기억 중요도
Ebbinghaus의 망각 곡선은 시간에 따른 기억 강도 감소를 R = e^(-t/S)로 모델링한다(R: 기억 강도, t: 시간, S: 기억 안정성). MemNexus는 에이전트 기억에 이 원리를 적용하되, 중요도 가중치를 추가한다:
Importance(m): 기억 m의 중요도 (접근 빈도, 사용자 명시적 강조, 인과 연결 수 기반)Recency(m, t): 시간적 감소 e^(-λ(t-t_m)) (λ: 도메인별 감소율)Similarity(m, q): 쿼리 q에 대한 의미적 유사도 (코사인 유사도)
3. MemNexus 아키텍처
3.1 3계층 스토리지 설계
에피소딕 스토어: 에이전트의 각 행동 이벤트를 타임스탬프, 컨텍스트, 결과와 함께 저장한다. 스키마:
의미적 스토어: 에이전트가 학습한 사실과 개념을 저장한다. 자동 중복 제거와 모순 감지를 포함한다:
절차적 스토어: 성공적인 전략 패턴을 추상화하여 저장한다:
3.2 HNSW 기반 통합 검색
세 계층의 기억을 통합 검색하기 위해 HNSW(Hierarchical Navigable Small World) 그래프 [5]를 활용한다. HNSW는 O(log n) 탐색 복잡도로 고차원 벡터 공간에서 근사 최근접 이웃을 효율적으로 검색한다.
핵심 매개변수:
- 임베딩 모델: BGE-M3 (512차원, 다국어 지원)
- HNSW M=32 (연결 수), ef=200 (탐색 범위)
- 결과 재순위: Relevance(m, q, t) 함수 적용
3.3 인과적 링크 그래프
MemNexus의 차별화된 핵심: 기억 간 인과 관계를 명시적으로 저장하는 지식 그래프다. 에이전트의 행동 A가 결과 B를 낳고, 그 결과로 기억 C가 형성되는 인과 사슬을 그래프로 표현한다.
이 구조를 통해 달성하는 두 가지:
- 소급 추적(Retroactive Tracing): "왜 이 결정을 내렸는가?"에 대한 설명 가능성
- 연상 검색(Associative Retrieval): 직접 관련 기억뿐 아니라 인과적으로 연결된 기억까지 함께 검색
4. 실험 평가
4.1 벤치마크 설정
평가 과제: 3가지 장기 수평 시나리오
- 소프트웨어 프로젝트 에이전트: 5주간 일일 코드 리뷰 및 버그 수정 세션 (35세션)
- 연구 보조 에이전트: 3주간 특정 주제 리서치 및 문헌 정리 (21세션)
- 고객 지원 에이전트: 4주간 동일 고객 반복 문의 처리 (28세션)
비교 시스템: MemoryBank [2], ExpeL [1], 단순 RAG, MemNexus
4.2 측정 지표
- 메모리 지속성(MP): 이전 세션의 관련 정보를 현재 세션에서 정확히 활용한 비율
- 검색 정밀도(RP): 검색된 기억 중 실제 관련 기억의 비율 (인간 평가)
- 컨텍스트 일관성(CC): 세션 간 에이전트 행동의 일관성 (동일 상황에서 일관된 전략 적용 비율)
4.3 결과
| 시스템 | MP | RP | CC |
|---|---|---|---|
| 단순 RAG | 61% | 0.69 | 0.54 |
| ExpeL | 74% | 0.76 | 0.68 |
| MemoryBank | 79% | 0.81 | 0.73 |
| MemNexus | 93% | 0.87 | 0.89 |
MemNexus의 성능 우위는 특히 컨텍스트 일관성에서 두드러진다(+22% vs MemoryBank). 절차적 메모리 계층이 에이전트의 전략적 일관성을 크게 향상시키는 것으로 분석된다.
4.4 계층별 기여도 분석
절제 연구(Ablation Study)를 통해 각 메모리 계층의 기여도를 분석했다:
- 에피소딕만: MP 61%, RP 0.72, CC 0.58
- 에피소딕 + 의미적: MP 79%, RP 0.82, CC 0.71
- 에피소딕 + 의미적 + 절차적(MemNexus): MP 93%, RP 0.87, CC 0.89
절차적 메모리가 컨텍스트 일관성에 가장 큰 기여를 한다. 이는 에이전트가 경험에서 추상화된 전략을 학습하여 유사 상황에 일관되게 적용할 수 있기 때문이다.
5. MemAgent Corp 플랫폼 전략
5.1 사업 모델
MemAgent Corp은 MemNexus를 B2B SaaS로 제공한다. 주요 수익 모델:
- 스토리지 기반 과금: 에이전트 메모리 저장 용량(GB/월)
- 검색 API 과금: 월별 검색 쿼리 수 기반
- 엔터프라이즈 플랜: 무제한 스토리지 + 온프레미스 배포 + SLA 99.9%
5.2 통합 생태계
MemNexus는 주요 에이전트 프레임워크와 네이티브 통합을 제공한다:
- LangChain/LangGraph: 플러그인 패키지 (
langchain-memnexus) - AutoGen: 커스텀 메모리 백엔드
- CrewAI: Tool 형식 래퍼
6. 결론
본 논문은 3계층 영속 메모리 아키텍처가 장기 수평 에이전트의 핵심 한계(세션 간 컨텍스트 단절)를 해결할 수 있음을 실험적으로 증명했다. 특히 절차적 메모리 계층과 인과적 링크 그래프의 결합이 에이전트의 전략적 일관성에 기여하는 핵심 요인임을 절제 연구를 통해 규명했다.
향후 연구 방향: 망각 곡선 매개변수의 개인화 학습, 메모리 압축 알고리즘의 정보 손실 최소화, 다중 에이전트 간 공유 메모리의 일관성 프로토콜.
참고문헌
- Zhao, A. et al. (2023). ExpeL: LLM Agents Are Experiential Learners. arXiv:2308.10144
- Zhong, W. et al. (2024). MemoryBank: Enhancing Large Language Models with Long-Term Memory. arXiv:2305.10250
- Park, J.S. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. arXiv:2304.03442
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401
- Malkov, Y.A. and Yashunin, D.A. (2018). Efficient and Robust Approximate Nearest Neighbor Search Using HNSW. arXiv:1603.09320