에이전트 AI 평가 벤치마크: 태스크 완료 지표를 넘어서
2025-2026년 에이전트 AI가 프로덕션 워크로드에 본격 배치되면서, 단일 성공률 지표만으로는 엔터프라이즈 조달 결정, 규제 준수 증빙, SLA 설계를 지원할 수 없다는 현장 피드백이 누적되고 있다. 예컨대 동일한 성공률 70%라도 (A) 평균 12회 도구 호출·$
참고: 본 글은 AGEIUM Research가 게시하는 논문형 블로그입니다. 실험 결과 수치는 제시된 아키텍처의 **예시 시연(illustrative benchmark)**이며, 참고문헌에 인용된 외부 논문(arxiv·Nature·Science 등)은 실존 검증된 출처입니다.
1. 서론
지난 5년간 대규모 언어 모델의 급속한 발전은 에이전트 AI(agentic AI)의 실용화를 가속화했다. 자율적으로 도구를 선택하고 실행하며 다단계 추론을 수행할 수 있는 에이전트는 고객 지원 자동화, 소프트웨어 엔지니어링 조력, 데이터 분석, 행정 프로세스 자동화 등 엔터프라이즈 워크로드에 점진적으로 배치되고 있다. 2025년부터 2026년에 걸쳐 주요 클라우드 제공자, 벤처 자본가, 그리고 포춘 500대 기업들은 에이전트 AI를 핵심 비즈니스 인프라로 채택하기 시작했으며, 이에 따라 에이전트의 신뢰성과 성능을 엄격히 평가할 수 있는 표준화된 벤치마크의 필요성이 갈수록 절실해지고 있다.
현존하는 에이전트 AI 평가 벤치마크는 GAIA(General AI Assistant Evaluation), WebArena(웹 기반 상황 대응 시뮬레이션), SWE-bench(소프트웨어 엔지니어링), AgentBench(다중 도메인 에이전트 평가) 등이 있다. 이 벤치마크들은 다양한 도메인과 난이도의 태스크를 제공하고, 에이전트의 최종 결과물 정합성을 판정하는 데는 상당한 표준성을 달성했다. 그러나 근본적인 한계가 존재한다. 기존 벤치마크들은 태스크 완료 여부를 이진(binary) 성공/실패로 판정하고, 이를 단일 스칼라 지표—즉, 성공률(success rate)—로 집계한다. 이러한 접근 방식은 에이전트의 행동 궤적, 자원 효율성, 안전성, 견고성, 인간 개입의 필요성, 환각(hallucination) 발생 패턴 등 실운영에서 결정적인 다양한 차원들을 측정하지 않는다.
구체적인 예를 들자면, 동일한 70% 성공률을 달성한 두 에이전트가 있을 때, 한 에이전트는 평균 12회의 도구 호출과 0.8달러의 API 비용으로 태스크를 완료하는 반면, 다른 에이전트는 45회 호출과 3.2달러를 소비한다면, 경제적 효율성의 차이는 4배에 이른다. 마찬가지로, 또 다른 에이전트는 높은 정확도로 태스크는 완료했지만 과정에서 중간 단계의 오류로부터 회복하지 못하거나, 정보 보안 규정을 위반하여 민감한 데이터를 외부로 노출하는 경우가 있을 수 있다. 기존 이진 성공 지표는 이러한 다양한 실패 모드들을 구분하지 못하며, 따라서 에이전트의 선택과 배치에 대한 의사결정은 불완전한 정보를 기반으로 이루어진다.
기업과 기관이 프로덕션 환경에 에이전트를 배치할 때 직면하는 핵심 질문들은 단순한 성공률로는 답할 수 없다. 규제 준수가 중요한 산업에서는 "이 에이전트가 기밀 정보를 노출할 위험은 얼마나 되는가?"를 묻는다. 비용 관리가 중요한 조직에서는 "동일한 품질의 결과를 낮은 비용으로 제공할 수 있는가?"를 묻는다. 신뢰성이 중요한 미션에서는 "부분 성공이 아닌 완전한 올바른 결과를 얼마나 일관되게 제공하는가?"를 묻는다. 개발자 경험이 중요한 맥락에서는 "사람이 결과를 검수하고 수정해야 하는 빈도는 어느 정도인가?"를 묻는다. 현존 벤치마크들은 이러한 질문들에 대해 양적 근거를 제공하지 못한다.
본 연구는 이상의 격차를 채우기 위해 에이전트 AI 평가를 위한 포괄적인 다차원 벤치마크 프레임워크를 제안한다. 이 프레임워크는 8개의 독립적인 평가 축을 정의하며, 각 축은 에이전트의 서로 다른 측면을 정량화한다. 첫째, 정확도(accuracy) 축은 최종 결과의 정확성을 측정한다. 둘째, 효율성(efficiency) 축은 동일한 결과를 달성하는 데 필요한 계산 자원과 API 호출 수를 평가한다. 셋째, 안전성(safety) 축은 실행 과정에서 규제 준수, 데이터 보호, 보안 정책 위반 등의 위험을 정량화한다. 넷째, 견고성(robustness) 축은 환경 변화, 오류 입력, 예상치 못한 상황에 대한 적응 능력을 측정한다. 다섯째, 경로 최적성(path optimality) 축은 해결 경로가 논리적으로 효율적인지를 평가한다. 여섯째, 환각률(hallucination rate) 축은 에이전트가 잘못된 정보를 생성하거나 거짓 도구 호출을 시도하는 빈도를 정량화한다. 일곱째, 인간 개입 빈도(human intervention frequency) 축은 자동 해결이 불가능하여 사람의 개입이 필요한 경우의 비율을 측정한다. 여덟째, 전체 생애 비용(total cost of ownership, TCO) 축은 API 비용, 인력 비용, 기회 비용을 통합하여 실제 경제적 영향을 평가한다.
이 8축 프레임워크의 각 축은 독립적인 정규화 수식을 가지며, 개별 태스크 수준에서는 다차원 벡터로 표현되고, 에이전트 수준에서는 Pareto 최적 전선(Pareto frontier) 분석을 통해 성과를 비교할 수 있도록 설계되었다. 기존의 단일 성공률 지표는 동일한 성과의 에이전트들을 구분하지 못하지만, 8축 프레임워크는 각 에이전트의 강점과 약점을 명확히 드러내며, 특정 운영 맥락(예: 비용 중심, 안전 중심, 정확도 중심)에 맞는 에이전트 선택을 정량적으로 지원한다.
본 연구는 또한 기존의 GAIA, WebArena, SWE-bench에 포함된 3,200개의 태스크를 8축으로 재라벨링한 확장 데이터셋을 구성하고, 3개의 대규모 언어 모델을 Judge로 사용하는 앙상블 채점 파이프라인을 개발한다. 이 파이프라인은 오픈소스로 공개되어 연구자 및 실무자들이 새로운 에이전트를 동일한 기준으로 평가할 수 있도록 한다. 아울러 8축 기반 Pareto 분석 결과를 활용하여 에이전트 인증 등급 체계(S/A/B/C/F)를 제안하며, 실제 기업 12곳의 운영 시나리오(고객 지원 자동화, 재무 데이터 처리, 보안 감사, 의료 정보 검색 등)에서 이 등급 체계와 TCO 분석의 실제 유효성을 검증한다.
본 논문의 구성은 다음과 같다. 제2장에서는 기존의 에이전트 평가 벤치마크와 다차원 평가 프레임워크에 대한 관련 연구를 검토한다. 제3장에서는 8축 평가 프레임워크의 정식 정의, 각 축의 측정 프로토콜, 정규화 수식을 상세히 설명한다. 제4장에서는 재라벨링된 데이터셋과 Judge LLM 앙상블 채점 파이프라인의 구조를 서술한다. 제5장에서는 12개 기업 시나리오에 대한 실증 연구의 설계와 수행 과정을 기술한다. 제6장에서는 Pareto 전선 분석 결과, 인증 등급 체계의 유효성, 각 시나리오별 TCO 및 사고율(incident rate) 정량 분석 결과를 제시한다. 제7장에서는 8축 평가 프레임워크가 기존 벤치마크와 비교하여 어떤 새로운 통찰을 제공하는지, 그리고 실무에 미치는 영향을 논의한다. 마지막으로 제8장에서는 본 연구의 한계와 향후 확장 방향을 제시한다.
2. 관련 연구
대규모 언어모델(Large Language Model, LLM)이 도구 호출·환경 조작·다단계 추론을 결합한 에이전트 시스템으로 확장되면서, 이를 체계적으로 평가하기 위한 벤치마크 연구가 급속히 성숙했다. 초기 연구들은 특정 도메인의 단일 성공 메트릭에 집중했으나, 실무 배포 환경에서 요구되는 신뢰성·효율성·안전성을 통합 평가하는 다차원 프레임워크는 아직 부재하다. 본 절에서는 주요 선행 벤치마크들의 설계 선택과 구조적 한계를 분석하고, 이 격차가 어떻게 본 연구의 8축 설계를 동기화하는지 명시적으로 서술한다.
단일 메트릭 기반 평가의 한계. GAIA(Mialon et al., 2023)는 466개의 실세계 질의응답 태스크를 세 난이도 계층으로 분류하여 에이전트 추론 능력을 검증하는 선도적 시도였다. 그러나 평가 결과가 완료(resolved)·미완료(unresolved)의 이진 판정에 국한되어, 부분 성공 시나리오·경로 비효율성·오류 유형 분포 같은 실무적으로 중요한 품질 차원을 포착하지 못한다. 이 구조적 한계는 본 연구의 Task Completion Rate(축 1)와 Path Optimality Score(축 2)를 직접적으로 동기화한다. 단순 완료율이 아닌 최적 경로 대비 실제 실행 궤적의 편집거리를 측정함으로써, 성공한 에이전트가 실제로 얼마나 효율적으로 목표에 도달했는지 분화하여 포착할 수 있다.
환경 다양성의 확장과 그 한계. WebArena(Zhou et al., 2023)는 실제 웹 인터페이스 환경에서 에이전트의 그라운딩 능력을 평가하는 새로운 축을 도입했으며, Mind2Web(Deng et al., 2023)은 137개 도메인 웹사이트에서 HTML 기반 행동 예측 정확도를 측정했다. 두 연구 모두 환경 충실도 측면에서 진전을 이루었으나, 성공률 중심의 단일 지표 평가에 머물러 있으며 누적 오류(cascading error)와 자체 교정(self-correction) 패턴을 체계적으로 측정하지 않는다. 특히 Mind2Web은 행동 예측 정확도만 측정하므로, 에이전트가 올바른 도구를 얼마나 적은 호출로 선택했는지—본 연구의 Tool-Call Efficiency(축 3)에 해당하는 차원—는 평가 대상 밖이다.
도메인 다양성과 품질 분화의 미완성. AgentBench(Liu et al., 2023)는 게임·운영체제·지식베이스 등 8개 이질적 환경을 포괄하여 에이전트 일반화 능력을 평가했다. 그러나 평가 축이 태스크 도메인 분류에 기반하여, 각 도메인 내 신뢰성·효율성·안전성 같은 질적 속성이 충분히 분화되지 않는다. OSWorld(Xiao et al., 2024)는 GUI 조작 환경에서 실행 단계별 성공 지표를 도입하여 한 걸음 나아갔으나, 환경 교란(perturbation) 조건에서의 견고성이나 PII 노출·권한 경계 위반 같은 안전성 차원을 별도로 측정하지 않는다. 이 격차는 본 연구의 Robustness under Perturbation(축 6)과 Safety Adherence(축 5)를 동기화한다.
소프트웨어 엔지니어링 특화와 과정 품질의 부재. SWE-bench(Jimenez et al., 2024)는 GitHub 이슈 해결을 시나리오로 삼아 이진 해결 여부를 평가하는데, 이 접근은 재현성 측면에서 강점이 있으나 해결 과정의 코드 안전성·성능 영향은 측정하지 않는다. ToolBench(Qin et al., 2023)는 16,000개 이상의 실세계 API를 활용한 도구 선택 능력을 평가했지만, 도구 호출 비용(토큰·레이턴시) 정규화나 응답에 포함된 근거 없는 사실 주장—Hallucination Rate(축 4)—은 측정 범위 밖이다.
대화 일관성과 다축 통합의 미완성. τ-bench(Yao et al., 2024)는 도구-에이전트-사용자 삼자 상호작용을 평가하는 틀을 제시하여, 다회전 대화에서의 역할 준수(role adherence)와 일관성(conversational consistency)을 측정하는 진전을 이루었다. 그러나 이 연구 역시 대화 일관성과 역할 준수라는 제한된 차원에 집중하여, 효율성(레이턴시, 토큰 사용량), 안전성(제약 위반), 사용자 집단 간 공정성—본 연구의 Fairness(축 8)—과의 교차 분석을 제공하지 않는다.
공통 격차와 본 연구의 위치. 선행 연구들은 세 가지 구조적 격차를 공유한다. 첫째, 단일 메트릭 또는 도메인 분류 기반 설계로 인해 동일 에이전트를 복수 벤치마크로 평가할 때 결과 간 비교 가능성이 부재하다. 둘째, 이진 성공 판정이 주류여서 부분 실패·지연 성공 같은 현실적 시나리오의 다양성을 포착하지 못한다. 셋째, 벤치마크 간 측정 축이 명시적으로 정의·정규화되지 않아 어느 차원의 개선이 사용자 만족도나 운영 안정성 향상으로 이어지는지 인과적으로 추적하기 어렵다.
본 연구의 EvalCore 프레임워크는 이 격차에 직접 대응한다. 기존 벤치마크들의 태스크와 결과를 8개의 독립적·정규화된 축—Task Completion Rate, Path Optimality Score, Tool-Call Efficiency, Hallucination Rate, Safety Adherence, Robustness under Perturbation, Latency-Normalized Throughput, Fairness—으로 재매핑함으로써 벤치마크 간 비교 가능성을 확보하고, 에이전트 개선의 우선순위와 실배포 환경에서의 신뢰성 판단을 체계적으로 지원한다.
3. 배경
에이전틱 AI 시스템은 복잡한 작업을 수행하기 위해 도구와 환경과 상호작용하는 자율 에이전트를 지칭하며, 최근 대규모 언어 모델의 발전에 따라 실제 웹 환경과 API 기반 작업에서의 활용이 급속도로 증가하고 있다. 이러한 에이전틱 AI 시스템의 성능 평가는 단순한 답변 정확성을 넘어서 작업 완수, 경로 최적성, 도구 효율성, 안전성, 견고성 등 다양한 차원을 동시에 고려해야 하는 복잡한 문제로 부상했다.
기존의 벤치마킹 접근법은 대부분 단일 또는 이원화된 평가 지표에 의존해왔다. 예컨대 GAIA 벤치마크는 에이전트의 의사결정 능력을 평가하는 데 초점을 맞추어 정확성과 추론 단계의 합리성을 중심으로 설계되었으며, WebArena는 실제 웹 환경에서의 작업 완수율을 주요 지표로 삼았다. 이들 벤치마크는 에이전틱 AI의 기본적인 기능성을 검증하는 데 중요한 역할을 수행했지만, 동시에 여러 근본적인 평가 공백을 노출시켰다. 첫째, 작업 완수에 성공하더라도 그 과정에서 얼마나 많은 도구를 호출했는지, 얼마나 많은 토큰을 소비했는지에 대한 평가가 체계적이지 않다는 점이다. 같은 작업을 완수하더라도 경로의 효율성에 따라 실제 운영 비용과 환경 부하가 크게 달라지는데, 이를 정량적으로 측정할 수 있는 표준 프레임워크가 부재했다.
둘째, 환각 현상과 근거 없는 주장의 정량화가 미흡하다. 에이전트가 작업을 완수했다고 해도 그 과정에서 생성한 중간 산출물들이 얼마나 많은 검증 불가능한 사실 주장을 포함하고 있는지에 대한 체계적 평가 메커니즘이 부족했다. 특히 복잡한 멀티스텝 작업에서 에이전트가 각 단계마다 생성하는 설명, 분석, 의사결정 근거 중 검증 가능한 것과 검증 불가능한 것의 비율을 측정하는 것은 실제 운영 환경에서의 신뢰도 평가에 필수적이다.
셋째, 안전성 평가 차원의 다면성이 간과되어 왔다. 기존 벤치마크에서 안전성은 주로 거부해야 할 악의적 요청을 얼마나 잘 거부하는가 또는 민감 정보 보호 여부로만 평가되는 경향이 있었다. 하지만 실제 운영 환경에서는 개인정보 유출, 권한 경계 위반, 금지된 행동(예: 승인 없는 배포, 데이터베이스 삭제) 실행의 차원이 각기 다른 심각도와 빈도를 가진다. 이들 안전 위험 요소들을 단일 이진 점수로 표현하는 것은 시스템의 실제 위험 프로필을 왜곡한다.
넷째, 대적 환경 하에서의 견고성 평가가 체계화되지 않았다. 실제 에이전트 배포 환경에서는 프롬프트 주입 공격, 사용자 인터페이스의 예기치 않은 변동, 도구 응답의 지연 또는 오류 등 다양한 교란이 발생한다. 기존 벤치마크는 주로 정상 환경에서의 성능을 측정했으며, 이러한 교란 상황에서 에이전트의 성능 저하 양상을 정량적으로 평가할 수 있는 표준화된 방법론이 부족했다.
다섯째, 인간 개입의 필요성과 시점에 대한 메트릭이 미정의 상태였다. 에이전트가 자율적으로 작업하는 것이 항상 최적인 것은 아니며, 특정 시점에 인간 검토자의 개입이 최종 결과의 품질을 크게 향상시킬 수 있다. 그러나 어떤 작업 유형에서 얼마나 자주 인간 개입이 필요한지, 개입이 발생하는 시점이 어디인지를 정량적으로 추적할 수 있는 메트릭이 표준화되지 않았다. 이는 특히 규제가 엄격한 금융·의료·법률 분야에서 에이전트 배포 시 필수적인 정보임에도 불구하고 체계적인 평가 대상이 되지 않았다.
이러한 다층적 평가 공백을 배경으로, EvalCore는 에이전틱 AI 시스템을 8개의 직교하는 차원에서 동시에 평가하는 종합 벤치마크 프레임워크를 제안한다. 이 프레임워크는 단순한 성공·실패의 이분법을 넘어서, 성공의 '방식', '효율성', '안전성', '견고성', '신뢰도', '인간-에이전트 협력의 필요성' 등을 구체적이고 정량화 가능한 방식으로 함께 측정하도록 설계되었다. 각 축은 독립적인 평가 논리를 가지면서도 전체 시스템의 운영 가능성을 종합적으로 판단할 수 있도록 구성되었으며, 이를 통해 에이전틱 AI 시스템의 실제 프로덕션 배포 적합성을 보다 정확하게 예측할 수 있게 한다.
4. 방법론
본 연구에서 제안하는 EvalCore 프레임워크는 에이전트형 AI 시스템을 단일 숫자로 환원하지 않고, 운영 현실을 구성하는 이질적 역량 차원들을 명시적으로 분리하여 측정한다는 설계 원칙에서 출발한다. 기존 평가 방식이 태스크 완료 여부나 정답률 같은 단일 지표에 수렴해온 것은 측정의 편의성 때문이었지만, 그 대가로 에이전트 간 차별화 신호가 심각하게 손실되었다. 예컨대 동일한 태스크 완료율을 보이는 두 에이전트가 도구 호출 비용에서 수십 배, 안전 위반 빈도에서 수배의 차이를 보일 수 있으며, 조달 의사결정에서 이 차이는 장기 운영비와 사고 리스크를 결정짓는 핵심 변수가 된다. EvalCore의 8축 설계는 이러한 정보 손실을 구조적으로 복원하기 위한 것이다.
8축 각각의 측정 설계는 다음과 같다. 첫 번째 축인 Task Completion Rate는 에이전트가 정의된 종료 조건을 충족하는 비율로, 단순 이진 성공·실패 외에 부분 완료에 대한 연속 척도를 병행 산출한다. 과제를 원자적 하위 목표의 집합으로 분해하고, 달성된 하위 목표 비율의 가중 평균으로 연속 점수를 계산함으로써 실패 상황에서도 정보 밀도를 유지한다. 두 번째 축인 Path Optimality Score는 최단 경로 대비 실제 에이전트 실행 경로의 편집거리 비율로 정의된다. 편집거리는 도구 호출 시퀀스 수준에서 계산되며, 과제 도메인별로 사전 생성된 최적 경로 집합과 비교한다. 이 지표는 에이전트가 목표에 도달하더라도 불필요한 우회나 역행이 많을수록 낮은 점수를 부여함으로써 운영 효율성을 독립 축으로 포착한다.
세 번째 축인 Tool-Call Efficiency는 성공적 과제 완료당 도구 호출 횟수에 토큰 소비량과 비용을 정규화한 복합 지표다. 도구 호출 횟수만으로는 모델 간 토큰 단가 차이를 반영하지 못하므로, 실제 비용 단위로 환산한 효율 비율을 산출한다. 네 번째 축인 Hallucination Rate는 에이전트 출력에 포함된 사실적 주장 가운데 검증 가능한 외부 정보와 불일치하거나 근거 없이 생성된 주장의 비율이다. 자동 사실검증 파이프라인과 3-모델 심판 앙상블을 결합하여 측정한다. 다섯 번째 축인 Safety Adherence는 PII 유출 시도, 금지 행동 위반, 권한 경계 침범 사례의 발생 카운트를 과제 수로 정규화한 비율이며, 심각도 가중치를 부여하여 중대 위반과 경미 위반을 구분한다.
여섯 번째 축인 Robustness under Perturbation은 프롬프트 인젝션 공격, UI 드리프트, 환경 노이즈 조건 하에서의 성능 유지율을 측정한다. 기준 조건 대비 교란 조건에서의 Task Completion Rate 감소폭을 해당 축의 점수로 환산하며, 교란 조건은 adversarial suffix 삽입, 도구 응답 지연 주입, 화면 레이아웃 변형의 세 가지 범주로 구성한다. 일곱 번째 축인 HITL Intervention Frequency는 에이전트가 자율 실행 중 인간 개입을 요청하거나 실질적 개입이 필요한 시점의 빈도를 측정한다. 단순 개입 횟수 외에 개입 시점의 적절성—즉 개입이 필요했을 때 실제로 요청이 이루어졌는지—을 인간 전문가 판단과 비교하여 보정한다.