Survey on Evaluation of LLM-based Agents

要約

LLMベースのエージェントの出現は、AIのパラダイムシフトを表し、自律システムが動的環境との相互作用中にメモリを計画、推論、使用し、維持できるようにします。
このホワイトペーパーでは、これらのますます能力のあるエージェントの評価方法に関する最初の包括的な調査を提供します。
4つの重要な次元にわたって評価ベンチマークとフレームワークを体系的に分析します。(1)計画、ツールの使用、自己反省、メモリを含む基本的なエージェント機能。
(2)Web、ソフトウェアエンジニアリング、科学、および会話エージェントのアプリケーション固有のベンチマーク。
(3)ジェネラリストエージェントのベンチマーク。
(4)エージェントを評価するためのフレームワーク。
私たちの分析では、継続的に更新されたベンチマークを使用した、より現実的で挑戦的な評価への移行など、新たな傾向が明らかになりました。
また、将来の研究が、費用効率、安全性、堅牢性の評価、および細粒のスケーラブルな評価方法の開発において、特に対処しなければならないという重要なギャップを特定します。
この調査では、エージェント評価の急速に進化する景観をマッピングし、現場の新たな傾向を明らかにし、現在の制限を特定し、将来の研究の方向性を提案します。

要約(オリジナル)

The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.

arxiv情報

著者 Asaf Yehudai,Lilach Eden,Alan Li,Guy Uziel,Yilun Zhao,Roy Bar-Haim,Arman Cohan,Michal Shmueli-Scheuer
発行日 2025-03-20 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク