要約
多様なドメイン全体でエージェントワークフローを採用することは、これらのシステムが生成する複雑なトレースをスケーラブルかつ体系的に評価する重要なニーズをもたらします。
現在の評価方法は、長いワークフロートレースのマニュアルのドメイン固有のヒト分析に依存します。これは、エージェント出力の複雑さと量の増加に伴い拡大しないアプローチです。
これらの設定でのエラー分析は、外部ツールの出力と言語モデルの推論の相互作用により、さらに複雑になり、従来のソフトウェアのデバッグよりも困難になります。
この作業では、(1)エージェントワークフロートレースの堅牢で動的な評価方法の必要性を明確にし、(2)エージェントシステムで遭遇するエラータイプの正式な分類法を導入し、(3)この分類剤を使用して構築され、確立されたエージェントベンチャーマークで構築された148個の大きなヒトアノテーショントレース(TRAIL)のセットを提示します。
生態学的妥当性を確保するために、ソフトウェアエンジニアリングやオープンワールド情報検索などの実際のアプリケーションに焦点を当てた、単一およびマルチエージェントシステムの両方からトレースをキュレートします。
私たちの評価は、現代の長いコンテキストLLMがトレースデバッグでパフォーマンスが低いことを明らかにしています。
当社のデータセットとコードは、エージェントワークフローのスケーラブルな評価における将来の研究をサポートおよび加速するために公開されています。
要約(オリジナル)
The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces – an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.
arxiv情報
著者 | Darshan Deshpande,Varun Gangal,Hersh Mehta,Jitin Krishnan,Anand Kannappan,Rebecca Qian |
発行日 | 2025-05-19 15:15:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google