要約
エージェントの評価と最適化は、主にタスクの成功指標によって行われるが、この指標は粗く、専門家の手作業による設計に依存し、中間的な創発的行動に報いることができない。AutoLibraはエージェント評価のためのフレームワークであり、例えば、「ボタンが無効になっていることに気づいたら、再度クリックしないでください」、「このエージェントは自律性が高すぎて、自分で何をすべきかを決めることができません」といったオープンエンドな人間のフィードバックを、エージェントの軌道におけるきめ細かな行動を評価するためのメトリクスに変換する。AutoLibraは、エージェントの行動へのフィードバックを基礎とし、類似した肯定的な行動と否定的な行動をクラスタリングし、明確な定義と具体的な例を持つ具体的なメトリクスを作成することで、これを達成する。さらに、(誘導された)メトリクスとオープンフィードバックとの整合性を評価するために、「カバレッジ」と「冗長性」という2つのメタメトリクスを提案する。これらのメタメトリクスの最適化を通じて、我々は、AutoLibraが、これまでのエージェント評価ベンチマークで提案されたものよりも具体的なエージェント評価メトリクスを誘導する能力を実験的に実証し、エージェントを分析するための新しいメトリクスを発見する。また、エージェント改良におけるAutoLibraの2つの応用例を紹介する:第一に、AutoLibraによって誘導されたメトリクスが、様々なテキストゲームタスクにおいて、タスク成功率よりも優れたプロンプトエンジニアリングターゲットとして機能し、エージェントのパフォーマンスをベースラインよりも平均20%向上させることを示す。次に、AutoLibraがウェブナビゲーションエージェントのための高品質な微調整データを繰り返し選択できることを示す。この結果は、AutoLibraが言語エージェントの評価と改善のためのタスクに依存しない強力なツールであることを示唆している。
要約(オリジナル)
Agents are predominantly evaluated and optimized via task success metrics, which are coarse, rely on manual design from experts, and fail to reward intermediate emergent behaviors. We propose AutoLibra, a framework for agent evaluation, that transforms open-ended human feedback, e.g., ‘If you find that the button is disabled, don’t click it again’, or ‘This agent has too much autonomy to decide what to do on its own’, into metrics for evaluating fine-grained behaviors in agent trajectories. AutoLibra accomplishes this by grounding feedback to an agent’s behavior, clustering similar positive and negative behaviors, and creating concrete metrics with clear definitions and concrete examples, which can be used for prompting LLM-as-a-Judge as evaluators. We further propose two meta-metrics to evaluate the alignment of a set of (induced) metrics with open feedback: ‘coverage’ and ‘redundancy’. Through optimizing these meta-metrics, we experimentally demonstrate AutoLibra’s ability to induce more concrete agent evaluation metrics than the ones proposed in previous agent evaluation benchmarks and discover new metrics to analyze agents. We also present two applications of AutoLibra in agent improvement: First, we show that AutoLibra-induced metrics serve as better prompt-engineering targets than the task success rate on a wide range of text game tasks, improving agent performance over baseline by a mean of 20%. Second, we show that AutoLibra can iteratively select high-quality fine-tuning data for web navigation agents. Our results suggest that AutoLibra is a powerful task-agnostic tool for evaluating and improving language agents.
arxiv情報
著者 | Hao Zhu,Phil Cuvin,Xinkai Yu,Charlotte Ka Yee Yan,Jason Zhang,Diyi Yang |
発行日 | 2025-05-05 17:47:49+00:00 |
arxivサイト | arxiv_id(pdf) |