要約
大規模言語モデル(LLM)は、その高度な理解力と計画能力により、ツールを呼び出すためのエージェントとして強い可能性を示している。ユーザーは、反復的な相互作用を通じて複雑なミッションを解決するために、ますますLLMベースのエージェントに依存している。しかし、既存のベンチマークは、主に単一ミッションシナリオでエージェントにアクセスするため、実世界の複雑性を捉えることができない。このギャップを埋めるために、我々はマルチミッションツールベンチを提案する。このベンチマークでは、各テストケースは相互に関連する複数のミッションから構成される。この設計では、エージェントは進化する要求に動的に適応する必要がある。さらに、提案するベンチマークでは、固定されたミッション数の中で可能な全てのミッション切り替えパターンを探索する。具体的には、ベンチマークを構築するためのマルチエージェントデータ生成フレームワークを提案する。また、動的決定木を用いてエージェントの決定の精度と効率を評価する新しい手法を提案する。多様なオープンソースおよびクローズドソースのLLMを用いた実験により、エージェントの頑健性に影響する重要な要因を明らかにし、ツール起動社会に対する実用的な洞察を提供する。
要約(オリジナル)
Large language models (LLMs) demonstrate strong potential as agents for tool invocation due to their advanced comprehension and planning capabilities. Users increasingly rely on LLM-based agents to solve complex missions through iterative interactions. However, existing benchmarks predominantly access agents in single-mission scenarios, failing to capture real-world complexity. To bridge this gap, we propose the Multi-Mission Tool Bench. In the benchmark, each test case comprises multiple interrelated missions. This design requires agents to dynamically adapt to evolving demands. Moreover, the proposed benchmark explores all possible mission-switching patterns within a fixed mission number. Specifically, we propose a multi-agent data generation framework to construct the benchmark. We also propose a novel method to evaluate the accuracy and efficiency of agent decisions with dynamic decision trees. Experiments on diverse open-source and closed-source LLMs reveal critical factors influencing agent robustness and provide actionable insights to the tool invocation society.
arxiv情報
著者 | PeiJie Yu,Yifan Yang,Jinjian Li,Zelong Zhang,Haorui Wang,Xiao Feng,Feng Zhang |
発行日 | 2025-04-03 14:21:33+00:00 |
arxivサイト | arxiv_id(pdf) |