Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios

要約

大規模言語モデル(LLM)を実世界のアプリケーションでツールエージェントとして使用する最近の傾向は、特にツールの計画、作成、使用を含む複雑なシナリオにおいて、その能力を包括的に評価する必要性を強調している。しかし、既存のベンチマークは、通常、実世界の複雑さを反映しない単純な合成クエリに焦点を当てているため、ツールの利用を評価する視点が限られている。この問題に対処するために、我々は、実世界のシナリオの中でツール利用におけるLLMの能力を改善し、評価するために設計された新しいベンチマークであるUltraToolを提示する。UltraToolは、ツールの計画から作成、複雑なタスクへの適用まで、ツールの使用プロセス全体に焦点を当てている。実世界の複雑さを強調し、効果的な問題解決のための正確で多段階のプランニングを要求する。ウルトラツールの主な特徴は、自然言語によるプランニングの独立した評価であり、これはツールの使用前に行われ、中間ステップをマッピングすることでタスク解決を単純化する。したがって、これまでの研究とは異なり、あらかじめ定義されたツールセットの制約を排除することができる。様々なLLMに対する広範な実験を通じて、ツール利用におけるLLMの能力評価に関する新しい洞察を提供し、それによって、急速に発展するこの分野に新しい視点を提供する。ベンチマークはhttps://github.com/JoeYing1019/UltraTool。

要約(オリジナル)

The recent trend of using Large Language Models (LLMs) as tool agents in real-world applications underscores the necessity for comprehensive evaluations of their capabilities, particularly in complex scenarios involving planning, creating, and using tools. However, existing benchmarks typically focus on simple synthesized queries that do not reflect real-world complexity, thereby offering limited perspectives in evaluating tool utilization. To address this issue, we present UltraTool, a novel benchmark designed to improve and evaluate LLMs’ ability in tool utilization within real-world scenarios. UltraTool focuses on the entire process of using tools – from planning and creating to applying them in complex tasks. It emphasizes real-world complexities, demanding accurate, multi-step planning for effective problem-solving. A key feature of UltraTool is its independent evaluation of planning with natural language, which happens before tool usage and simplifies the task solving by mapping out the intermediate steps. Thus, unlike previous work, it eliminates the restriction of pre-defined toolset. Through extensive experiments on various LLMs, we offer novel insights into the evaluation of capabilities of LLMs in tool utilization, thereby contributing a fresh perspective to this rapidly evolving field. The benchmark is publicly available at https://github.com/JoeYing1019/UltraTool.

arxiv情報

著者 Shijue Huang,Wanjun Zhong,Jianqiao Lu,Qi Zhu,Jiahui Gao,Weiwen Liu,Yutai Hou,Xingshan Zeng,Yasheng Wang,Lifeng Shang,Xin Jiang,Ruifeng Xu,Qun Liu
発行日 2024-06-03 11:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク