Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios

要約

大規模言語モデル (LLM) を現実世界のアプリケーションでインテリジェント エージェントとして使用するという最近の傾向は、特にツールの計画、作成、使用を含む複雑なシナリオにおいて、LLM の機能を包括的に評価する必要性を強調しています。
ただし、既存のベンチマークは通常、現実世界の複雑さを反映していない単純な合成クエリに焦点を当てているため、ツールの使用状況を評価する際の視点が限られています。
この問題に対処するために、現実世界のシナリオ内でのツール利用における LLM の能力を向上および評価するように設計された新しいベンチマークである UltraTool を紹介します。
UltraTool は、ツールの計画と作成から複雑なタスクへの適用まで、ツールを使用するプロセス全体に焦点を当てています。
現実世界の複雑さが強調され、効果的な問題解決のための正確な複数段階の計画が求められます。
UltraTool の重要な機能は、自然言語を使用した計画の独立した評価です。これはツールの使用前に行われ、中間ステップをマッピングすることでタスク解決を簡素化します。
したがって、以前の作業とは異なり、計画中に事前定義されたツールセットの制限がなくなりました。
さまざまな LLM に関する広範な実験を通じて、ツール利用における LLM の機能の評価に関する新しい洞察を提供し、それによってこの急速に進化する分野に新たな視点を提供します。
ベンチマークは https://github.com/JoeYing1019/UltraTool で公開されています。

要約(オリジナル)

The recent trend of using Large Language Models (LLMs) as intelligent agents in real-world applications underscores the necessity for comprehensive evaluations of their capabilities, particularly in complex scenarios involving planning, creating, and using tools. However, existing benchmarks typically focus on simple synthesized queries that do not reflect real-world complexity, thereby offering limited perspectives in evaluating tool utilization. To address this issue, we present UltraTool, a novel benchmark designed to improve and evaluate LLMs’ ability in tool utilization within real-world scenarios. UltraTool focuses on the entire process of using tools – from planning and creating to applying them in complex tasks. It emphasizes real-world complexities, demanding accurate, multi-step planning for effective problem-solving. A key feature of UltraTool is its independent evaluation of planning with natural language, which happens before tool usage and simplifies the task solving by mapping out the intermediate steps. Thus, unlike previous work, it eliminates the restriction of pre-defined toolset during planning. Through extensive experiments on various LLMs, we offer novel insights into the evaluation of capabilities of LLMs in tool utilization, thereby contributing a fresh perspective to this rapidly evolving field. The benchmark is publicly available at https://github.com/JoeYing1019/UltraTool.

arxiv情報

著者 Shijue Huang,Wanjun Zhong,Jianqiao Lu,Qi Zhu,Jiahui Gao,Weiwen Liu,Yutai Hou,Xingshan Zeng,Yasheng Wang,Lifeng Shang,Xin Jiang,Ruifeng Xu,Qun Liu
発行日 2024-01-30 16:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク