ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

要約

マルチホップツールの使用を効果的に評価することは、大規模言語モデル (LLM) の理解、推論、関数呼び出しの機能を分析するために重要です。
しかし、信頼できる評価データセットの欠如により進歩が妨げられています。
これに対処するために、995 のユーザークエリと 3,912 の関連ツールで構成されるデータセットである ToolHop を紹介します。このデータセットは、マルチホップツールの使用を厳密に評価するために特別に設計されています。
ToolHop は、ツールの作成、ドキュメントの改良、コード生成を含む新しいクエリ駆動のデータ構築アプローチを通じて、多様なクエリ、意味のある相互依存関係、ローカルで実行可能なツール、詳細なフィードバック、検証可能な回答を保証します。
5 つのモデルファミリ (LLaMA3.1、Qwen2.5、Gemini1.5、Claude3.5、GPT) にわたる 14 個の LLM を評価し、マルチホップツール使用シナリオの処理における重大な課題を明らかにしました。
主要なモデルである GPT-4o は 49.04% の精度を達成しており、改善の余地が大きいことがわかります。
さらに分析を進めると、さまざまなファミリーのツール使用戦略のバリエーションが明らかになり、より効果的なアプローチの開発を導くための実用的な洞察が得られます。
コードとデータは https://huggingface.co/datasets/bytedance-research/ToolHop にあります。

要約(オリジナル)

Effective evaluation of multi-hop tool use is critical for analyzing the understanding, reasoning, and function-calling capabilities of large language models (LLMs). However, progress has been hindered by a lack of reliable evaluation datasets. To address this, we present ToolHop, a dataset comprising 995 user queries and 3,912 associated tools, specifically designed for rigorous evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful interdependencies, locally executable tools, detailed feedback, and verifiable answers through a novel query-driven data construction approach that includes tool creation, document refinement, and code generation. We evaluate 14 LLMs across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and GPT), uncovering significant challenges in handling multi-hop tool-use scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%, underscoring substantial room for improvement. Further analysis reveals variations in tool-use strategies for various families, offering actionable insights to guide the development of more effective approaches. Code and data can be found in https://huggingface.co/datasets/bytedance-research/ToolHop.

arxiv情報

著者	Junjie Ye,Zhengyin Du,Xuesong Yao,Weijian Lin,Yufei Xu,Zehui Chen,Zaiyuan Wang,Sining Zhu,Zhiheng Xi,Siyu Yuan,Tao Gui,Qi Zhang,Xuanjing Huang,Jiecao Chen
発行日	2025-01-07 09:13:35+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー