要約
大規模言語モデル (LLM) は推論と意思決定のスキルが大幅に向上し、ユーザーと自然な会話を行うことができます。
最近、多くのツール用途のベンチマーク データセットが提案されています。
ただし、既存のデータセットには次の制限があります: (1)。
評価シナリオが不十分(例:限られたツールの使用シーンのみをカバーしている)。
(2)。
膨大な評価コスト (GPT API コストなど)。
これらの制限に対処するために、この研究では、MTU-Bench と呼ばれる大規模言語モデル向けの複数粒度のツール使用ベンチマークを提案します。
「多粒度」特性の場合、MTU ベンチは 5 つの工具使用シーン (つまり、単一回転と単一工具、単一回転と複数工具、複数回転と単一工具、複数回転と複数) をカバーします。
-ツール、および配布外のタスク)。
さらに、MTU ベンチのすべての評価指標は、GPT や人による評価指標を使用せず、予測結果とグラウンド トゥルースに基づいています。
さらに、当社の MTU-Bench は、現実世界のツール使用シナリオをシミュレートするために既存の高品質データセットを変換することによって収集されており、既存の LLM のツール使用能力を強化するために、MTU-Instruct データと呼ばれる命令データセットも提案しています。
包括的な実験結果により、MTU ベンチの有効性が実証されています。
コードとデータは https://github.com/MTU-Bench-Team/MTU-Bench.git でリリースされます。
要約(オリジナル)
Large Language Models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Recently, many tool-use benchmark datasets have been proposed. However, existing datasets have the following limitations: (1). Insufficient evaluation scenarios (e.g., only cover limited tool-use scenes). (2). Extensive evaluation costs (e.g., GPT API costs). To address these limitations, in this work, we propose a multi-granularity tool-use benchmark for large language models called MTU-Bench. For the ‘multi-granularity’ property, our MTU-Bench covers five tool usage scenes (i.e., single-turn and single-tool, single-turn and multiple-tool, multiple-turn and single-tool, multiple-turn and multiple-tool, and out-of-distribution tasks). Besides, all evaluation metrics of our MTU-Bench are based on the prediction results and the ground truth without using any GPT or human evaluation metrics. Moreover, our MTU-Bench is collected by transforming existing high-quality datasets to simulate real-world tool usage scenarios, and we also propose an instruction dataset called MTU-Instruct data to enhance the tool-use abilities of existing LLMs. Comprehensive experimental results demonstrate the effectiveness of our MTU-Bench. Code and data will be released at https: //github.com/MTU-Bench-Team/MTU-Bench.git.
arxiv情報
著者 | Pei Wang,Yanan Wu,Zekun Wang,Jiaheng Liu,Xiaoshuai Song,Zhongyuan Peng,Ken Deng,Chenchen Zhang,Jiakai Wang,Junran Peng,Ge Zhang,Hangyu Guo,Zhaoxiang Zhang,Wenbo Su,Bo Zheng |
発行日 | 2024-10-15 15:46:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google