要約
この論文では、自己命令 API のようなツールを含む新しいツール学習データセット Seal-Tools を紹介します。
Seal-Tools は多数のツールを提供するだけでなく、ツールの実際の応用を示すインスタンスも含まれています。
信頼性を確保しながら大規模なデータを生成することを目指して、プロセスを正確に制御できるツールとインスタンスを生成するための自己指示方式を提案します。
さらに、Seal-Tools にはジョブを完了するために複数のツールを呼び出すハード インスタンスが含まれており、その中にはネストされたツール呼び出しも含まれています。
正確かつ包括的な評価を行うために、厳格な形式管理を使用し、異なる次元から 3 つの指標を設計します。
したがって、Seal-Tools は、LLM のツール呼び出し能力を評価するための新しいベンチマークとして機能します。
最後に、いくつかの普及している LLM と Seal-Tools で微調整されたモデルを評価します。
結果は、現在のシステムが完璧には程遠いことを示しています。
コード、データ、実験結果は https://github.com/fairyshine/Seal-Tools で入手できます。
要約(オリジナル)
This paper presents a new tool learning dataset Seal-Tools, which contains self-instruct API-like tools. Seal-Tools not only offers a large number of tools, but also includes instances which demonstrate the practical application of tools. Seeking to generate data on a large scale while ensuring reliability, we propose a self-instruct method to generate tools and instances, allowing precise control over the process. Moreover, our Seal-Tools contains hard instances that call multiple tools to complete the job, among which some are nested tool callings. For precise and comprehensive evaluation, we use strict format control and design three metrics from different dimensions. Therefore, Seal-Tools can serve as a new benchmark to evaluate the tool-calling ability of LLMs. Finally, we evaluate several prevalent LLMs and our finetuned model on Seal-Tools. The results show that current systems are far from perfect. The code, data and experiment results are available at https://github.com/fairyshine/Seal-Tools .
arxiv情報
著者 | Mengsong Wu,Tong Zhu,Han Han,Chuanyuan Tan,Xiang Zhang,Wenliang Chen |
発行日 | 2024-05-14 06:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google