ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

要約

オープンソースの大規模言語モデル(LLM)、例えばLLaMAの進歩にもかかわらず、ツール使用能力、すなわち外部ツール(API)を使用して人間の指示を実現する能力において、それらは著しく制限されたままである。その理由は、現在の命令チューニングは、基本的な言語タスクに主眼を置いており、ツール使用領域を無視しているからである。これは、例えばChatGPTのような最先端の(SOTA)クローズドソースLLMの優れたツール使用能力とは対照的である。このギャップを埋めるために、我々はデータ構築、モデル学習、評価を含む一般的なツール使用フレームワークであるToolLLMを紹介する。まず、ChatGPTを用いて自動構築されたツール用命令チューニングデータセットであるToolBenchを紹介する。具体的には、構築は3つの段階に分けられる:(i)API収集:我々はRapidAPI Hubから49のカテゴリにまたがる16,464の実世界のRESTful APIを収集する;(ii)命令生成:我々はChatGPTにこれらのAPIを含む多様な命令を生成するように促し、シングルツールとマルチツールの両方のシナリオをカバーする;(iii)ソリューションパスのアノテーション:我々はChatGPTを使用して、各命令に対して有効なソリューションパス(API呼び出しの連鎖)を検索する。LLMの推論能力を強化するために、深さ優先探索に基づく新しい決定木アルゴリズムを開発する。これにより、LLMは複数の推論トレースを評価し、探索空間を拡張することができる。さらに、LLMのツール使用能力を評価するために、自動評価器を開発する:ToolEvalを開発した。ToolBenchに基づき、LLaMAを微調整してLLM ToolLaMAを作成し、各命令に適切なAPIを推薦するニューラルAPIリトリーバを装備する。実験の結果、ToolLLaMAは複雑な命令を実行し、未知のAPIに汎化する顕著な能力を示し、ChatGPTに匹敵する性能を示した。また、我々のToolLLaMAは、配布されていないツール使用データセットにおいて、強力なゼロショット汎化能力を示しています:APIBench。

要約(オリジナル)

Despite the advancements of open-source large language models (LLMs), e.g., LLaMA, they remain significantly limited in tool-use capabilities, i.e., using external tools (APIs) to fulfill human instructions. The reason is that current instruction tuning largely focuses on basic language tasks but ignores the tool-use domain. This is in contrast to the excellent tool-use capabilities of state-of-the-art (SOTA) closed-source LLMs, e.g., ChatGPT. To bridge this gap, we introduce ToolLLM, a general tool-use framework encompassing data construction, model training, and evaluation. We first present ToolBench, an instruction-tuning dataset for tool use, which is constructed automatically using ChatGPT. Specifically, the construction can be divided into three stages: (i) API collection: we collect 16,464 real-world RESTful APIs spanning 49 categories from RapidAPI Hub; (ii) instruction generation: we prompt ChatGPT to generate diverse instructions involving these APIs, covering both single-tool and multi-tool scenarios; (iii) solution path annotation: we use ChatGPT to search for a valid solution path (chain of API calls) for each instruction. To enhance the reasoning capabilities of LLMs, we develop a novel depth-first search-based decision tree algorithm. It enables LLMs to evaluate multiple reasoning traces and expand the search space. Moreover, to evaluate the tool-use capabilities of LLMs, we develop an automatic evaluator: ToolEval. Based on ToolBench, we fine-tune LLaMA to obtain an LLM ToolLLaMA, and equip it with a neural API retriever to recommend appropriate APIs for each instruction. Experiments show that ToolLLaMA demonstrates a remarkable ability to execute complex instructions and generalize to unseen APIs, and exhibits comparable performance to ChatGPT. Our ToolLLaMA also demonstrates strong zero-shot generalization ability in an out-of-distribution tool-use dataset: APIBench.

arxiv情報

著者 Yujia Qin,Shihao Liang,Yining Ye,Kunlun Zhu,Lan Yan,Yaxi Lu,Yankai Lin,Xin Cong,Xiangru Tang,Bill Qian,Sihan Zhao,Lauren Hong,Runchu Tian,Ruobing Xie,Jie Zhou,Mark Gerstein,Dahai Li,Zhiyuan Liu,Maosong Sun
発行日 2023-10-03 14:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク