ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

要約

オープンソースの大規模言語モデル (LLM) とそのバリアント (LLaMA や Vicuna など) の進歩にも関わらず、外部ツール (API) を使用するための人間の指示に従うなど、より高レベルのタスクの実行には依然として大幅な制限があります。
これは、現在の命令チューニングがツール使用領域ではなく、基本的な言語タスクに主に焦点を当てているためです。
これは、優れたツール使用機能を実証しているものの、残念ながらクローズドソースである ChatGPT などの最先端 (SOTA) LLM とは対照的です。
オープンソース LLM 内のツール使用機能を促進するために、データ構築、モデルのトレーニング、評価の一般的なツール使用フレームワークである ToolLLM を導入します。
まず、ChatGPT を使用して自動的に作成される、ツール使用のための命令チューニング データセットである ToolBench を紹介します。
具体的には、RapidAPI Hub から 49 カテゴリにまたがる 16,464 個の実世界の RESTful API を収集し、ChatGPT にこれらの API を含む多様な人間による指示を生成するように促し、単一ツールとマルチツールの両方のシナリオをカバーします。
最後に、ChatGPT を使用して、各命令の有効なソリューション パス (API 呼び出しのチェーン) を検索します。
検索プロセスをより効率的にするために、新しい深さ優先検索ベースの決定木 (DFSDT) を開発し、LLM が複数の推論トレースを評価して検索空間を拡張できるようにします。
DFSDT が LLM の計画能力と推論能力を大幅に強化することを示します。
ツールの使用を効率的に評価するために、自動評価ツール ToolEval を開発しました。
ToolBench上でLLaMAを微調整し、ToolLLaMAを取得します。
私たちの ToolEval は、ToolLLaMA が複雑な命令を実行し、目に見えない API に一般化する驚くべき能力を示し、ChatGPT に匹敵するパフォーマンスを示すことを明らかにします。
パイプラインをより実用的なものにするために、各命令に適切な API を推奨するニューラル API 取得機能を考案し、手動で API を選択する必要をなくしました。

要約(オリジナル)

Despite the advancements of open-source large language models (LLMs) and their variants, e.g., LLaMA and Vicuna, they remain significantly limited in performing higher-level tasks, such as following human instructions to use external tools (APIs). This is because current instruction tuning largely focuses on basic language tasks instead of the tool-use domain. This is in contrast to state-of-the-art (SOTA) LLMs, e.g., ChatGPT, which have demonstrated excellent tool-use capabilities but are unfortunately closed source. To facilitate tool-use capabilities within open-source LLMs, we introduce ToolLLM, a general tool-use framework of data construction, model training and evaluation. We first present ToolBench, an instruction-tuning dataset for tool use, which is created automatically using ChatGPT. Specifically, we collect 16,464 real-world RESTful APIs spanning 49 categories from RapidAPI Hub, then prompt ChatGPT to generate diverse human instructions involving these APIs, covering both single-tool and multi-tool scenarios. Finally, we use ChatGPT to search for a valid solution path (chain of API calls) for each instruction. To make the searching process more efficient, we develop a novel depth-first search-based decision tree (DFSDT), enabling LLMs to evaluate multiple reasoning traces and expand the search space. We show that DFSDT significantly enhances the planning and reasoning capabilities of LLMs. For efficient tool-use assessment, we develop an automatic evaluator: ToolEval. We fine-tune LLaMA on ToolBench and obtain ToolLLaMA. Our ToolEval reveals that ToolLLaMA demonstrates a remarkable ability to execute complex instructions and generalize to unseen APIs, and exhibits comparable performance to ChatGPT. To make the pipeline more practical, we devise a neural API retriever to recommend appropriate APIs for each instruction, negating the need for manual API selection.

arxiv情報

著者 Yujia Qin,Shihao Liang,Yining Ye,Kunlun Zhu,Lan Yan,Yaxi Lu,Yankai Lin,Xin Cong,Xiangru Tang,Bill Qian,Sihan Zhao,Runchu Tian,Ruobing Xie,Jie Zhou,Mark Gerstein,Dahai Li,Zhiyuan Liu,Maosong Sun
発行日 2023-07-31 15:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク