Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum

要約

外部ツールを使用して大規模言語モデル (LLM) を拡張することは、LLM の機能を拡張するための有望なアプローチとして浮上しています。
一部の作品ではツール学習タスクにオープンソース LLM を採用していますが、ほとんどの作品は制御された環境でトレーニングされ、LLM は人間が提供したツールの実行のみを学習します。
ただし、大規模なツールセットから適切なツールを選択することは、ツール学習モデルを現実世界のアプリケーションに適用するための重要な能力でもあります。
既存のメソッドは通常、ツールの複雑さの違いを無視して、モデルをトレーニングするために自己指示メソッドを直接採用しています。
この論文では、実世界のシナリオで複雑なツールを使用できるように LLM を訓練するための新しいツール学習フレームワークである Confucius を提案します。これには 2 つの主なフェーズが含まれます。 (1) 最初に、LLM に以下のことを教えるための多段階学習方法を提案します。
簡単なものから難しいものまでさまざまなカリキュラムのさまざまなツールを使用します。
(2) 以降、複雑なツールの使用能力を向上させるために、データセットを動的に構築するための Iterative Self-instruct from Introspective Feedback (ISIF) を提案します。
制御された設定と現実世界の両方の設定で行われた広範な実験により、チューニング不要のベースライン (例: ChatGPT、Claude) とチューニングベースのベースライン (例: GPT4Tools) の両方と比較して、実世界のアプリケーション シナリオにおけるツール学習フレームワークの優位性が実証されました。

要約(オリジナル)

Augmenting large language models (LLMs) with external tools has emerged as a promising approach to extending the capability of LLMs. Although some works employ open-source LLMs for the tool learning task, most of them are trained in a controlled environment in which LLMs only learn to execute the human-provided tools. However, selecting proper tools from the large toolset is also a crucial ability for the tool learning model to be applied in real-world applications. Existing methods usually directly employ self-instruction methods to train the model, which ignores differences in tool complexity. In this paper, we propose the Confucius, a novel tool learning framework to train LLM to use complicated tools in real-world scenarios, which contains two main phases: (1) We first propose a multi-stage learning method to teach the LLM to use various tools from an easy-to-difficult curriculum; (2) thenceforth, we propose the Iterative Self-instruct from Introspective Feedback (ISIF) to dynamically construct the dataset to improve the ability to use the complicated tool. Extensive experiments conducted on both controlled and real-world settings demonstrate the superiority of our tool learning framework in the real-world application scenarios compared to both tuning-free (e.g. ChatGPT, Claude) and tuning-based baselines (e.g. GPT4Tools).

arxiv情報

著者 Shen Gao,Zhengliang Shi,Minghang Zhu,Bowen Fang,Xin Xin,Pengjie Ren,Zhumin Chen,Jun Ma,Zhaochun Ren
発行日 2023-12-21 07:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク