要約
大規模言語モデル (LLM) エージェントは、スタンドアロン LLM の機能を大幅に拡張し、外部ツール (API、関数など) と対話し、複雑なタスクを自律的な方法で完了できるようにします。
ツールの使用という課題では、LLM がユーザーのクエリを理解し、回答を生成するだけでなく、タスクの計画、メモリ管理、ツールの呼び出し、結果の要約において優れていることが求められます。
従来のアプローチは、これらすべての機能を備えた単一の LLM をトレーニングすることに重点を置いていますが、特に小規模なモデルではパフォーマンスの限界が明らかになります。
さらに、ツールが更新されると、LLM 全体の再トレーニングが必要になる場合があります。
これらの課題を克服するために、前述の機能をプランナー、呼び出し元、およびサマライザーに分解する新しい戦略を提案します。
各コンポーネントは、特定の機能に焦点を当て、タスクを達成するために他のコンポーネントと連携する単一の LLM によって実装されます。
このモジュール式フレームワークにより、個別の更新や、各機能を構築するためのより小さな LLM の潜在的な使用が容易になります。
このフレームワークを効果的にトレーニングするために、2 段階のトレーニング パラダイムを導入します。
まず、サブタスクを区別せずにデータセット全体でバックボーン LLM を微調整し、モデルにタスクの包括的な理解を提供します。
2 番目に、微調整された LLM を使用してプランナー、呼び出し元、およびサマライザーをそれぞれインスタンス化します。これらはそれぞれのサブタスクで継続的に微調整されます。
さまざまなツール使用ベンチマークにわたる評価により、私たちが提案するマルチ LLM フレームワークが従来の単一 LLM アプローチを超えていることが示され、ツール学習におけるその有効性と利点が強調されています。
要約(オリジナル)
Large Language Model (LLM) agents significantly extend the capabilities of standalone LLMs, empowering them to interact with external tools (e.g., APIs, functions) and complete complex tasks in a self-directed fashion. The challenge of tool use demands that LLMs not only understand user queries and generate answers but also excel in task planning, memory management, tool invocation, and result summarization. While traditional approaches focus on training a single LLM with all these capabilities, performance limitations become apparent, particularly with smaller models. Moreover, the entire LLM may require retraining when tools are updated. To overcome these challenges, we propose a novel strategy that decomposes the aforementioned capabilities into a planner, caller, and summarizer. Each component is implemented by a single LLM that focuses on a specific capability and collaborates with other components to accomplish the task. This modular framework facilitates individual updates and the potential use of smaller LLMs for building each capability. To effectively train this framework, we introduce a two-stage training paradigm. First, we fine-tune a backbone LLM on the entire dataset without discriminating sub-tasks, providing the model with a comprehensive understanding of the task. Second, the fine-tuned LLM is used to instantiate the planner, caller, and summarizer respectively, which are continually fine-tuned on respective sub-tasks. Evaluation across various tool-use benchmarks illustrates that our proposed multi-LLM framework surpasses the traditional single-LLM approach, highlighting its efficacy and advantages in tool learning.
arxiv情報
| 著者 | Weizhou Shen,Chenliang Li,Hongzhan Chen,Ming Yan,Xiaojun Quan,Hehong Chen,Ji Zhang,Fei Huang |
| 発行日 | 2024-02-01 04:34:07+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google