ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

要約

大規模言語モデル (LLM) の幅広い使用例は、目標指向の意思決定タスク (または「エージェント」タスク) です。LLM は、指定されたプロンプトに対して補完を生成するだけでなく、複数のプロンプトに対してインテリジェントな意思決定を行う必要があります。
– タスクを達成するために対話を切り替えます (例: Web と対話するとき、ツールを使用するとき、またはカスタマー サポートを提供するとき)。
強化学習 (RL) は、このようなエージェントのタスクに対処するための一般的なパラダイムを提供しますが、LLM の現在の RL 手法は、主に 1 ターンの報酬の最適化に焦点を当てています。
構造上、ほとんどのシングルターン RL メソッドでは、複数のターンにわたって情報をインテリジェントに検索したり、クレジットの割り当てを実行したり、過去の行動について推論したりする機能を LLM に与えることができません。これらはすべて、エージェントのタスクにおいて重要です。
これにより、LLM 用の効果的かつ効率的なマルチターン RL アルゴリズムをどのように設計できるのかという疑問が生じます。
この論文では、LLM を微調整するためのマルチターン RL アルゴリズムを構築するためのフレームワークを開発します。このフレームワークは、LLM 用の既存のシングルターン RL 手法 (近接ポリシーの最適化など) の柔軟性を維持しながら、複数のターン、長い期間、
効果的に報酬を遅らせることができます。
これを行うために、私たちのフレームワークは階層型 RL アプローチを採用し、2 つの RL アルゴリズムを並行して実行します。1 つは発話全体にわたる報酬を集計する高レベルのオフポリシー値ベースの RL アルゴリズム、もう 1 つはこの高レベルを利用する低レベルの RL アルゴリズムです。
value 関数を使用して、各発話またはターン内でトークン ポリシーをトレーニングします。
私たちの階層フレームワークである Actor-Critic Framework with a Hierarchical Structure (ArCHer) は、他の RL メソッドを生み出すこともできます。
経験的に、ArCHer はエージェント タスクの効率とパフォーマンスを大幅に向上させ、既存の方法と比較して約 100 倍のサンプル効率を達成すると同時に、より大きなモデル容量 (テストした最大 70 億スケール) で改善することがわかりました。

要約(オリジナル)

A broad use case of large language models (LLMs) is in goal-directed decision-making tasks (or ‘agent’ tasks), where an LLM needs to not just generate completions for a given prompt, but rather make intelligent decisions over a multi-turn interaction to accomplish a task (e.g., when interacting with the web, using tools, or providing customer support). Reinforcement learning (RL) provides a general paradigm to address such agent tasks, but current RL methods for LLMs largely focus on optimizing single-turn rewards. By construction, most single-turn RL methods cannot endow LLMs with the ability to intelligently seek information over multiple turns, perform credit assignment, or reason about their past actions — all of which are critical in agent tasks. This raises the question: how can we design effective and efficient multi-turn RL algorithms for LLMs? In this paper, we develop a framework for building multi-turn RL algorithms for fine-tuning LLMs, that preserves the flexibility of existing single-turn RL methods for LLMs (e.g., proximal policy optimization), while accommodating multiple turns, long horizons, and delayed rewards effectively. To do this, our framework adopts a hierarchical RL approach and runs two RL algorithms in parallel: a high-level off-policy value-based RL algorithm to aggregate reward over utterances, and a low-level RL algorithm that utilizes this high-level value function to train a token policy within each utterance or turn. Our hierarchical framework, Actor-Critic Framework with a Hierarchical Structure (ArCHer), can also give rise to other RL methods. Empirically, we find that ArCHer significantly improves efficiency and performance on agent tasks, attaining a sample efficiency of about 100x over existing methods, while also improving with larger model capacity (upto the 7 billion scale that we tested on).

arxiv情報

著者 Yifei Zhou,Andrea Zanette,Jiayi Pan,Sergey Levine,Aviral Kumar
発行日 2024-02-29 18:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク