Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation

要約

強化学習 (RL) は、言語モデルを人間の好みなどの微分不可能な報酬信号と一致させることができます。
ただし、これらの報酬シグナルがまばらであることから大きな課題が生じます。通常、出力全体に対して報酬は 1 つだけです。
この報酬の少なさは、非効率的で不安定な学習につながる可能性があります。
この課題に対処するために、私たちの論文では、大規模言語モデル (LLM) の批評機能を利用して、RL トレーニング中に中間ステップの報酬を生成する新しいフレームワークを紹介します。
私たちの方法には、ポリシー モデルと批評言語モデルを結合することが含まれます。批評言語モデルは、出力の各部分の包括的なフィードバックを提供する役割を果たします。
このフィードバックは、RL トレーニング プロセスのガイドに使用できるトークンまたはスパンレベルの報酬に変換されます。
私たちはこのアプローチを 2 つの異なる設定で調査します。1 つはポリシー モデルがより小さく、より強力な批評家モデルとペアになっている設定で、もう 1 つは単一の言語モデルが両方の役割を果たす設定です。
感情制御、言語モデルの解毒、要約という 3 つのテキスト生成タスクに対するアプローチを評価します。
実験結果は、人工的な固有報酬を組み込むと、自動評価と人間による評価の両方によってサポートされ、サンプル効率と政策モデルの全体的なパフォーマンスの両方が大幅に向上することを示しています。

要約(オリジナル)

Reinforcement learning (RL) can align language models with non-differentiable reward signals, such as human preferences. However, a major challenge arises from the sparsity of these reward signals – typically, there is only a single reward for an entire output. This sparsity of rewards can lead to inefficient and unstable learning. To address this challenge, our paper introduces an novel framework that utilizes the critique capability of Large Language Models (LLMs) to produce intermediate-step rewards during RL training. Our method involves coupling a policy model with a critic language model, which is responsible for providing comprehensive feedback of each part of the output. This feedback is then translated into token or span-level rewards that can be used to guide the RL training process. We investigate this approach under two different settings: one where the policy model is smaller and is paired with a more powerful critic model, and another where a single language model fulfills both roles. We assess our approach on three text generation tasks: sentiment control, language model detoxification, and summarization. Experimental results show that incorporating artificial intrinsic rewards significantly improve both sample efficiency and the overall performance of the policy model, supported by both automatic and human evaluation.

arxiv情報

著者 Meng Cao,Lei Shu,Lei Yu,Yun Zhu,Nevan Wichers,Yinxiao Liu,Lei Meng
発行日 2024-02-19 18:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク