要約
人間のフィードバックからの強化学習 (RLHF) は、人間の好みに合わせて大規模言語モデル (LLM) の出力の品質を向上させることができます。
私たちは、成長するバッチ強化学習 (RL) にヒントを得て、LLM を人間の好みに合わせるためのシンプルなアルゴリズムを提案します。これを強化自己トレーニング (ReST) と呼びます。
初期 LLM ポリシーが与えられると、ReST はポリシーからサンプルを生成することによってデータセットを生成します。その後、そのサンプルはオフライン RL アルゴリズムを使用して LLM ポリシーを改善するために使用されます。
ReST は、トレーニング データセットがオフラインで生成され、データを再利用できるため、一般的なオンライン RLHF メソッドよりも効率的です。
ReST はすべての生成学習設定に適用できる一般的なアプローチですが、私たちは機械翻訳への応用に焦点を当てます。
私たちの結果は、コンピューティング効率とサンプル効率の高い方法での機械翻訳ベンチマークの自動化メトリクスと人間による評価によって測定されるように、ReST が翻訳品質を大幅に向上できることを示しています。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) can improve the quality of large language model’s (LLM) outputs by aligning them with human preferences. We propose a simple algorithm for aligning LLMs with human preferences inspired by growing batch reinforcement learning (RL), which we call Reinforced Self-Training (ReST). Given an initial LLM policy, ReST produces a dataset by generating samples from the policy, which are then used to improve the LLM policy using offline RL algorithms. ReST is more efficient than typical online RLHF methods because the training dataset is produced offline, which allows data reuse. While ReST is a general approach applicable to all generative learning settings, we focus on its application to machine translation. Our results show that ReST can substantially improve translation quality, as measured by automated metrics and human evaluation on machine translation benchmarks in a compute and sample-efficient manner.
arxiv情報
著者 | Caglar Gulcehre,Tom Le Paine,Srivatsan Srinivasan,Ksenia Konyushkova,Lotte Weerts,Abhishek Sharma,Aditya Siddhant,Alex Ahern,Miaosen Wang,Chenjie Gu,Wolfgang Macherey,Arnaud Doucet,Orhan Firat,Nando de Freitas |
発行日 | 2023-08-21 10:23:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google