ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation

要約

強化学習(RL)をシーケンス生成モデルに適用することで、長期的な報酬(例えばBLEUや人間のフィードバック)を直接最適化することができるが、一般的にアクションシーケンスの空間に対する大規模なサンプリングが必要となる。これは、機械翻訳のようなシーケンス生成問題の実践で提示されるような計算上の課題であり、そこではしばしば大きなアクション空間( \textit{e.g. } a vocabulary)と長いアクションシーケンス( \textit{e.g. } a translation)を扱う。本研究では、RLによるシーケンス生成モデルの学習時のサンプリング効率を改善するために、2段階サンプリングと動的サンプリングのアプローチを導入する。我々のアプローチを、機械翻訳や抽象的要約を含む従来のシーケンス生成タスクで実験する。さらに、報酬モデルを用いた大規模言語モデルの学習を通して、人間のフィードバックからのRL(RLHF)における我々のアプローチを評価する。実験の結果、ESRLと呼ばれる効率的なサンプリングに基づくRLは、学習効率とメモリ消費量の両方において、全てのベースラインを凌駕できることが示された。特に、ESRLは強力なREINFORCE、最小リスク訓練、近接政策最適化手法に対して一貫した性能向上をもたらす。

要約(オリジナル)

Applying Reinforcement Learning (RL) to sequence generation models enables the direct optimization of long-term rewards (\textit{e.g.,} BLEU and human feedback), but typically requires large-scale sampling over a space of action sequences. This is a computational challenge as presented by the practice of sequence generation problems, such as machine translation, where we often deal with a large action space (\textit{e.g.,} a vocabulary) and a long action sequence (\textit{e.g.,} a translation). In this work, we introduce two-stage sampling and dynamic sampling approaches to improve the sampling efficiency during training sequence generation models via RL. We experiment with our approaches on the traditional sequence generation tasks, including machine translation and abstractive summarization. Furthermore, we evaluate our approaches in RL from human feedback (RLHF) through training a large language model using the reward model. Experimental results show that the efficient sampling-based RL, referred to as ESRL, can outperform all baselines in terms of both training efficiency and memory consumption. Notably, ESRL yields consistent performance gains over the strong REINFORCE, minimum risk training, and proximal policy optimization methods.

arxiv情報

著者 Chenglong Wang,Hang Zhou,Yimin Hu,Yifu Huo,Bei Li,Tongran Liu,Tong Xiao,Jingbo Zhu
発行日 2023-08-04 09:35:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク