Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization

要約

事前にトレーニングされた大規模言語モデル (LM) を人間の好みに合わせるという問題に取り組みます。
テキスト生成を一連の意思決定の問題と見なすと、強化学習 (RL) は自然な概念フレームワークのように見えます。
ただし、LM ベースの生成に RL を使用すると、組み合わせアクション スペースによるトレーニングの不安定性や、LM アライメント用にカスタマイズされたオープンソース ライブラリとベンチマークの欠如など、経験的な課題に直面します。
したがって、研究コミュニティで疑問が生じます: RL は NLP の実用的なパラダイムですか?
これに答えるために、まずオープンソースのモジュラー ライブラリである RL4LM (言語モデルの強化学習) を導入し、RL を使用して言語ジェネレーターを最適化します。
このライブラリは、任意の報酬関数を使用して HuggingFace ライブラリ (Wolf et al. 2020) の任意のエンコーダーまたはエンコーダー デコーダー LM をトレーニングするために使用できる、ポリシーに準拠した RL アルゴリズムで構成されています。
次に、GRUE (General Reinforced-language Understanding Evaluation) ベンチマークを提示します。これは、ターゲット文字列ではなく、人間の好みの自動測定をキャプチャする報酬関数によって監視される 6 つの言語生成タスクのセットです。GRUE は最初のリーダーボード スタイルです。
NLP タスクの RL アルゴリズムの評価。
最後に、言語生成における組み合わせアクション空間を効果的に削減することを学習する、使いやすく高性能な RL アルゴリズム NLPO (自然言語ポリシー最適化) を紹介します。
1) RL 手法は一般的に、LM を人間の好みに合わせる際に教師あり手法よりも優れていることを示します。
2) NLPO は、自動評価と人間による評価の両方に基づいて、以前のポリシー勾配法 (PPO (Schulman et al. 2017) など) よりも優れた安定性とパフォーマンスを示します。

要約(オリジナル)

We tackle the problem of aligning pre-trained large language models (LMs) with human preferences. If we view text generation as a sequential decision-making problem, reinforcement learning (RL) appears to be a natural conceptual framework. However, using RL for LM-based generation faces empirical challenges, including training instability due to the combinatorial action space, as well as a lack of open-source libraries and benchmarks customized for LM alignment. Thus, a question rises in the research community: is RL a practical paradigm for NLP? To help answer this, we first introduce an open-source modular library, RL4LMs (Reinforcement Learning for Language Models), for optimizing language generators with RL. The library consists of on-policy RL algorithms that can be used to train any encoder or encoder-decoder LM in the HuggingFace library (Wolf et al. 2020) with an arbitrary reward function. Next, we present the GRUE (General Reinforced-language Understanding Evaluation) benchmark, a set of 6 language generation tasks which are supervised not by target strings, but by reward functions which capture automated measures of human preference.GRUE is the first leaderboard-style evaluation of RL algorithms for NLP tasks. Finally, we introduce an easy-to-use, performant RL algorithm, NLPO (Natural Language Policy Optimization)} that learns to effectively reduce the combinatorial action space in language generation. We show 1) that RL techniques are generally better than supervised methods at aligning LMs to human preferences; and 2) that NLPO exhibits greater stability and performance than previous policy gradient methods (e.g., PPO (Schulman et al. 2017)), based on both automatic and human evaluations.

arxiv情報

著者 Rajkumar Ramamurthy,Prithviraj Ammanabrolu,Kianté Brantley,Jack Hessel,Rafet Sifa,Christian Bauckhage,Hannaneh Hajishirzi,Yejin Choi
発行日 2023-03-01 01:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク