Improving Language Models with Advantage-based Offline Policy Gradients

要約

抽象言語モデル (LM) は、ヒューマン フィードバックによる強化学習 (RLHF) を使用して微調整すると、実質的な言語機能を実現します。
ただし、RLHF は不安定で大量のデータを必要とするプロセスであり、微調整のために LM で生成された高品質の新しいデータが継続的に必要となります。
既存のデータに対する RL トレーニングを可能にする新しいクラスのオフライン ポリシー勾配アルゴリズムである Advantage-Leftover Lunch RL (A-LoL) を導入します。
LM 出力シーケンス全体を 1 つのアクションとして想定することで、A-LoL ではシーケンスレベルの分類器や人間が設計したスコア関数を報酬として組み込むことができます。
その後、LM の内部シーケンス レベル値推定を使用することで、A-LoL はトレーニング中にネガティブ アドバンテージ (低品質) データ ポイントをフィルタリングし、ノイズに対する耐性を高めます。
全体として、A-LoL は、サンプル効率が高く安定した、実装が簡単な LM トレーニング レシピです。
4 つの異なる言語生成タスクのセットを使用して、A-LoL とそのバリアントの有効性を実証します。
オンライン RL (PPO) と、最近の好みベース (DPO、PRO) および報酬ベース (GOLD) のオフライン RL ベースラインの両方と比較します。
一般的に使用される RLHF ベンチマークである Helpful and Harmless Assistant (HHA) では、A-LoL メソッドでトレーニングされた LM は最高の多様性を達成すると同時に、人間によるとベースラインよりも安全で役立つと評価されています。
さらに、残りの 3 つのタスクでは、ノイズの多いトレーニング データや次善のトレーニング データを使用している場合でも、A-LoL は複数の個別の報酬関数を最適化できます。
実験コードも公開しています。
https://github.com/abaheti95/LoL-RL

要約(オリジナル)

Abstract Language Models (LMs) achieve substantial language capabilities when finetuned using Reinforcement Learning with Human Feedback (RLHF). However, RLHF is an unstable and data-hungry process that continually requires new high-quality LM-generated data for finetuning. We introduce Advantage-Leftover Lunch RL (A-LoL), a new class of offline policy gradient algorithms that enable RL training on any pre-existing data. By assuming the entire LM output sequence as a single action, A-LoL allows incorporating sequence-level classifiers or human-designed scoring functions as rewards. Subsequently, by using LM’s internal sequence-level value estimate, A-LoL filters negative advantage (low-quality) data points during training, making it resilient to noise. Overall, A-LoL is an easy-to-implement LM training recipe that is sample-efficient and stable. We demonstrate the effectiveness of A-LoL and its variants with a set of four different language generation tasks. We compare against both online RL (PPO) and recent preference-based (DPO, PRO) and reward-based (GOLD) offline RL baselines. On the commonly-used RLHF benchmark, Helpful and Harmless Assistant (HHA), LMs trained with A-LoL methods achieve the highest diversity while also being rated more safe and helpful than baselines according to humans. Additionally, in the remaining three tasks, A-LoL could optimize multiple distinct reward functions even when using noisy or suboptimal training data. We also release our experimental code. https://github.com/abaheti95/LoL-RL

arxiv情報

著者 Ashutosh Baheti,Ximing Lu,Faeze Brahman,Ronan Le Bras,Maarten Sap,Mark Riedl
発行日 2023-09-29 07:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク