MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

要約

人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の嗜好に合わせる上で有効であることが実証されている。しかし、トークンレベルのRLHFは、長いシーケンスにおける単位割り当ての問題に悩まされている。この問題では、報酬の遅延により、モデルがどの行動が成功した結果に貢献したかを識別することが困難になる。これは学習効率を妨げ、収束を遅らせる。本論文では、シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。MA-RLHFは、学習プロセスにマクロアクション(トークンのシーケンスやより高レベルの言語構成要素)を組み込む。この高い抽象化レベルで動作することで、我々のアプローチは行動と報酬の間の時間的距離を縮め、より高速で正確な与信割り当てを容易にする。この結果、より安定した政策勾配の推定が可能となり、各エピソード内での学習効率が向上する。我々は、テキスト要約、対話生成、質問応答、プログラム合成を含む、様々なモデルサイズとタスクにわたる広範な実験を通して、我々のアプローチを検証する。我々の手法は標準的なRLHFと比較して大幅な性能向上を達成し、テキスト要約とコード生成で最大30%、対話で18%、質問応答タスクで8%の性能向上を達成した。特筆すべきは、我々の手法は、学習時間において、標準的なRLHFの1.7倍から2倍の速さで同等に達し、さらに学習を進めることでそれを上回り続けることである。我々のコードとデータは https://github.com/ernie-research/MA-RLHF で公開される予定である。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has demonstrated effectiveness in aligning large language models (LLMs) with human preferences. However, token-level RLHF suffers from the credit assignment problem over long sequences, where delayed rewards make it challenging for the model to discern which actions contributed to successful outcomes. This hinders learning efficiency and slows convergence. In this paper, we propose MA-RLHF, a simple yet effective RLHF framework that incorporates macro actions — sequences of tokens or higher-level language constructs — into the learning process. By operating at this higher level of abstraction, our approach reduces the temporal distance between actions and rewards, facilitating faster and more accurate credit assignment. This results in more stable policy gradient estimates and enhances learning efficiency within each episode, all without increasing computational complexity during training or inference. We validate our approach through extensive experiments across various model sizes and tasks, including text summarization, dialogue generation, question answering, and program synthesis. Our method achieves substantial performance improvements over standard RLHF, with performance gains of up to 30% in text summarization and code generation, 18% in dialogue, and 8% in question answering tasks. Notably, our approach reaches parity with vanilla RLHF 1.7x to 2x faster in terms of training time and continues to outperform it with further training. We will make our code and data publicly available at https://github.com/ernie-research/MA-RLHF .

arxiv情報

著者 Yekun Chai,Haoran Sun,Huang Fang,Shuohuan Wang,Yu Sun,Hua Wu
発行日 2024-10-03 17:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク