Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

要約

ヒューマン フィードバックからの強化学習 (RLHF) の形での AI 調整は、高性能の大規模言語モデルにとって重要な要素として扱われることが増えています。
\textsc{近接ポリシー最適化} (PPO) は、最近の文献によって、RLHF の RL 部分の標準的な方法として位置づけられています。
ただし、これには、高い計算コストと繊細なハイパーパラメータ調整の両方が必要になります。
私たちは、PPO の開発につながった動機付けの原則のほとんどは、RLHF では実際的な問題ではないと仮定し、パフォーマンスを維持し、さらには向上させる、計算コストの低い方法を提唱します。
私たちは、RL の文脈で人間の好みからのアライメントの \textit{定式化} を再検討します。
指針としての単純さを保ちながら、RLHF コンテキストでは PPO の多くのコンポーネントが不要であること、そしてはるかに単純な REINFORCE スタイルの最適化バリアントが PPO と、新しく提案された DPO や RAFT などの「RL フリー」手法の両方よりも優れていることを示します。
私たちの研究は、LLM のアライメント特性に注意深く適応することで、低コストでオンライン RL 最適化の恩恵を受けることができることを示唆しています。

要約(オリジナル)

AI alignment in the shape of Reinforcement Learning from Human Feedback (RLHF) is increasingly treated as a crucial ingredient for high performance large language models. \textsc{Proximal Policy Optimization} (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. However, it involves both high computational cost and sensitive hyperparameter tuning. We posit that most of the motivational principles that led to the development of PPO are less of a practical concern in RLHF and advocate for a less computationally expensive method that preserves and even increases performance. We revisit the \textit{formulation} of alignment from human preferences in the context of RL. Keeping simplicity as a guiding principle, we show that many components of PPO are unnecessary in an RLHF context and that far simpler REINFORCE-style optimization variants outperform both PPO and newly proposed ‘RL-free’ methods such as DPO and RAFT. Our work suggests that careful adaptation to LLMs alignment characteristics enables benefiting from online RL optimization at low cost.

arxiv情報

著者 Arash Ahmadian,Chris Cremer,Matthias Gallé,Marzieh Fadaee,Julia Kreutzer,Ahmet Üstün,Sara Hooker
発行日 2024-02-22 17:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.7 パーマリンク