要約
ヒューマン フィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせる上で大きな可能性を示しています。
嗜好データの入手可能性に応じて、オンラインとオフラインの両方の RLHF が活発に調査されています。
重要なボトルネックは、選好データの収集方法に関係なく、RLHF の選好データから学習した報酬関数に不確実性推定を組み込む方法を理解することです。
不確実性の下での楽観主義または悲観主義の原則は、標準的な強化学習 (RL) で十分に確立されていますが、信頼区間を構築するための標準的な手法は、不確実性の下では扱いにくくなっているため、大規模な言語モデルに適用できる、実際に実装可能で理論に基づいた形式はまだ利用できません。
任意のポリシーのパラメータ化。
この論文では、オンラインとオフラインの RLHF への統一アプローチ、つまり価値インセンティブ付き嗜好最適化 (VPO) を紹介します。これは、報酬関数の最尤推定値を、$\textit{
記号}$ は、楽観主義か悲観主義のどちらが選択されたかを示します。
また、VPO は、暗黙的報酬モデリングを使用してポリシーを直接最適化するため、直接優先度の最適化と同様の、より単純な RLHF パイプラインを共有します。
VPO の理論上の保証は、オンライン設定とオフライン設定の両方で提供され、標準 RL のレートと一致します。
さらに、テキストの要約と対話に関する実験により、VPO の実用性と有効性が検証されます。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) has demonstrated great promise in aligning large language models (LLMs) with human preference. Depending on the availability of preference data, both online and offline RLHF are active areas of investigation. A key bottleneck is understanding how to incorporate uncertainty estimation in the reward function learned from the preference data for RLHF, regardless of how the preference data is collected. While the principles of optimism or pessimism under uncertainty are well-established in standard reinforcement learning (RL), a practically-implementable and theoretically-grounded form amenable to large language models is not yet available, as standard techniques for constructing confidence intervals become intractable under arbitrary policy parameterizations. In this paper, we introduce a unified approach to online and offline RLHF — value-incentivized preference optimization (VPO) — which regularizes the maximum-likelihood estimate of the reward function with the corresponding value function, modulated by a $\textit{sign}$ to indicate whether the optimism or pessimism is chosen. VPO also directly optimizes the policy with implicit reward modeling, and therefore shares a simpler RLHF pipeline similar to direct preference optimization. Theoretical guarantees of VPO are provided for both online and offline settings, matching the rates of their standard RL counterparts. Moreover, experiments on text summarization and dialog verify the practicality and effectiveness of VPO.
arxiv情報
著者 | Shicong Cen,Jincheng Mei,Katayoon Goshvadi,Hanjun Dai,Tong Yang,Sherry Yang,Dale Schuurmans,Yuejie Chi,Bo Dai |
発行日 | 2024-05-29 17:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google