Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、言語モデルの調整のための中心的なツールとして登場しました。
RLHF でのオンライン探索を検討します。これは、モデルが多様で最大限の情報を提供する応答を生成することを意図的に奨励することで、人間または AI のフィードバックへの対話型アクセスを活用します。
RLHF が事前にトレーニングされたモデルから自信を持って逸脱できるようにすることで、オンライン探索は新しい、潜在的に超人間的な能力の可能性を提供しますが、言語モデルのトレーニングのパラダイムとしてのその可能性は、計算および統計上のボトルネックによりまだ実現されていません。
既存の強化学習技術を直接適応することによって。
我々は、RLHF におけるオンライン探索のための新しいアルゴリズムである Exploratory Preference Optimization (XPO) を提案します。これはシンプルで実用的ですが、(オンライン) Direct Preference Optimization (DPO; Rafailov et al., 2023) への 1 行の変更です。
既知の中で最も強力な証明可能な保証と有望な経験的パフォーマンスを享受しています。
XPO は、斬新で原則に基づいた探索ボーナスによって DPO の目標を強化し、初期モデルと人間のフィードバック データのサポートの外側を探索するアルゴリズムを強化します。
理論的には、初期モデルのカバレッジが良好かどうかに関係なく、XPO はサンプル効率が高く、自然探索条件下では最適に近い言語モデル ポリシーに収束することが証明されています。
私たちの分析は、DPO が $Q^{\star}$ 近似 (またはベルマン誤差最小化) の形式を暗黙的に実行するという観察に基づいており、言語モデリングと理論強化学習のこれまで異種だった技術を、
KL 正規化マルコフ決定プロセスの視点。
経験的に、予備評価では XPO が非探索的 DPO バリアントよりもサンプル効率が高いことがわかりました。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has emerged as a central tool for language model alignment. We consider online exploration in RLHF, which exploits interactive access to human or AI feedback by deliberately encouraging the model to produce diverse, maximally informative responses. By allowing RLHF to confidently stray from the pre-trained model, online exploration offers the possibility of novel, potentially super-human capabilities, but its full potential as a paradigm for language model training has yet to be realized, owing to computational and statistical bottlenecks in directly adapting existing reinforcement learning techniques. We propose a new algorithm for online exploration in RLHF, Exploratory Preference Optimization (XPO), which is simple and practical — a one-line change to (online) Direct Preference Optimization (DPO; Rafailov et al., 2023) — yet enjoys the strongest known provable guarantees and promising empirical performance. XPO augments the DPO objective with a novel and principled exploration bonus, empowering the algorithm to explore outside the support of the initial model and human feedback data. In theory, we show that XPO is provably sample-efficient and converges to a near-optimal language model policy under natural exploration conditions, irrespective of whether the initial model has good coverage. Our analysis, which builds on the observation that DPO implicitly performs a form of $Q^{\star}$-approximation (or, Bellman error minimization), combines previously disparate techniques from language modeling and theoretical reinforcement learning in a serendipitous fashion through the perspective of KL-regularized Markov decision processes. Empirically, we find that XPO is more sample-efficient than non-exploratory DPO variants in a preliminary evaluation.

arxiv情報

著者 Tengyang Xie,Dylan J. Foster,Akshay Krishnamurthy,Corby Rosset,Ahmed Awadallah,Alexander Rakhlin
発行日 2024-05-31 17:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク