From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、最新世代の生成 AI モデルの成功に不可欠です。
古典的な RLHF パイプラインの複雑な性質に対応して、Direct Preference Optimization (DPO) などの直接アライメント アルゴリズムが代替アプローチとして登場しました。
DPO は標準の RLHF セットアップと同じ目的を解決しますが、2 つのアプローチの間には不一致があります。
標準 RLHF は特定のトークンレベルの MDP で強化学習を展開しますが、DPO はモデルの応答全体が 1 つのアームとして扱われるバンディット問題として導出されます。
この研究では、この違いを修正し、最初にベルマン方程式を満たす一般的な逆 Q 学習アルゴリズムとしてトークンレベル MDP の DPO を導出できることを理論的に示します。
理論的結果を使用して、3 つの具体的な経験的洞察を提供します。
まず、トークン レベルの解釈により、DPO はある種のクレジット割り当てを実行できることを示します。
次に、トークン レベルの定式化の下で、最近言語生成空間に適用されている MCTS などの古典的な検索ベースのアルゴリズムが、DPO ポリシーの尤度ベースの検索と同等であることを証明します。
経験的に、単純なビーム検索により、基本の DPO ポリシーに比べて有意な改善が得られることが示されています。
最後に、参照ポリシーの選択により、トレーニング中に暗黙的な報酬がどのように減少するかを示します。
最後に、マルチターン対話における情報の引き出し、推論、エージェントのアプリケーション、マルチモデル システムのエンドツーエンドのトレーニングなど、私たちの研究の応用について説明します。

要約(オリジナル)

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.

arxiv情報

著者 Rafael Rafailov,Joey Hejna,Ryan Park,Chelsea Finn
発行日 2024-04-18 17:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク