要約
単一の操作補強学習(RL)メソッドは、スカラーリワードが直接利用可能な(プロンプト、応答、報酬)トリプレットで構成されるデータセットからポリシーを最適化することを目的としています。
この監督形式は、親指/ダウンシグナルなどの実際の人間のフィードバックを反映しており、構造化された優先注釈の必要性を回避するため、非常に実用的です。
対照的に、直接選好最適化(DPO)などのペアワイズ優先ベースの方法は、優先応答と分散した応答の両方を持つデータセットに依存しています。
単一の軌跡のアプローチの中で、直接報酬最適化(DRO)は、その単純さと安定性のために強力な経験的パフォーマンスを示しています。
ただし、DROでは、値関数を近似する必要があります。これには、いくつかの制限が導入されます。ポリシー学習と価値学習の間の結合、ポリシー自体の絶対的な監督の欠如です。
値関数をモデル化する必要性を削除することによりこれらの制限を解決する新しい方法である、報酬パーティションオプティション(RPO)を導入します。
代わりに、RPOは、データから直接推定されたパーティションアプローチを使用して、観測された報酬を正常化します。
これにより、補助モデルがなく、共同最適化がないため、ポリシーに関する簡単な監視された学習目標につながります。
RPOは、ポリシーに関する直接的で安定した監督を提供し、実際に堅牢で実装しやすくします。
FLAN-T5エンコーダデコーダーモデルを使用して、Scalar-Feedback言語モデリングタスクのRPOを検証します。
我々の結果は、RPOがDROやKahneman-Tversky Optimization(KTO)などの既存の単一軌道ベースラインよりも優れていることを示しています。
これらの調査結果は、RPOが単一の訓練ポリシーの最適化のためのシンプルで効果的で理論的に根拠のある方法であることを確認しています。
要約(オリジナル)
Single-trajectory reinforcement learning (RL) methods aim to optimize policies from datasets consisting of (prompt, response, reward) triplets, where scalar rewards are directly available. This supervision format is highly practical, as it mirrors real-world human feedback, such as thumbs-up/down signals, and avoids the need for structured preference annotations. In contrast, pairwise preference-based methods like Direct Preference Optimization (DPO) rely on datasets with both preferred and dispreferred responses, which are harder to construct and less natural to collect. Among single-trajectory approaches, Direct Reward Optimization (DRO) has shown strong empirical performance due to its simplicity and stability. However, DRO requires approximating a value function, which introduces several limitations: high off-policy variance, coupling between policy and value learning, and a lack of absolute supervision on the policy itself. We introduce Reward Partitioning Optimization (RPO), a new method that resolves these limitations by removing the need to model the value function. Instead, RPO normalizes observed rewards using a partitioning approach estimated directly from data. This leads to a straightforward supervised learning objective on the policy, with no auxiliary models and no joint optimization. RPO provides direct and stable supervision on the policy, making it robust and easy to implement in practice. We validate RPO on scalar-feedback language modeling tasks using Flan-T5 encoder-decoder models. Our results demonstrate that RPO outperforms existing single-trajectory baselines such as DRO and Kahneman-Tversky Optimization (KTO). These findings confirm that RPO is a simple, effective, and theoretically grounded method for single-trajectory policy optimization.
arxiv情報
著者 | Bilal Faye,Hanane Azzag,Mustapha Lebbah |
発行日 | 2025-06-16 17:06:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google