Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback

要約

AIフィードバック(RLAIF)メソッドからの従来の強化学習で訓練された報酬モデルは、補強学習(RL)中のポリシーモデルのアライメントパフォーマンスを妨げる限られた一般化可能性に悩まされます。
この課題は、分布シフト、優先ラベルノイズ、過度に挑戦的なサンプルとモデル容量の間の不一致など、さまざまな問題に由来しています。
この論文では、これらの問題がデータの難易度の観点から本質的に絡み合っているという洞察によって推進されたデータ中心のアプローチを通じて、報酬モデルの一般化可能性を強化しようとします。
これに対処するために、新しいフレームワーク、$ \ textit {curriculum-rlaif} $を提案します。これは、さまざまな難易度レベルで優先ペアを構築し、報酬モデルトレーニングの難易度が高まる優先ペアを徐々に組み込むカリキュラムを生成します。
私たちの実験結果は、カリキュラム-RLAIFで訓練された報酬モデルが一般化の改善を実現し、さまざまな非カリキュラムベースラインと比較して追加の推論コストを帯びることなく、ポリシーモデルのアライメントパフォーマンスを大幅に増加させることを示唆しています。
外部の前提条件の報酬モデルまたは内部の自己選択メカニズムを介したデータ選択、およびその他のカリキュラム戦略を含む、代替アプローチとの詳細な分析と比較は、さらに、シンプルさ、効率性、および効果の観点からアプローチの優位性を示しています。

要約(オリジナル)

Reward models trained with conventional Reinforcement Learning from AI Feedback (RLAIF) methods suffer from limited generalizability, which hinders the alignment performance of the policy model during reinforcement learning (RL). This challenge stems from various issues, including distribution shift, preference label noise, and mismatches between overly challenging samples and model capacity. In this paper, we attempt to enhance the generalizability of reward models through a data-centric approach, driven by the insight that these issues are inherently intertwined from the perspective of data difficulty. To address this, we propose a novel framework, $\textit{Curriculum-RLAIF}$, which constructs preference pairs with varying difficulty levels and produces a curriculum that progressively incorporates preference pairs of increasing difficulty for reward model training. Our experimental results suggest that reward models trained with Curriculum-RLAIF achieve improved generalizability, significantly increasing the alignment performance of the policy model by a large margin without incurring additional inference costs compared to various non-curriculum baselines. Detailed analysis and comparisons with alternative approaches, including data selection via external pretrained reward models or internal self-selection mechanisms, as well as other curriculum strategies, further demonstrate the superiority of our approach in terms of simplicity, efficiency, and effectiveness.

arxiv情報

著者 Mengdi Li,Jiaye Lin,Xufeng Zhao,Wenhao Lu,Peilin Zhao,Stefan Wermter,Di Wang
発行日 2025-05-26 14:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク