PILAF: Optimal Human Preference Sampling for Reward Modeling

要約

大規模な言語モデルが現実世界のアプリケーションをますます駆動するにつれて、それらを人間の価値に合わせて最重要です。
人間のフィードバック(RLHF)からの強化学習は、Oracleの人間の価値がアクセスできないままである場合、優先データを報酬モデルに変換する重要な手法として浮上しています。
実際には、RLHFは主におおよその報酬モデルに依存しています。これは、基礎となる人間の価値を最大化するためのポリシーを一貫して導くことはできません。
根底にあるOracle Regideを最大化すると優先学習を明示的に調整する優先ラベル付けのための新しい応答サンプリング戦略であるAligned Feedback(PILAF)のポリシー相当学習を提案します。
Pilafは理論的に根拠があり、最適化と統計的観点の両方から最適性を示しています。
この方法は、フィードバックキュレーションが重要な反復的およびオンラインRLHF設定で強力なパフォーマンスを実装し、実証するのが簡単です。

要約(オリジナル)

As large language models increasingly drive real-world applications, aligning them with human values becomes paramount. Reinforcement Learning from Human Feedback (RLHF) has emerged as a key technique, translating preference data into reward models when oracle human values remain inaccessible. In practice, RLHF mostly relies on approximate reward models, which may not consistently guide the policy toward maximizing the underlying human values. We propose Policy-Interpolated Learning for Aligned Feedback (PILAF), a novel response sampling strategy for preference labeling that explicitly aligns preference learning with maximizing the underlying oracle reward. PILAF is theoretically grounded, demonstrating optimality from both an optimization and a statistical perspective. The method is straightforward to implement and demonstrates strong performance in iterative and online RLHF settings where feedback curation is critical.

arxiv情報

著者 Yunzhen Feng,Ariel Kwiatkowski,Kunhao Zheng,Julia Kempe,Yaqi Duan
発行日 2025-02-06 18:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク