Strategyproof Reinforcement Learning from Human Feedback

要約

私たちは、多様な好みを持つ複数の個人が、最終的なポリシーを有利に揺さぶるために戦略的にフィードバックを提供する人間のフィードバック(RLHF)から強化学習を研究しています。
既存のRLHFメソッドは戦略的なプルーフではないことを示しています。これにより、$ K $の個人のうち1人だけが好みを戦略的に報告している場合でも、実質的に並列されたポリシーを学習する可能性があります。
また、戦略的なRLHFアルゴリズムは、インセンティブアライメントとポリシーアラインメントの間の固有のトレードオフを強調して、最適なポリシーよりも$ k $ k-timesを実行する必要があることがわかります。
次に、適切なカバレッジの仮定の下で、ほぼ戦略的なプルーフであり、個人とサンプルの数が増えるにつれて最適なポリシーに収束する悲観的な中央値アルゴリズムを提案します。

要約(オリジナル)

We study Reinforcement Learning from Human Feedback (RLHF), where multiple individuals with diverse preferences provide feedback strategically to sway the final policy in their favor. We show that existing RLHF methods are not strategyproof, which can result in learning a substantially misaligned policy even when only one out of $k$ individuals reports their preferences strategically. In turn, we also find that any strategyproof RLHF algorithm must perform $k$-times worse than the optimal policy, highlighting an inherent trade-off between incentive alignment and policy alignment. We then propose a pessimistic median algorithm that, under appropriate coverage assumptions, is approximately strategyproof and converges to the optimal policy as the number of individuals and samples increases.

arxiv情報

著者 Thomas Kleine Buening,Jiarui Gan,Debmalya Mandal,Marta Kwiatkowska
発行日 2025-03-12 17:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク