Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

要約

複雑な目標を正確に指定することは難しいため、強化学習ポリシーは多くの場合、真の目標を捉えていると思われる欠陥のある代理報酬を使用して最適化されます。
ただし、プロキシ報酬の最適化は報酬ハッキングにつながることがよくあります。最適化された報酬関数は適切なプロキシではなくなり、結果として得られるポリシーは、不特定の真の報酬に対してパフォーマンスが低下します。
報酬ハッキングに対する原則的な解決策は、問題に対する適切な定義の欠如によって妨げられてきました。
これに対処するために、最適化下で破綻する「基本ポリシー」によって見られる状態とアクションのプロキシ報酬と真の報酬の間の相関関係に基づいた報酬ハッキングの定義を導入します。
この定義が、ヒューマン フィードバックからの強化学習 (RLHF) など、いくつかの現実的な設定にわたって報酬ハッキング動作を捉えていることを示します。
次に、基本ポリシーへの正規化により報酬のハッキングを効果的に防止できることを理論的に示します。
現在の RLHF アプローチはポリシーのアクション分布間に KL ペナルティを適用しますが、私たちの理論は、ポリシーの占有測定値間の $\chi^2$ の乖離を使用して正規化する方がより効果的であることを示唆しています。
私たちは、このタイプの正則化がなぜ優れているのかを直感的に示し、LLM の RLHF を含む 4 つの現実的なドメインにわたって、実際の報酬ハッキングをより効果的に軽減できることを実証します。
私たちのコードは https://github.com/cassidylaidlaw/orpo で入手できます。

要約(オリジナル)

Because it is difficult to precisely specify complex objectives, reinforcement learning policies are often optimized using flawed proxy rewards that seem to capture the true objective. However, optimizing proxy rewards frequently leads to reward hacking: the optimized reward function ceases to be a good proxy, and the resulting policy performs poorly with respect to the unspecified true reward. Principled solutions to reward hacking have been impeded by the lack of a good definition for the problem. To address this, we introduce a definition of reward hacking based on the correlation between proxy and true rewards for states and actions seen by a ‘base policy’ that breaks down under optimization. We show that this definition captures reward hacking behavior across several realistic settings, including in reinforcement learning from human feedback (RLHF). We then show theoretically that regularization to the base policy can effectively prevent reward hacking. While current RLHF approaches apply a KL penalty between the action distributions of policies, our theory suggests that it is more effective to regularize using the $\chi^2$ divergence between the policies’ occupancy measures. We intuitively show why this type of regularization is superior and demonstrate that it better mitigates reward hacking in practice across four realistic domains, including RLHF for LLMs. Our code is available at https://github.com/cassidylaidlaw/orpo.

arxiv情報

著者 Cassidy Laidlaw,Shivam Singhal,Anca Dragan
発行日 2024-10-23 17:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク