Preventing Reward Hacking with Occupancy Measure Regularization

要約

報酬ハッキングは、エージェントが「プロキシ」報酬関数 (手動で指定または学習されたもの) に関しては非常に優れたパフォーマンスを発揮するが、未知の真の報酬に関してはパフォーマンスが悪い場合に発生します。
プロキシと真の報酬を適切に調整することは非常に難しいため、報酬のハッキングを防ぐ 1 つのアプローチはプロキシを保守的に最適化することです。
これまでの研究は、アクション分布 (AD) 間の KL の相違にペナルティを課すことによって、学習されたポリシーが「安全な」ポリシーと同様に動作するように強制することに特に焦点を当ててきました。
ただし、単一状態でのアクション分布の小さな変化が潜在的に悲惨な結果につながる可能性がある一方、大きな変化は危険なアクティビティを示していない可能性があるため、AD の正規化は常にうまく機能するとは限りません。
私たちの洞察によると、報酬ハッキングの場合、エージェントは安全なポリシーによって到達される状態とは大幅に異なる状態を訪問し、状態占有測定 (OM) に大きな偏差を引き起こすということです。
したがって、報酬のハッキングを防ぐために、AD の相違ではなく、ポリシー間の OM の相違に基づいて正規化することを提案します。
理論的には、OM 正則化により真の報酬の大幅な低下をより効果的に回避できることが証明されています。
次に、さまざまな現実的な環境で、安全なポリシーに向けて正規化することで報酬ハッキングを防止する点で、OM ダイバージェンスが AD ダイバージェンスよりも優れていることを実証します。
さらに、占有測定値の相違によって、学習されたポリシーが報酬ハッキング行為から離れて正規化される可能性があることも示します。
コードとデータは https://github.com/cassidylaidlaw/orpo で入手できます。

要約(オリジナル)

Reward hacking occurs when an agent performs very well with respect to a ‘proxy’ reward function (which may be hand-specified or learned), but poorly with respect to the unknown true reward. Since ensuring good alignment between the proxy and true reward is extremely difficult, one approach to prevent reward hacking is optimizing the proxy conservatively. Prior work has particularly focused on enforcing the learned policy to behave similarly to a ‘safe’ policy by penalizing the KL divergence between their action distributions (AD). However, AD regularization doesn’t always work well since a small change in action distribution at a single state can lead to potentially calamitous outcomes, while large changes might not be indicative of any dangerous activity. Our insight is that when reward hacking, the agent visits drastically different states from those reached by the safe policy, causing large deviations in state occupancy measure (OM). Thus, we propose regularizing based on the OM divergence between policies instead of AD divergence to prevent reward hacking. We theoretically establish that OM regularization can more effectively avoid large drops in true reward. Then, we empirically demonstrate in a variety of realistic environments that OM divergence is superior to AD divergence for preventing reward hacking by regularizing towards a safe policy. Furthermore, we show that occupancy measure divergence can also regularize learned policies away from reward hacking behavior. Our code and data are available at https://github.com/cassidylaidlaw/orpo

arxiv情報

著者 Cassidy Laidlaw,Shivam Singhal,Anca Dragan
発行日 2024-03-05 18:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク