The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret

要約

強化学習では、意図したタスクをキャプチャする報酬機能を指定することは非常に困難です。
報酬学習は、報酬機能を学ぶことにより、この問題に対処することを目的としています。
ただし、学習された報酬モデルは、データ分布にエラーが低い場合がありますが、その後、後悔しているポリシーを作成します。
このような報酬モデルには、エラーとリグレットの不一致があると言います。
エラーとリグレットのミスマッチの主な原因は、ポリシーの最適化中に一般的に発生する分布シフトです。
この論文では、報酬モデルの十分に低い予想されるテストエラーが低いケースの後悔が低いことを保証することを数学的に示しますが、固定された予想されるテストエラーの場合、エラーレグレットの不一致を可能にする現実的なデータ分布が存在することを示します。
次に、RLHFなどの方法で一般的に採用されているポリシー正規化手法を使用する場合でも、同様の問題が持続することを示します。
私たちの結果が、報酬モデルを学ぶための改善された方法の理論的および経験的研究を刺激し、それらの品質を確実に測定するためのより良い方法を促進することを願っています。

要約(オリジナル)

In reinforcement learning, specifying reward functions that capture the intended task can be very challenging. Reward learning aims to address this issue by learning the reward function. However, a learned reward model may have a low error on the data distribution, and yet subsequently produce a policy with large regret. We say that such a reward model has an error-regret mismatch. The main source of an error-regret mismatch is the distributional shift that commonly occurs during policy optimization. In this paper, we mathematically show that a sufficiently low expected test error of the reward model guarantees low worst-case regret, but that for any fixed expected test error, there exist realistic data distributions that allow for error-regret mismatch to occur. We then show that similar problems persist even when using policy regularization techniques, commonly employed in methods such as RLHF. We hope our results stimulate the theoretical and empirical study of improved methods to learn reward models, and better ways to measure their quality reliably.

arxiv情報

著者 Lukas Fluri,Leon Lang,Alessandro Abate,Patrick Forré,David Krueger,Joar Skalse
発行日 2025-03-04 15:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク