Goodhart’s Law in Reinforcement Learning

要約

現実の世界で複雑なタスクを完全に捉える報酬関数を実装することは非現実的です。
結果として、報酬関数を真の目的の定義としてではなく、その代理として考えることが適切なことがよくあります。
私たちはこの現象をグッドハートの法則のレンズを通して研究します。グッドハートの法則は、ある臨界点を超えて不完全なプロキシの最適化が進むと、真の目的のパフォーマンスが低下すると予測します。
まず、この効果の大きさを定量化する方法を提案し、不完全な代理報酬を最適化すると、さまざまな環境や報酬関数に対してグッドハートの法則によって予測される動作がもたらされることが多いことを経験的に示します。
次に、グッドハートの法則がマルコフの意思決定プロセスで発生する理由を幾何学的に説明します。
これらの理論的洞察を使用して、前述の落とし穴を確実に回避する最適な早期停止方法を提案し、この方法の理論的なリグレス限界を導き出します。
さらに、真の報酬関数について不確実性がある設定に対して、最悪の場合の報酬を最大化するトレーニング方法を導き出します。
最後に、早期停止方法を実験的に評価します。
私たちの結果は、報酬の誤った仕様の下での強化学習の理論原理に基づいた研究の基礎を裏付けています。

要約(オリジナル)

Implementing a reward function that perfectly captures a complex task in the real world is impractical. As a result, it is often appropriate to think of the reward function as a proxy for the true objective rather than as its definition. We study this phenomenon through the lens of Goodhart’s law, which predicts that increasing optimisation of an imperfect proxy beyond some critical point decreases performance on the true objective. First, we propose a way to quantify the magnitude of this effect and show empirically that optimising an imperfect proxy reward often leads to the behaviour predicted by Goodhart’s law for a wide range of environments and reward functions. We then provide a geometric explanation for why Goodhart’s law occurs in Markov decision processes. We use these theoretical insights to propose an optimal early stopping method that provably avoids the aforementioned pitfall and derive theoretical regret bounds for this method. Moreover, we derive a training method that maximises worst-case reward, for the setting where there is uncertainty about the true reward function. Finally, we evaluate our early stopping method experimentally. Our results support a foundation for a theoretically-principled study of reinforcement learning under reward misspecification.

arxiv情報

著者 Jacek Karwowski,Oliver Hayman,Xingjian Bai,Klaus Kiendlhofer,Charlie Griffin,Joar Skalse
発行日 2023-10-13 14:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク