要約
強化学習の最近の進歩(RL)にもかかわらず、未知の妨害の下での状態の制約を堅牢に満たす学習ポリシーの問題は開いたままです。
この論文では、モデルのないRLの2つの確立された手法の相互作用を分析することにより、エントロピーの正則化と制約の罰則を分析することにより、堅牢な安全性を達成するための新しい視点を提供します。
制約されたRLにおけるエントロピーの正規化が、将来の実行可能なアクションの数を最大化することを学習し、それによりアクションノイズに対して堅牢な制約の満足度を促進することを学ぶ本質的にバイアスのエントロピーの正則化を経験的に明らかにします。
さらに、ペナルティを通じて厳格な安全性の制約を緩和することにより、制約されたRL問題は、制約のないものによって任意に密接に近似し、したがって標準のモデルフリーRLを使用して解決できることを示します。
この再定式化は、安全性と最適性の両方を維持しながら、障害に対する回復力を経験的に改善します。
我々の結果は、エントロピーの正規化と堅牢性との関係は、単純な報酬形状を通じてRLの堅牢な安全性を可能にするため、さらなる経験的および理論的調査のための有望な手段であることを示しています。
要約(オリジナル)
Despite the many recent advances in reinforcement learning (RL), the question of learning policies that robustly satisfy state constraints under unknown disturbances remains open. In this paper, we offer a new perspective on achieving robust safety by analyzing the interplay between two well-established techniques in model-free RL: entropy regularization, and constraints penalization. We reveal empirically that entropy regularization in constrained RL inherently biases learning toward maximizing the number of future viable actions, thereby promoting constraints satisfaction robust to action noise. Furthermore, we show that by relaxing strict safety constraints through penalties, the constrained RL problem can be approximated arbitrarily closely by an unconstrained one and thus solved using standard model-free RL. This reformulation preserves both safety and optimality while empirically improving resilience to disturbances. Our results indicate that the connection between entropy regularization and robustness is a promising avenue for further empirical and theoretical investigation, as it enables robust safety in RL through simple reward shaping.
arxiv情報
著者 | Pierre-François Massiani,Alexander von Rohr,Lukas Haverbeck,Sebastian Trimpe |
発行日 | 2025-06-12 16:34:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google