GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model


安全強化学習 (SRL) は、安全制約を組み込むことで、深層強化学習 (DRL) アルゴリズムの安全な学習プロセスを実現することを目的としています。
ただし、SRL アプローチの有効性は正確な関数近似に依存することが多く、データが不十分であるため、学習の初期段階でこれを達成するのは特に困難です。
この問題に対処するために、この研究では、データ不足の課題を克服し、SRL アプローチのパフォーマンスを強化できる新しい一般化可能な安全性エンハンサー (GenSafe) を導入します。
モデル次数削減技術を活用して、最初に、元の安全制約の低次元近似器として削減次数マルコフ決定プロセス (ROMDP) を構築する革新的な方法を提案します。
次に、再定式化された ROMDP ベースの制約を解決することで、GenSafe はエージェントのアクションを改良し、制約を満たす可能性を高めます。
基本的に、GenSafe は SRL アルゴリズムの追加の安全層として機能します。
当社では、複数の SRL アプローチとベンチマーク問題に基づいて GenSafe を評価します。
私たちが提案する GenSafe は、既存の SRL 手法を強化する新しい手段を提供するだけでなく、さまざまな SRL アルゴリズムとの幅広い互換性を示し、幅広いシステムや SRL 問題に適用できます。


Safe Reinforcement Learning (SRL) aims to realize a safe learning process for Deep Reinforcement Learning (DRL) algorithms by incorporating safety constraints. However, the efficacy of SRL approaches often relies on accurate function approximations, which are notably challenging to achieve in the early learning stages due to data insufficiency. To address this issue, we introduce in this work a novel Generalizable Safety enhancer (GenSafe) that is able to overcome the challenge of data insufficiency and enhance the performance of SRL approaches. Leveraging model order reduction techniques, we first propose an innovative method to construct a Reduced Order Markov Decision Process (ROMDP) as a low-dimensional approximator of the original safety constraints. Then, by solving the reformulated ROMDP-based constraints, GenSafe refines the actions of the agent to increase the possibility of constraint satisfaction. Essentially, GenSafe acts as an additional safety layer for SRL algorithms. We evaluate GenSafe on multiple SRL approaches and benchmark problems. The results demonstrate its capability to improve safety performance, especially in the early learning phases, while maintaining satisfactory task performance. Our proposed GenSafe not only offers a novel measure to augment existing SRL methods but also shows broad compatibility with various SRL algorithms, making it applicable to a wide range of systems and SRL problems.


著者 Zhehua Zhou,Xuan Xie,Jiayang Song,Zhan Shu,Lei Ma
発行日 2025-01-14 10:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク