要約
深層強化学習は、自律走行車や人型ロボットなどのさまざまな自律システムの制御において目覚ましい成果を上げていますが、その本質的なランダム探索への依存により、現実世界のアプリケーションでは安全性の懸念が生じます。
学習プロセス中のシステムの安全性を向上させるために、さまざまな安全強化学習 (SRL) アルゴリズムが提案されています。これらのアルゴリズムには通常、制約付きマルコフ決定プロセス (CMDP) フレームワーク内に安全制約が組み込まれています。
ただし、これらの SRL アルゴリズムの有効性は正確な関数近似に依存することが多く、このタスクはデータ不足のため学習の初期段階で達成することが特に困難です。
この問題に対処するために、この作業では Genralizable Safety Enhancer (GenSafe) を導入しました。
モデルの次数削減技術を活用して、最初に CMDP の元のコスト関数の低次元プロキシとして削減次数マルコフ決定プロセス (ROMDP) を構築します。
次に、提案された GenSafe は、元のコスト制約から再定式化された ROMDP ベースの制約を解決することによって、エージェントによって実行されるアクションを改良し、制約を満たす可能性を高めます。
基本的に、GenSafe は SRL アルゴリズムの追加の安全層として機能し、多様な SRL アプローチにわたって幅広い互換性を提供します。
GenSafe のパフォーマンスは、複数の SRL ベンチマーク問題で検査されます。
結果は、特に初期学習段階における安全パフォーマンスを向上させることができるだけでなく、タスクパフォーマンスを満足のいくレベルに維持できることを示しています。
要約(オリジナル)
Although deep reinforcement learning has demonstrated impressive achievements in controlling various autonomous systems, e.g., autonomous vehicles or humanoid robots, its inherent reliance on random exploration raises safety concerns in their real-world applications. To improve system safety during the learning process, a variety of Safe Reinforcement Learning (SRL) algorithms have been proposed, which usually incorporate safety constraints within the Constrained Markov Decision Process (CMDP) framework. However, the efficacy of these SRL algorithms often relies on accurate function approximations, a task that is notably challenging to accomplish in the early learning stages due to data insufficiency. To address this problem, we introduce a Genralizable Safety enhancer (GenSafe) in this work. Leveraging model order reduction techniques, we first construct a Reduced Order Markov Decision Process (ROMDP) as a low-dimensional proxy for the original cost function in CMDP. Then, by solving ROMDP-based constraints that are reformulated from the original cost constraints, the proposed GenSafe refines the actions taken by the agent to enhance the possibility of constraint satisfaction. Essentially, GenSafe acts as an additional safety layer for SRL algorithms, offering broad compatibility across diverse SRL approaches. The performance of GenSafe is examined on multiple SRL benchmark problems. The results show that, it is not only able to improve the safety performance, especially in the early learning phases, but also to maintain the task performance at a satisfactory level.
arxiv情報
著者 | Zhehua Zhou,Xuan Xie,Jiayang Song,Zhan Shu,Lei Ma |
発行日 | 2024-06-06 09:51:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google