要約
この論文では、モデルフリーの安全強化学習 (RL) における安全制約と過大評価の緩和に対処するための安全モジュレーター アクター クリティカル (SMAC) 法を提案します。
安全モジュレーターは、アクションを調整することで安全制約を満たすように開発されており、ポリシーが安全制約を無視して報酬の最大化に集中できるようにします。
さらに、安全制約による Q 値の過大評価を緩和するために、SMAC の理論更新ルールを備えた分布批評家が提案されています。
無人航空機 (UAV) のホバリングに関するシミュレーションと現実世界のシナリオ実験の両方で、SMAC が安全上の制約を効果的に維持し、主流のベースライン アルゴリズムを上回るパフォーマンスを発揮できることが確認されています。
要約(オリジナル)
This paper proposes a safety modulator actor-critic (SMAC) method to address safety constraint and overestimation mitigation in model-free safe reinforcement learning (RL). A safety modulator is developed to satisfy safety constraints by modulating actions, allowing the policy to ignore safety constraint and focus on maximizing reward. Additionally, a distributional critic with a theoretical update rule for SMAC is proposed to mitigate the overestimation of Q-values with safety constraints. Both simulation and real-world scenarios experiments on Unmanned Aerial Vehicles (UAVs) hovering confirm that the SMAC can effectively maintain safety constraints and outperform mainstream baseline algorithms.
arxiv情報
| 著者 | Qihan Qi,Xinsong Yang,Gang Xia,Daniel W. C. Ho,Pengyang Tang |
| 発行日 | 2024-10-09 13:07:24+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google