要約
強化学習 (RL) はさまざまなロボット工学アプリケーションに適用され、従来の手法を上回るパフォーマンスを発揮しています。
ただし、RL の安全面と現実世界への移行は依然として未解決の課題です。
この課題に取り組み、トレーニングおよび実行中のエージェントの安全を確保するための著名な分野は、安全強化学習です。
安全な RL は、制約付き RL と安全な探索アプローチを通じて実現できます。
前者は、訓練の初期段階で多数の衝突を犠牲にして、訓練の終了までに安全な行動を達成するために訓練の過程で安全制約を学習します。
後者は、安全制約をハード制約として強制することで堅牢な安全性を提供します。これにより、衝突は防止されますが、RL エージェントの探索が妨げられ、その結果、報酬が減り、パフォーマンスが低下します。
これらの欠点を克服するために、最適化ベースのコントローラーの堅牢性と RL エージェントの長期予測機能を組み合わせて、RL エージェントがコントローラーのパラメーターを適応的に調整できるようにする新しい安全シールドを提案します。
私たちのアプローチは、衝突の数を最小限に抑えながら、ナビゲーション タスクのための RL エージェントの探索を改善することができます。
シミュレーション実験では、さまざまな困難な環境において、到達目標対衝突の比率において、私たちのアプローチが最先端のベースラインを上回るパフォーマンスを示していることが示されています。
目標対衝突の比率の指標は、タスクの達成方法を学習しながら、衝突の数を最小限に抑えることの重要性を強調します。
私たちのアプローチは、従来の安全シールドと比較してより多くの目標を達成し、制約付き RL アプローチと比較して衝突を減らします。
最後に、実際の実験で提案手法のパフォーマンスを実証します。
要約(オリジナル)
Reinforcement learning (RL) has been successfully applied to a variety of robotics applications, where it outperforms classical methods. However, the safety aspect of RL and the transfer to the real world remain an open challenge. A prominent field for tackling this challenge and ensuring the safety of the agents during training and execution is safe reinforcement learning. Safe RL can be achieved through constrained RL and safe exploration approaches. The former learns the safety constraints over the course of training to achieve a safe behavior by the end of training, at the cost of high number of collisions at earlier stages of the training. The latter offers robust safety by enforcing the safety constraints as hard constraints, which prevents collisions but hinders the exploration of the RL agent, resulting in lower rewards and poor performance. To overcome those drawbacks, we propose a novel safety shield, that combines the robustness of the optimization-based controllers with the long prediction capabilities of the RL agents, allowing the RL agent to adaptively tune the parameters of the controller. Our approach is able to improve the exploration of the RL agents for navigation tasks, while minimizing the number of collisions. Experiments in simulation show that our approach outperforms state-of-the-art baselines in the reached goals-to-collisions ratio in different challenging environments. The goals-to-collisions ratio metrics emphasizes the importance of minimizing the number of collisions, while learning to accomplish the task. Our approach achieves a higher number of reached goals compared to the classic safety shields and fewer collisions compared to constrained RL approaches. Finally, we demonstrate the performance of the proposed method in a real-world experiment.
arxiv情報
著者 | Murad Dawood,Ahmed Shokry,Maren Bennewitz |
発行日 | 2024-12-05 13:32:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google