Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents

要約

強化学習 (RL) コントローラーは柔軟性とパフォーマンスに優れていますが、安全性が保証されることはほとんどありません。
安全フィルターは、柔軟性を維持しながら、RL コントローラーに厳しい安全性を保証します。
ただし、安全フィルタは、コントローラと安全フィルタの間の分離により望ましくない動作を引き起こす可能性があり、多くの場合、パフォーマンスと堅牢性が低下します。
この論文では、安全フィルターを評価中にのみ適用するのではなく、RL コントローラーのトレーニングに組み込むためのいくつかの修正を提案します。
この変更により、RL コントローラーが安全フィルターを考慮して学習できるようになり、パフォーマンスが向上します。
さらに、修正によりサンプル効率が大幅に向上し、トレーニング時間の制約違反が排除されます。
私たちは、Crazyflie 2.0 ドローンを使用したシミュレーション実験と実際の実験で、提案された修正を検証しました。
実験では、提案されたトレーニング アプローチでは必要な環境インタラクションが大幅に減り、標準的な RL トレーニングと比較してパフォーマンスが最大 20% 向上することが示されました。

要約(オリジナル)

Reinforcement learning (RL) controllers are flexible and performant but rarely guarantee safety. Safety filters impart hard safety guarantees to RL controllers while maintaining flexibility. However, safety filters can cause undesired behaviours due to the separation between the controller and the safety filter, often degrading performance and robustness. In this paper, we propose several modifications to incorporating the safety filter in training RL controllers rather than solely applying it during evaluation. The modifications allow the RL controller to learn to account for the safety filter, improving performance. Additionally, our modifications significantly improve sample efficiency and eliminate training-time constraint violations. We verified the proposed modifications in simulated and real experiments with a Crazyflie 2.0 drone. In experiments, we show that the proposed training approaches require significantly fewer environment interactions and improve performance by up to 20% compared to standard RL training.

arxiv情報

著者 Federico Pizarro Bejarano,Lukas Brunke,Angela P. Schoellig
発行日 2024-10-15 15:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク