Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents

要約

強化学習 (RL) コントローラーは柔軟性とパフォーマンスに優れていますが、安全性が保証されることはほとんどありません。
安全フィルタは、柔軟性を維持しながら、RL コントローラに厳しい安全性を保証します。
ただし、安全フィルタは、コントローラと安全フィルタの間の分離により望ましくない動作を引き起こす可能性があり、多くの場合、パフォーマンスと堅牢性が低下します。
この論文では、安全フィルターを評価中にのみ適用するのではなく、RL コントローラーのトレーニングに組み込むためのいくつかの修正を分析します。
この変更により、RL コントローラーが安全フィルターを考慮して学習できるようになり、パフォーマンスが向上します。
この論文では、Crazyflie 2.0 ドローンを使ったシミュレーション実験と実際の実験を特徴として、安全フィルターを使用した RL トレーニングの包括的な分析を紹介します。
さまざまなトレーニングの変更とハイパーパラメーターがパフォーマンス、サンプル効率、安全性、チャタリングにどのような影響を与えるかを調査します。
私たちの調査結果は、安全フィルターと安全な RL に焦点を当てている専門家や研究者にとってのガイドとして役立ちます。

要約(オリジナル)

Reinforcement learning (RL) controllers are flexible and performant but rarely guarantee safety. Safety filters impart hard safety guarantees to RL controllers while maintaining flexibility. However, safety filters can cause undesired behaviours due to the separation between the controller and the safety filter, often degrading performance and robustness. In this paper, we analyze several modifications to incorporating the safety filter in training RL controllers rather than solely applying it during evaluation. The modifications allow the RL controller to learn to account for the safety filter, improving performance. This paper presents a comprehensive analysis of training RL with safety filters, featuring simulated and real-world experiments with a Crazyflie 2.0 drone. We examine how various training modifications and hyperparameters impact performance, sample efficiency, safety, and chattering. Our findings serve as a guide for practitioners and researchers focused on safety filters and safe RL.

arxiv情報

著者 Federico Pizarro Bejarano,Lukas Brunke,Angela P. Schoellig
発行日 2024-11-25 23:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク