要約
歩行者の周囲でのロボットナビゲーションなどの安全性が重要なアプリケーションで強化学習 (RL) コントローラーを使用することへの関心が、追加の安全メカニズムの開発を動機付けています。
不確実な動的エージェント間で RL 対応システムを実行すると、衝突が多数発生し、目標に到達できない可能性があります。
事前にトレーニングされた RL ポリシーが不確実性を考慮したものであれば、システムはより安全になる可能性があります。
そのため、我々は、1) 他のエージェントの軌跡を予測する、2) 統計的手法を使用してこれらの予測の周囲に不確実性区間を提供する、3) RL コントローラーに厳密に従うが、RL コントローラーを回避する追加の安全フィルターを学習する、等角予測安全フィルターを提案します。
不確実性区間。
私たちは等角予測を使用して、エージェントの分布について仮定を行わない、不確実性に基づいた予測安全性フィルターを学習します。
このフレームワークはモジュール式であり、シミュレーションにおいて既存のコントローラーよりも優れたパフォーマンスを発揮します。
衝突回避ジム環境で複数の実験を行ってアプローチを実証し、過度に保守的な予測を行うことなく、衝突の数を最小限に抑えるアプローチを示します。
要約(オリジナル)
The interest in using reinforcement learning (RL) controllers in safety-critical applications such as robot navigation around pedestrians motivates the development of additional safety mechanisms. Running RL-enabled systems among uncertain dynamic agents may result in high counts of collisions and failures to reach the goal. The system could be safer if the pre-trained RL policy was uncertainty-informed. For that reason, we propose conformal predictive safety filters that: 1) predict the other agents’ trajectories, 2) use statistical techniques to provide uncertainty intervals around these predictions, and 3) learn an additional safety filter that closely follows the RL controller but avoids the uncertainty intervals. We use conformal prediction to learn uncertainty-informed predictive safety filters, which make no assumptions about the agents’ distribution. The framework is modular and outperforms the existing controllers in simulation. We demonstrate our approach with multiple experiments in a collision avoidance gym environment and show that our approach minimizes the number of collisions without making overly-conservative predictions.
arxiv情報
著者 | Kegan J. Strawn,Nora Ayanian,Lars Lindemann |
発行日 | 2023-08-22 18:39:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google