Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters


多くの自律システムは安全性の課題に直面しており、物理的制限や安全制約を処理するためのロバストな閉ループ制御が必要である。自律型船舶のような実世界のシステムは、非線形ダイナミクスや環境擾乱に遭遇する。複雑なシナリオに適応するために強化学習がますます使用されるようになっているが、安全性と安定性を保証する標準的なフレームワークは不足している。予測安全フィルタ(PSF)は有望な解決策を提供し、明示的な制約処理なしで、学習ベースの制御における制約充足を保証する。このモジュラーアプローチは、任意の制御ポリシーを使用することを可能にし、安全フィルタは物理的および安全な制約を満たすように提案されたアクションを最適化する。我々はこのアプローチを海洋航行に適用し、RLとPSFをCybership IIの模擬モデル上で組み合わせる。RLエージェントは経路追従と衝突回避について学習され、PSFは安全のために制御動作を監視し修正する。その結果、PSFを用いない標準的なRLエージェントと比較し、RLエージェントの学習速度や性能を阻害することなく、PSFが安全性を維持する上で有効であることが実証された。


Many autonomous systems face safety challenges, requiring robust closed-loop control to handle physical limitations and safety constraints. Real-world systems, like autonomous ships, encounter nonlinear dynamics and environmental disturbances. Reinforcement learning is increasingly used to adapt to complex scenarios, but standard frameworks ensuring safety and stability are lacking. Predictive Safety Filters (PSF) offer a promising solution, ensuring constraint satisfaction in learning-based control without explicit constraint handling. This modular approach allows using arbitrary control policies, with the safety filter optimizing proposed actions to meet physical and safety constraints. We apply this approach to marine navigation, combining RL with PSF on a simulated Cybership II model. The RL agent is trained on path following and collision avpodance, while the PSF monitors and modifies control actions for safety. Results demonstrate the PSF’s effectiveness in maintaining safety without hindering the RL agent’s learning rate and performance, evaluated against a standard RL agent without PSF.


著者 Aksel Vaaler,Svein Jostein Husa,Daniel Menges,Thomas Nakken Larsen,Adil Rasheed
発行日 2023-12-04 12:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク