Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters

要約

多くの自律システムは安全性の課題に直面しており、物理的な制限や安全性の制約に対処するために堅牢な閉ループ制御が必要です。
自律船などの現実世界のシステムは、非線形力学や環境擾乱に遭遇します。
強化学習は複雑なシナリオに適応するためにますます使用されていますが、安全性と安定性を保証する標準的なフレームワークが不足しています。
予測安全フィルター (PSF) は、明示的な制約処理を行わずに学習ベースの制御で制約を満たすことを保証する、有望なソリューションを提供します。
このモジュール式アプローチにより、物理的および安全性の制約を満たすように提案されたアクションを最適化する安全フィルターを使用して、任意の制御ポリシーを使用することができます。
私たちはこのアプローチを海洋航行に適用し、シミュレートされた Cyber​​ship II モデル上で RL と PSF を組み合わせます。
RL エージェントは経路追従と衝突防止についてトレーニングされており、PSF は安全のために制御動作を監視および変更します。
結果は、PSF を使用しない標準的な RL エージェントと比較して評価した、RL エージェントの学習率とパフォーマンスを妨げることなく安全性を維持する PSF の有効性を示しています。

要約(オリジナル)

Many autonomous systems face safety challenges, requiring robust closed-loop control to handle physical limitations and safety constraints. Real-world systems, like autonomous ships, encounter nonlinear dynamics and environmental disturbances. Reinforcement learning is increasingly used to adapt to complex scenarios, but standard frameworks ensuring safety and stability are lacking. Predictive Safety Filters (PSF) offer a promising solution, ensuring constraint satisfaction in learning-based control without explicit constraint handling. This modular approach allows using arbitrary control policies, with the safety filter optimizing proposed actions to meet physical and safety constraints. We apply this approach to marine navigation, combining RL with PSF on a simulated Cybership II model. The RL agent is trained on path following and collision avpodance, while the PSF monitors and modifies control actions for safety. Results demonstrate the PSF’s effectiveness in maintaining safety without hindering the RL agent’s learning rate and performance, evaluated against a standard RL agent without PSF.

arxiv情報

著者 Aksel Vaaler,Svein Jostein Husa,Daniel Menges,Thomas Nakken Larsen,Adil Rasheed
発行日 2024-04-02 16:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク