Spatial-temporal recurrent reinforcement learning for autonomous ships

要約

この論文は、自律船の操縦に使用できるディープ $Q$ ネットワークのための時空間リカレント ニューラル ネットワーク アーキテクチャを提案します。
このネットワーク設計により、部分的な可観測性に対する堅牢性を提供しながら、周囲の任意の数のターゲット船を処理することが可能になります。
さらに、エージェントによるさまざまな状況の評価を容易にするために、最先端の衝突リスク指標が提案されています。
海上交通の COLREG ルールは、報酬関数の設計において明示的に考慮されています。
最終的なポリシーは、「Around the Clock」問題と呼ばれる新しく作成された単一船遭遇のカスタム セットと、18 の複数船シナリオを含む一般的に使用される Imazu (1987) 問題で検証されます。
人工ポテンシャル場および速度障害法との性能比較により、海上航路計画に対する提案されたアプローチの可能性が実証されています。
さらに、新しいアーキテクチャは、マルチエージェント シナリオに導入された場合に堅牢性を示し、アクター クリティカル フレームワークを含む他の深層強化学習アルゴリズムと互換性があります。

要約(オリジナル)

This paper proposes a spatial-temporal recurrent neural network architecture for deep $Q$-networks that can be used to steer an autonomous ship. The network design makes it possible to handle an arbitrary number of surrounding target ships while offering robustness to partial observability. Furthermore, a state-of-the-art collision risk metric is proposed to enable an easier assessment of different situations by the agent. The COLREG rules of maritime traffic are explicitly considered in the design of the reward function. The final policy is validated on a custom set of newly created single-ship encounters called `Around the Clock’ problems and the commonly used Imazu (1987) problems, which include 18 multi-ship scenarios. Performance comparisons with artificial potential field and velocity obstacle methods demonstrate the potential of the proposed approach for maritime path planning. Furthermore, the new architecture exhibits robustness when it is deployed in multi-agent scenarios and it is compatible with other deep reinforcement learning algorithms, including actor-critic frameworks.

arxiv情報

著者 Martin Waltz,Ostap Okhrin
発行日 2023-05-15 12:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク