Evaluating Collaborative Autonomy in Opposed Environments using Maritime Capture-the-Flag Competitions

要約

この研究の目的は、敵対環境で無人水上車両 (USV) のチームに導入された場合のマルチエージェント人工知能手法を評価することです。
自律エージェントは、USV システムのチームが関与するキャプチャ ザ フラッグ (CTF) スタイルのコンテストである Aquaticus テストベッドを使用して、現実世界のシナリオで評価されました。
行動ベースの最適化と深層強化学習 (RL) のさまざまな基盤の協調チーミング アルゴリズムが、2 対 2 のチームでこれらの USV システムに展開され、2023 年秋の競争期間中に相互にテストされました。 USV に適用された深層強化学習
エージェントは、低レベル環境で模擬 CTF トレーニングを可能にする軽量の体育館環境である Pyquaticus テスト ベッドを介して実現されました。
実験の結果は、行動ベースのエージェントのルールベースの協力が、これらの競技会で実装された深層強化学習パラダイムで訓練されたエージェントを上回ったことを示しています。
RL 用の Pyquaticus 体育館環境と MOOS-IvP の構成と制御スキーマのさらなる統合により、将来の研究ではより競争力のある CTF ゲームが可能になります。
実験的なディープ RL 手法の開発が続くにつれて、著者らは、行動ベースの自律性とディープ RL の間の競争上のギャップが縮小すると期待しています。
そのため、このレポートでは、報酬形成やシミュレーションと現実の方法論、人間の安全およびセキュリティのイベントに対応するためのエージェント間のルールベースの協力の拡張などの将来の作業に重点を置き、全体的な競争、方法、結果を概説します。
安全およびセキュリティプロセスを実行するための専門家の意図/ルール。

要約(オリジナル)

The objective of this work is to evaluate multi-agent artificial intelligence methods when deployed on teams of unmanned surface vehicles (USV) in an adversarial environment. Autonomous agents were evaluated in real-world scenarios using the Aquaticus test-bed, which is a Capture-the-Flag (CTF) style competition involving teams of USV systems. Cooperative teaming algorithms of various foundations in behavior-based optimization and deep reinforcement learning (RL) were deployed on these USV systems in two versus two teams and tested against each other during a competition period in the fall of 2023. Deep reinforcement learning applied to USV agents was achieved via the Pyquaticus test bed, a lightweight gymnasium environment that allows simulated CTF training in a low-level environment. The results of the experiment demonstrate that rule-based cooperation for behavior-based agents outperformed those trained in Deep-reinforcement learning paradigms as implemented in these competitions. Further integration of the Pyquaticus gymnasium environment for RL with MOOS-IvP in terms of configuration and control schema will allow for more competitive CTF games in future studies. As the development of experimental deep RL methods continues, the authors expect that the competitive gap between behavior-based autonomy and deep RL will be reduced. As such, this report outlines the overall competition, methods, and results with an emphasis on future works such as reward shaping and sim-to-real methodologies and extending rule-based cooperation among agents to react to safety and security events in accordance with human experts intent/rules for executing safety and security processes.

arxiv情報

著者 Jordan Beason,Michael Novitzky,John Kliem,Tyler Errico,Zachary Serlin,Kevin Becker,Tyler Paine,Michael Benjamin,Prithviraj Dasgupta,Peter Crowley,Charles O’Donnell,John James
発行日 2024-04-25 20:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク