要約
このホワイトペーパーでは、複雑な環境でのカバレッジ計画の問題を解決することを目的とした自律的なマルチエージェントシステムの調整の問題について説明します。
考慮されたアプリケーションは、エリアをカバーしながら、関心のあるオブジェクトの検出と識別です。
スペースアプリケーションに非常に関連するこれらのタスクは、この研究の焦点である水中コンテキストを含むさまざまなドメインの間でも興味深いものです。
これに関連して、カバレッジ計画は、伝統的に、領域を調査してオブジェクトを検索するために、異質な自律的な水中車両の群れである調整されたMASが必要な調整されたMASが必要なマルコフ決定プロセスとしてモデル化されています。
このMDPは、環境の不確実性、コミュニケーションの制約、および水中環境における時変と予測不可能な変化を含む危険のアンサンブルなど、いくつかの課題に関連しています。
Marlアルゴリズムは、深いニューラルネットワークを使用して非常に非線形の問題を解決し、エージェントの増加に対して優れたスケーラビリティを表示できます。
それにもかかわらず、水中ドメインでの現在の結果のほとんどは、MARLアルゴリズムの高い学習時間のためにシミュレーションに限定されています。
このため、生物学的にインスパイアされたヒューリスティックを組み込み、トレーニング中に政策を導くことにより、この収束率を加速するための新しい戦略が導入されています。
動物のグループの行動に触発されたPSOメソッドは、ヒューリスティックとして選択されます。
これにより、ポリシーは、トレーニングの開始から、アクションと状態空間の最高品質の領域を探索し、探査/搾取のトレードオフを最適化できます。
結果のエージェントは、最適なパフォーマンスに到達するためにより少ない相互作用が必要です。
この方法はMSACアルゴリズムに適用され、連続制御環境での2Dカバーエリアミッションについて評価されます。
要約(オリジナル)
This paper describes the problem of coordination of an autonomous Multi-Agent System which aims to solve the coverage planning problem in a complex environment. The considered applications are the detection and identification of objects of interest while covering an area. These tasks, which are highly relevant for space applications, are also of interest among various domains including the underwater context, which is the focus of this study. In this context, coverage planning is traditionally modelled as a Markov Decision Process where a coordinated MAS, a swarm of heterogeneous autonomous underwater vehicles, is required to survey an area and search for objects. This MDP is associated with several challenges: environment uncertainties, communication constraints, and an ensemble of hazards, including time-varying and unpredictable changes in the underwater environment. MARL algorithms can solve highly non-linear problems using deep neural networks and display great scalability against an increased number of agents. Nevertheless, most of the current results in the underwater domain are limited to simulation due to the high learning time of MARL algorithms. For this reason, a novel strategy is introduced to accelerate this convergence rate by incorporating biologically inspired heuristics to guide the policy during training. The PSO method, which is inspired by the behaviour of a group of animals, is selected as a heuristic. It allows the policy to explore the highest quality regions of the action and state spaces, from the beginning of the training, optimizing the exploration/exploitation trade-off. The resulting agent requires fewer interactions to reach optimal performance. The method is applied to the MSAC algorithm and evaluated for a 2D covering area mission in a continuous control environment.
arxiv情報
著者 | Antoine Vivien,Thomas Chaffre,Matthew Stephenson,Eva Artusi,Paulo Santos,Benoit Clement,Karl Sammut |
発行日 | 2025-02-10 02:47:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google