要約
多様なアプリケーションのマルチロボットシステムには群がった制御が不可欠ですが、混雑した環境で効率的な群れを達成することは、計算負担、パフォーマンスの最適性、および運動の安全性に関する課題をもたらします。
このペーパーでは、Gibbs Random Fields(GRF)上に構築されたマルチエージェント強化学習(MARL)フレームワークを通じて、これらの課題に対処します。
GRFSを使用すると、マルチロボットシステムは、共同確率分布に準拠した一連のランダム変数によって表されるため、報酬設計の群れに関する新鮮な視点が提供されます。
ロボット量に関するMARLのスケーラビリティを強化する分散型トレーニングと実行メカニズムは、GRFベースのクレジット割り当て方法を使用して実現されます。
アクション注意モジュールが導入され、隣接するロボットの動きの意図を暗黙的に予測し、その結果、MARLの潜在的な非定常問題を軽減します。
提案されたフレームワークは、シミュレーションおよび実験の最先端のソリューションとの徹底的な比較を通じて実証されているように、成功率が約99ドル\%$で、挑戦的な環境でマルチロボットシステムの効率的な分散制御ポリシーを学習することができます。
アブレーション研究も実行され、さまざまなフレームワークモジュールの効率を検証します。
要約(オリジナル)
Flocking control is essential for multi-robot systems in diverse applications, yet achieving efficient flocking in congested environments poses challenges regarding computation burdens, performance optimality, and motion safety. This paper addresses these challenges through a multi-agent reinforcement learning (MARL) framework built on Gibbs Random Fields (GRFs). With GRFs, a multi-robot system is represented by a set of random variables conforming to a joint probability distribution, thus offering a fresh perspective on flocking reward design. A decentralized training and execution mechanism, which enhances the scalability of MARL concerning robot quantity, is realized using a GRF-based credit assignment method. An action attention module is introduced to implicitly anticipate the motion intentions of neighboring robots, consequently mitigating potential non-stationarity issues in MARL. The proposed framework enables learning an efficient distributed control policy for multi-robot systems in challenging environments with success rate around $99\%$, as demonstrated through thorough comparisons with state-of-the-art solutions in simulations and experiments. Ablation studies are also performed to validate the efficiency of different framework modules.
arxiv情報
著者 | Dengyu Zhang,Chenghao,Feng Xue,Qingrui Zhang |
発行日 | 2025-02-05 08:27:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google