A Local Information Aggregation based Multi-Agent Reinforcement Learning for Robot Swarm Dynamic Task Allocation

要約

この論文では、動的環境におけるロボット群のタスク割り当てを最適化する方法を検討し、ロボットの協力のための堅牢で柔軟かつスケーラブルな戦略を策定する必要性を強調します。
分散型ロボット群ネットワーク向けに特別に設計された、分散型の部分的に観察可能なマルコフ決定プロセス (Dec_POMDP) を使用した新しいフレームワークを紹介します。
私たちの方法論の中核となるのは、集中トレーニングと分散実行 (CTDE) を統合するローカル情報集約マルチエージェントディープ決定論的ポリシー勾配 (LIA_MADDPG) アルゴリズムです。
集中トレーニング段階では、ローカル情報集約 (LIA) モジュールが近隣のロボットから重要なデータを収集し、意思決定の効率を高めるように綿密に設計されています。
分散実行フェーズでは、変化する部分的に観測可能な環境条件に基づいてタスクの割り当てを動的に調整する戦略改善手法が提案されます。
私たちの経験的評価によれば、LIA モジュールはさまざまな CTDE ベースの MARL メソッドにシームレスに統合でき、パフォーマンスが大幅に向上します。
さらに、LIA_MADDPG を 6 つの従来の強化学習アルゴリズムおよびヒューリスティック アルゴリズムと比較することで、その優れたスケーラビリティ、環境変化への迅速な適応、安定性と収束速度の両方を維持する能力を実証します。
これらの結果は、LIA_MADDPG の優れたパフォーマンスと、強化されたローカル コラボレーションと適応戦略の実行を通じてロボット群における動的タスク割り当てを大幅に改善する可能性を強調しています。

要約(オリジナル)

In this paper, we explore how to optimize task allocation for robot swarms in dynamic environments, emphasizing the necessity of formulating robust, flexible, and scalable strategies for robot cooperation. We introduce a novel framework using a decentralized partially observable Markov decision process (Dec_POMDP), specifically designed for distributed robot swarm networks. At the core of our methodology is the Local Information Aggregation Multi-Agent Deep Deterministic Policy Gradient (LIA_MADDPG) algorithm, which merges centralized training with distributed execution (CTDE). During the centralized training phase, a local information aggregation (LIA) module is meticulously designed to gather critical data from neighboring robots, enhancing decision-making efficiency. In the distributed execution phase, a strategy improvement method is proposed to dynamically adjust task allocation based on changing and partially observable environmental conditions. Our empirical evaluations show that the LIA module can be seamlessly integrated into various CTDE-based MARL methods, significantly enhancing their performance. Additionally, by comparing LIA_MADDPG with six conventional reinforcement learning algorithms and a heuristic algorithm, we demonstrate its superior scalability, rapid adaptation to environmental changes, and ability to maintain both stability and convergence speed. These results underscore LIA_MADDPG’s outstanding performance and its potential to significantly improve dynamic task allocation in robot swarms through enhanced local collaboration and adaptive strategy execution.

arxiv情報

著者 Yang Lv,Jinlong Lei,Peng Yi
発行日 2024-11-29 07:53:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク