Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks

要約

マルチエージェント強化学習 (MARL) では、集中型トレーニングと分散型実行 (CTDE) フレームワークが極めて重要ですが、ギャップのために苦戦しています。トレーニングにおけるグローバルな状態のガイダンスと、実行時におけるローカルな観察への依存であり、グローバルなシグナルが欠如しています。
人間の社会的合意メカニズムにインスピレーションを得て、この制限に対処するために、階層的合意ベースのマルチエージェント強化学習 (HC-MARL) フレームワークを導入します。
HC-MARL は対照学習を採用してエージェント間のグローバルな合意を促進し、直接的なコミュニケーションを必要とせずに協力的な行動を可能にします。
このアプローチにより、エージェントはローカルな観察からグローバルな合意を形成し、それを追加情報として使用して、実行中の共同アクションをガイドすることができます。
さまざまなタスクの動的な要件に応えるために、コンセンサスは短期と長期の両方の検討事項を含む複数の層に分割されます。
短期的な観察は即時の低層の合意形成を促し、長期的な観察は戦略的な高層の合意形成に貢献します。
このプロセスは、各コンセンサス層の影響を動的に調整する適応型注意メカニズムによってさらに洗練されます。
このメカニズムは、即時の対応と戦略的計画のバランスを最適化し、当面のタスクの特定の要求に合わせて調整します。
マルチロボット システムにおける広範な実験と実際のアプリケーションでは、当社のフレームワークの優れたパフォーマンスが実証され、ベースラインを超える大幅な進歩が見られます。

要約(オリジナル)

In multi-agent reinforcement learning (MARL), the Centralized Training with Decentralized Execution (CTDE) framework is pivotal but struggles due to a gap: global state guidance in training versus reliance on local observations in execution, lacking global signals. Inspired by human societal consensus mechanisms, we introduce the Hierarchical Consensus-based Multi-Agent Reinforcement Learning (HC-MARL) framework to address this limitation. HC-MARL employs contrastive learning to foster a global consensus among agents, enabling cooperative behavior without direct communication. This approach enables agents to form a global consensus from local observations, using it as an additional piece of information to guide collaborative actions during execution. To cater to the dynamic requirements of various tasks, consensus is divided into multiple layers, encompassing both short-term and long-term considerations. Short-term observations prompt the creation of an immediate, low-layer consensus, while long-term observations contribute to the formation of a strategic, high-layer consensus. This process is further refined through an adaptive attention mechanism that dynamically adjusts the influence of each consensus layer. This mechanism optimizes the balance between immediate reactions and strategic planning, tailoring it to the specific demands of the task at hand. Extensive experiments and real-world applications in multi-robot systems showcase our framework’s superior performance, marking significant advancements over baselines.

arxiv情報

著者 Pu Feng,Junkang Liang,Size Wang,Xin Yu,Rongye Shi,Wenjun Wu
発行日 2024-07-11 03:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク