Generalising Multi-Agent Cooperation through Task-Agnostic Communication

要約

協調的なマルチロボットの問題におけるマルチエージェント強化学習 (MARL) の既存の通信方法は、ほぼ独占的にタスク固有であり、固有のタスクごとに新しいコミュニケーション戦略を訓練します。
私たちは、特定の環境内のあらゆるタスクに適用できるコミュニケーション戦略を導入することで、この非効率性に対処します。
設定されたオートエンコーダーを使用して、タスク固有の報酬ガイダンスなしで自己教師付きの方法でコミュニケーション戦略を事前トレーニングします。
私たちの目的は、可変数のエージェント観察から固定サイズの潜在マルコフ状態を学習することです。
穏やかな仮定の下で、潜在表現を使用するポリシーが収束することが保証され、マルコフ状態近似によって導入される値誤差の上限が証明される。
私たちの方法は、コミュニケーション戦略を微調整することなく、新しいタスクへのシームレスな適応を可能にし、トレーニング中に存在するよりも多くのエージェントへのスケーリングを適切にサポートし、環境内の分布外イベントを検出します。
さまざまな MARL シナリオに関する実証結果により、目に見えないタスクにおけるタスク固有のコミュニケーション戦略を上回る、私たちのアプローチの有効性が検証されています。
この作業の実装は https://github.com/proroklab/task-agnostic-comms で入手できます。

要約(オリジナル)

Existing communication methods for multi-agent reinforcement learning (MARL) in cooperative multi-robot problems are almost exclusively task-specific, training new communication strategies for each unique task. We address this inefficiency by introducing a communication strategy applicable to any task within a given environment. We pre-train the communication strategy without task-specific reward guidance in a self-supervised manner using a set autoencoder. Our objective is to learn a fixed-size latent Markov state from a variable number of agent observations. Under mild assumptions, we prove that policies using our latent representations are guaranteed to converge, and upper bound the value error introduced by our Markov state approximation. Our method enables seamless adaptation to novel tasks without fine-tuning the communication strategy, gracefully supports scaling to more agents than present during training, and detects out-of-distribution events in an environment. Empirical results on diverse MARL scenarios validate the effectiveness of our approach, surpassing task-specific communication strategies in unseen tasks. Our implementation of this work is available at https://github.com/proroklab/task-agnostic-comms.

arxiv情報

著者 Dulhan Jayalath,Steven Morad,Amanda Prorok
発行日 2024-03-11 14:20:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO パーマリンク