Networked Agents in the Dark: Team Value Learning under Partial Observability

要約

ネットワーク化されたエージェントのための新しい協調マルチエージェント強化学習 (MARL) アプローチを提案します。
完全な状態情報や共同観察に依存する以前の方法とは対照的に、エージェントは部分的な可観測性の下で共有の目的を達成する方法を学習する必要があります。
トレーニング中に、彼らは個人の報酬を収集し、ローカルコミュニケーションを通じてチームの価値関数を近似し、その結果、協力的な行動が得られます。
私たちの問題を説明するために、ネットワーク化された動的部分観察可能なマルコフ ゲーム フレームワークを導入します。このフレームワークでは、エージェントがスイッチング トポロジ通信ネットワークを介して通信します。
私たちの分散手法である DNA-MARL は、ローカル通信にコンセンサス メカニズムを使用し、ローカル計算に勾配降下法を使用します。
DNA-MARL は、ネットワーク化されたエージェントの可能なアプリケーションの範囲を広げ、プライバシーを課し、メッセージが受信者に届かない可能性がある現実世界のドメインに適しています。
ベンチマーク MARL シナリオ全体で DNA-MARL を評価します。
私たちの結果は、以前の方法よりも DNA-MARL の優れたパフォーマンスを強調しています。

要約(オリジナル)

We propose a novel cooperative multi-agent reinforcement learning (MARL) approach for networked agents. In contrast to previous methods that rely on complete state information or joint observations, our agents must learn how to reach shared objectives under partial observability. During training, they collect individual rewards and approximate a team value function through local communication, resulting in cooperative behavior. To describe our problem, we introduce the networked dynamic partially observable Markov game framework, where agents communicate over a switching topology communication network. Our distributed method, DNA-MARL, uses a consensus mechanism for local communication and gradient descent for local computation. DNA-MARL increases the range of the possible applications of networked agents, being well-suited for real world domains that impose privacy and where the messages may not reach their recipients. We evaluate DNA-MARL across benchmark MARL scenarios. Our results highlight the superior performance of DNA-MARL over previous methods.

arxiv情報

著者 Guilherme S. Varela,Alberto Sardinha,Francisco S. Melo
発行日 2025-01-15 13:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, I.2.11 パーマリンク