Distributed Value Decomposition Networks with Networked Agents

要約

分散トレーニングの問題を、部分的な観察可能性の下で調査します。これにより、協調的なマルチエージェント補強学習エージェント(MARL)は、予想される累積共同報酬を最大化します。
エージェントごとのQフランスに因数分解するジョイントQ機能を生成する分散値分解ネットワーク(DVDN)を提案します。
元の値分解ネットワークは集中トレーニングに依存していますが、私たちのアプローチは集中トレーニングが不可能であり、エージェントが仲間と通信しながら分散型の方法で物理的環境と対話することによって学習しなければならないドメインに適しています。
DVDNは、共有目標をローカルに推定することにより、集中トレーニングの必要性を克服します。
それぞれ不均一および均一なエージェントの設定について、2つの革新的なアルゴリズム、DVDNとDVDN(GT)に貢献します。
経験的に、両方のアルゴリズムは、3つの標準環境での10のMARLタスクで実証されているように、通信中の情報損失にもかかわらず、値分解ネットワークのパフォーマンスに近接しています。

要約(オリジナル)

We investigate the problem of distributed training under partial observability, whereby cooperative multi-agent reinforcement learning agents (MARL) maximize the expected cumulative joint reward. We propose distributed value decomposition networks (DVDN) that generate a joint Q-function that factorizes into agent-wise Q-functions. Whereas the original value decomposition networks rely on centralized training, our approach is suitable for domains where centralized training is not possible and agents must learn by interacting with the physical environment in a decentralized manner while communicating with their peers. DVDN overcomes the need for centralized training by locally estimating the shared objective. We contribute with two innovative algorithms, DVDN and DVDN (GT), for the heterogeneous and homogeneous agents settings respectively. Empirically, both algorithms approximate the performance of value decomposition networks, in spite of the information loss during communication, as demonstrated in ten MARL tasks in three standard environments.

arxiv情報

著者 Guilherme S. Varela,Alberto Sardinha,Francisco S. Melo
発行日 2025-02-11 15:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, I.2.11 パーマリンク