Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation

要約

本研究では、エピソード型マルコフ決定過程の設定において、複数のエージェントが中央サーバを介した通信によって協力するマルチエージェント強化学習について研究する。我々は、非同期通信を可能にし、低い通信オーバーヘッドで協力の利点を保証する、値反復に基づく証明可能な効率的アルゴリズムを提案する。線形関数近似により、我々のアルゴリズムは、$tilde{mathcal{O}}(d^{3/2}H^2sqrt{K})$後悔と$tilde{mathcal{O}}(dHM^2)$通信複雑度を楽しむことを証明する($d$は特徴次元、$H$は地平線長、$M$はエージェント総数、$K$はエピソード総数である。また、コラボレーションによって性能を向上させるためには、最小の$Omega(dM)$通信複雑度が必要であることを示す下界を提供する。

要約(オリジナル)

We study multi-agent reinforcement learning in the setting of episodic Markov decision processes, where multiple agents cooperate via communication through a central server. We propose a provably efficient algorithm based on value iteration that enable asynchronous communication while ensuring the advantage of cooperation with low communication overhead. With linear function approximation, we prove that our algorithm enjoys an $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$ regret with $\tilde{\mathcal{O}}(dHM^2)$ communication complexity, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the total number of agents, and $K$ is the total number of episodes. We also provide a lower bound showing that a minimal $\Omega(dM)$ communication complexity is required to improve the performance through collaboration.

arxiv情報

著者 Yifei Min,Jiafan He,Tianhao Wang,Quanquan Gu
発行日 2023-05-12 03:51:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク