DM$^2$: Decentralized Multi-Agent Reinforcement Learning for Distribution Matching

要約

マルチエージェントの協力に対する現在のアプローチは、収束を確実にするために、集中化されたメカニズムまたは明示的な通信プロトコルに大きく依存しています。
この論文では、集中化されたコンポーネントや明示的な通信に頼ることなく、分散マルチエージェント学習の問題を研究しています。
独立エージェントの調整を容易にするための分布マッチングの使用について検討します。
提案されたスキームでは、各エージェントは、ターゲット訪問分布の対応するコンポーネントへの分布の不一致を個別に最小化します。
理論的分析は、特定の条件下で、個々の分布の不一致を最小化する各エージェントが、ターゲット分布を生成した共同ポリシーへの収束を可能にすることを示しています。
さらに、対象分配が協調タスクを最適化する共同ポリシーからのものである場合、このタスク報酬と分配マッチング報酬の組み合わせに対する最適ポリシーは、同じ共同ポリシーです。
この洞察は、実用的なアルゴリズム (DM$^2$) を策定するために使用されます。このアルゴリズムでは、個々のエージェントが、共同エキスパート ポリシーから同時にサンプリングされた軌跡から導出されたターゲット分布に一致します。
StarCraft ドメインでの実験的検証では、(1) タスク報酬と、(2) 同じタスクの専門家のデモンストレーションに対する分配マッチング報酬を組み合わせることで、エージェントが単純な分配ベースラインよりも優れたパフォーマンスを発揮できることが示されています。
追加の実験では、学習効果を得るために専門家のデモンストレーションをサンプリングする必要がある条件を調べます。

要約(オリジナル)

Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to centralized components or explicit communication. It examines the use of distribution matching to facilitate the coordination of independent agents. In the proposed scheme, each agent independently minimizes the distribution mismatch to the corresponding component of a target visitation distribution. The theoretical analysis shows that under certain conditions, each agent minimizing its individual distribution mismatch allows the convergence to the joint policy that generated the target distribution. Further, if the target distribution is from a joint policy that optimizes a cooperative task, the optimal policy for a combination of this task reward and the distribution matching reward is the same joint policy. This insight is used to formulate a practical algorithm (DM$^2$), in which each individual agent matches a target distribution derived from concurrently sampled trajectories from a joint expert policy. Experimental validation on the StarCraft domain shows that combining (1) a task reward, and (2) a distribution matching reward for expert demonstrations for the same task, allows agents to outperform a naive distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled to obtain the learning benefits.

arxiv情報

著者 Caroline Wang,Ishan Durugkar,Elad Liebman,Peter Stone
発行日 2023-03-13 02:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, I.2.0 パーマリンク