${\rm E}(3)$-Equivariant Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning

要約

自然界における対称的なパターンの同定と解析は、物理学における重力法則の定式化や化学構造の研究の進歩など、様々な科学分野における重要な発見につながっている。本論文では、協調的マルチエージェント強化学習(MARL)問題に内在し、多くのアプリケーションで普及しているユークリッド対称性の利用に焦点を当てる。我々はまず、対称的な最適値とポリシーの存在を認める対称性の一般的な概念を持つマルコフゲームのサブクラスを正式に特徴付けることから始める。これらの性質に動機づけられ、マルチエージェント行為者批判手法の帰納的バイアスとして対称制約を組み込んだニューラルネットワークアーキテクチャを設計する。この帰納的バイアスは、様々な協調的MARLベンチマークにおける優れた性能と、対称的なパターンが繰り返される未知のシナリオにおけるゼロショット学習や転移学習などの印象的な汎化能力をもたらす。コードはhttps://github.com/dchen48/E3AC。

要約(オリジナル)

Identification and analysis of symmetrical patterns in the natural world have led to significant discoveries across various scientific fields, such as the formulation of gravitational laws in physics and advancements in the study of chemical structures. In this paper, we focus on exploiting Euclidean symmetries inherent in certain cooperative multi-agent reinforcement learning (MARL) problems and prevalent in many applications. We begin by formally characterizing a subclass of Markov games with a general notion of symmetries that admits the existence of symmetric optimal values and policies. Motivated by these properties, we design neural network architectures with symmetric constraints embedded as an inductive bias for multi-agent actor-critic methods. This inductive bias results in superior performance in various cooperative MARL benchmarks and impressive generalization capabilities such as zero-shot learning and transfer learning in unseen scenarios with repeated symmetric patterns. The code is available at: https://github.com/dchen48/E3AC.

arxiv情報

著者 Dingyang Chen,Qi Zhang
発行日 2024-02-02 14:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク