Boosting Sample Efficiency and Generalization in Multi-agent Reinforcement Learning via Equivariance

要約

マルチエージェント強化学習 (MARL) は、サンプルの非効率性と貧弱な一般化に悩まされています [1]。
これらの課題の一部は、ポリシーの学習に通常使用されるニューラル ネットワークの構造または誘導バイアスの欠如が原因です。
マルチエージェントのシナリオで一般的に観察される構造の形式の 1 つは、対称性です。
幾何学深層学習の分野では、ノードの回転、平行移動、反射に対して等変 (または対称) である等変グラフ ニューラル ネットワーク (EGNN) が開発されました。
等分散を組み込むと、学習効率が向上し、エラーが減少することが示されています [2]。
この論文では、EGNN が MARL におけるサンプル効率と一般化を向上させることを実証します。
ただし、EGNN を単純に MARL に適用すると、EGNN 構造の偏りにより初期探索が不十分になることも示します。
このバイアスを軽減するために、探索強化等変グラフ ニューラル ネットワーク (E2GN2) を紹介します。
一般的な MARL ベンチマーク MPE および SMACv2 を使用して、E2GN2 を他の一般的な関数近似器と比較します。
E2GN2 は、一般化テストにおいて、サンプル効率の大幅な向上、最終的な報酬収束の向上、標準 GNN と比較して 2 倍から 5 倍の利得を示しています。
これらの結果は、複雑なマルチエージェント システムにおいて、より信頼性が高く効果的なソリューションへの道を開きます。

要約(オリジナル)

Multi-Agent Reinforcement Learning (MARL) struggles with sample inefficiency and poor generalization [1]. These challenges are partially due to a lack of structure or inductive bias in the neural networks typically used in learning the policy. One such form of structure that is commonly observed in multi-agent scenarios is symmetry. The field of Geometric Deep Learning has developed Equivariant Graph Neural Networks (EGNN) that are equivariant (or symmetric) to rotations, translations, and reflections of nodes. Incorporating equivariance has been shown to improve learning efficiency and decrease error [ 2 ]. In this paper, we demonstrate that EGNNs improve the sample efficiency and generalization in MARL. However, we also show that a naive application of EGNNs to MARL results in poor early exploration due to a bias in the EGNN structure. To mitigate this bias, we present Exploration-enhanced Equivariant Graph Neural Networks or E2GN2. We compare E2GN2 to other common function approximators using common MARL benchmarks MPE and SMACv2. E2GN2 demonstrates a significant improvement in sample efficiency, greater final reward convergence, and a 2x-5x gain in over standard GNNs in our generalization tests. These results pave the way for more reliable and effective solutions in complex multi-agent systems.

arxiv情報

著者 Joshua McClellan,Naveed Haghani,John Winder,Furong Huang,Pratap Tokekar
発行日 2024-10-22 16:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク