Bi-level Latent Variable Model for Sample-Efficient Multi-Agent Reinforcement Learning

要約

【タイトル】サンプル効率の高いマルチエージェント強化学習のためのバイレベル潜在変数モデル

【要約】本研究では、マルチエージェント強化学習(MARL)アルゴリズムがサンプルの複雑性に苦しんでいるという問題を解決するために、高次元入力からバイレベル潜在変数モデルを学習する、BiLL(Bi-Level Latent Variable Model-based Learning)という新しいモデルベースのMARLアルゴリズムを提案します。このモデルは、グローバルな状態を表す潜在表現を学習し、エージェントごとに潜在表現を学習します。また、ポリシー学習に使用するために潜在軌跡を生成します。我々は、SMACとFlatlandという難しい環境で複雑なマルチエージェントタスクを評価しました。我々のアルゴリズムは、非モデルベースのベースラインおよびモデルベースのベースラインを含むサンプル効率において、2つの極めて難しい Super Hard SMAC mapsを含めて、既存の最先端技術を上回りました。

【要点】

– MARLアルゴリズムは、サンプルの複雑性に苦しんでいる
– BiLLは、バイレベル潜在変数モデルを学習することで、サンプルの効率を高める
– トップレベルでは、モデルはグローバルな状態を表す潜在表現を学習
– ボトムレベルでは、各エージェントに対する潜在表現を学習
– モデルは、潜在軌跡を生成してポリシー学習に使用する
– SMACとFlatlandの環境で複雑なマルチエージェントタスクを評価
– BiLLは、既存の最先端技術を上回り、2つのSuper Hard SMAC mapsを含む全てのベースラインを上回った

要約(オリジナル)

Despite their potential in real-world applications, multi-agent reinforcement learning (MARL) algorithms often suffer from high sample complexity. To address this issue, we present a novel model-based MARL algorithm, BiLL (Bi-Level Latent Variable Model-based Learning), that learns a bi-level latent variable model from high-dimensional inputs. At the top level, the model learns latent representations of the global state, which encode global information relevant to behavior learning. At the bottom level, it learns latent representations for each agent, given the global latent representations from the top level. The model generates latent trajectories to use for policy learning. We evaluate our algorithm on complex multi-agent tasks in the challenging SMAC and Flatland environments. Our algorithm outperforms state-of-the-art model-free and model-based baselines in sample efficiency, including on two extremely challenging Super Hard SMAC maps.

arxiv情報

著者 Aravind Venugopal,Stephanie Milani,Fei Fang,Balaraman Ravindran
発行日 2023-04-12 17:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.MA パーマリンク