Enhancing Cooperative Multi-Agent Reinforcement Learning with State Modelling and Adversarial Exploration

要約

通信能力のない分散型部分的に観察可能な環境で協力することを学ぶことは、マルチエージェントディープ補強学習(MARL)に大きな課題をもたらします。
このペーパーでは、このドメインの重要な懸念に対処し、個々のエージェントの観察からの状態表現を推測し、これらの表現を活用してエージェントの探索と共同タスクの実行ポリシーを強化します。
この目的のために、私たちは協同組合のMARLの新しい状態モデリングフレームワークを提案します。ここでは、エージェントが独自のポリシーを最適化することに関して、非存在状態の意味のある信念表現を推測し、冗長で有益でない共同の状態情報をフィルタリングします。
このフレームワークに基づいて、MARL SMPEアルゴリズムを提案します。
SMPEでは、エージェントは部分的な観察性の下で独自の政策の差別能力を高め、彼らの信念を政策ネットワークに組み込むことにより、明示的に、そしてエージェントが他者の差別的能力を​​改善しながら、エージェントが斬新で高価値の状態を発見することを奨励する敵対的なタイプの探査政策を採用することにより、暗黙的に強化します。
実験的に、SMPEは、MPE、LBF、およびRwareベンチマークからの複雑な完全協力タスクで、最先端のMARLアルゴリズムを上回ることを示しています。

要約(オリジナル)

Learning to cooperate in distributed partially observable environments with no communication abilities poses significant challenges for multi-agent deep reinforcement learning (MARL). This paper addresses key concerns in this domain, focusing on inferring state representations from individual agent observations and leveraging these representations to enhance agents’ exploration and collaborative task execution policies. To this end, we propose a novel state modelling framework for cooperative MARL, where agents infer meaningful belief representations of the non-observable state, with respect to optimizing their own policies, while filtering redundant and less informative joint state information. Building upon this framework, we propose the MARL SMPE algorithm. In SMPE, agents enhance their own policy’s discriminative abilities under partial observability, explicitly by incorporating their beliefs into the policy network, and implicitly by adopting an adversarial type of exploration policies which encourages agents to discover novel, high-value states while improving the discriminative abilities of others. Experimentally, we show that SMPE outperforms state-of-the-art MARL algorithms in complex fully cooperative tasks from the MPE, LBF, and RWARE benchmarks.

arxiv情報

著者 Andreas Kontogiannis,Konstantinos Papathanasiou,Yi Shen,Giorgos Stamou,Michael M. Zavlanos,George Vouros
発行日 2025-05-08 14:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク