Performant, Memory Efficient and Scalable Multi-Agent Reinforcement Learning

要約

マルチエージェント強化学習 (MARL) の分野がより大規模で複雑な環境に向かって進むにつれて、多くのエージェントに対するメモリ効率とスケーラビリティを維持しながら強力なパフォーマンスを達成することがますます重要になっています。
最近の研究により、いくつかの高度なアルゴリズムが開発されましたが、これまでのところ、これらの重要な特性すべてに同時に完全に対処できるものはありません。
この研究では、保持ネットワークの保持メカニズムを MARL に適応させる、斬新で理論的に健全なアルゴリズムである Sable を紹介します。
Sable の保持ベースのシーケンス モデリング アーキテクチャにより、多数のエージェントに対する計算効率の高いスケーリングが可能になるだけでなく、長い時間コンテキストを維持できるため、大規模な部分的に観測可能な環境に適しています。
6 つの多様な環境にわたる広範な評価を通じて、Sable がタスクの大部分 (45 のうち 34、約 75%) において既存の最先端の手法を大幅に上回るパフォーマンスをどのように発揮できるかを実証しました。
さらに、Sable は、エージェントの数を拡張しても安定したパフォーマンスを示し、1,000 を超えるエージェントが存在する環境を処理しながら、メモリ使用量が直線的に増加します。
最後に、アブレーション研究を実施して、Sable のパフォーマンス向上の原因を特定し、その効率的な計算メモリ使用量を確認します。
私たちの結果は Sable のパフォーマンスと効率性を強調しており、Sable を大規模な MARL への主要なアプローチとして位置づけています。

要約(オリジナル)

As the field of multi-agent reinforcement learning (MARL) progresses towards larger and more complex environments, achieving strong performance while maintaining memory efficiency and scalability to many agents becomes increasingly important. Although recent research has led to several advanced algorithms, to date, none fully address all of these key properties simultaneously. In this work, we introduce Sable, a novel and theoretically sound algorithm that adapts the retention mechanism from Retentive Networks to MARL. Sable’s retention-based sequence modelling architecture allows for computationally efficient scaling to a large number of agents, as well as maintaining a long temporal context, making it well-suited for large-scale partially observable environments. Through extensive evaluations across six diverse environments, we demonstrate how Sable is able to significantly outperform existing state-of-the-art methods in the majority of tasks (34 out of 45, roughly 75\%). Furthermore, Sable demonstrates stable performance as we scale the number of agents, handling environments with more than a thousand agents while exhibiting a linear increase in memory usage. Finally, we conduct ablation studies to isolate the source of Sable’s performance gains and confirm its efficient computational memory usage. Our results highlight Sable’s performance and efficiency, positioning it as a leading approach to MARL at scale.

arxiv情報

著者 Omayma Mahjoub,Sasha Abramowitz,Ruan de Kock,Wiem Khlifi,Simon du Toit,Jemma Daniel,Louay Ben Nessir,Louise Beyers,Claude Formanek,Liam Clark,Arnu Pretorius
発行日 2024-10-02 16:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク