Sable: a Performant, Efficient and Scalable Sequence Model for MARL

要約

マルチエージェント強化学習(MARL)がより大きく複雑な問題の解決に向けて進むにつれて、アルゴリズムが(1)強力なパフォーマンス、(2)メモリ効率、(3)スケーラビリティの重要な特性を示すことがますます重要になります。
この作業では、MARLへのパフォーマンス、メモリ効率的でスケーラブルなシーケンスモデリングアプローチであるSableを紹介します。
セーブルは、保持メカニズムを保持ネットワークに適応させることにより、時間的推論のために長いコンテキストメモリを使用してマルチエージェント観測の計算効率的な処理を実現します。
6つの多様な環境にわたる広範な評価を通じて、Sableが多数の多様なタスクで既存の最先端の方法を大幅に上回ることができることを示します(45人のうち34人がテストされています)。
さらに、Sableはエージェントの数をスケーリングする際にパフォーマンスを維持し、メモリ使用量の線形増加を示しながら、1000以上のエージェントを持つ環境を処理します。
最後に、Sableのパフォーマンスの向上の原因を隔離し、その効率的な計算メモリ使用量を確認するためにアブレーション研究を実施します。

要約(オリジナル)

As multi-agent reinforcement learning (MARL) progresses towards solving larger and more complex problems, it becomes increasingly important that algorithms exhibit the key properties of (1) strong performance, (2) memory efficiency and (3) scalability. In this work, we introduce Sable, a performant, memory efficient and scalable sequence modeling approach to MARL. Sable works by adapting the retention mechanism in Retentive Networks to achieve computationally efficient processing of multi-agent observations with long context memory for temporal reasoning. Through extensive evaluations across six diverse environments, we demonstrate how Sable is able to significantly outperform existing state-of-the-art methods in a large number of diverse tasks (34 out of 45 tested). Furthermore, Sable maintains performance as we scale the number of agents, handling environments with more than a thousand agents while exhibiting a linear increase in memory usage. Finally, we conduct ablation studies to isolate the source of Sable’s performance gains and confirm its efficient computational memory usage.

arxiv情報

著者 Omayma Mahjoub,Sasha Abramowitz,Ruan de Kock,Wiem Khlifi,Simon du Toit,Jemma Daniel,Louay Ben Nessir,Louise Beyers,Claude Formanek,Liam Clark,Arnu Pretorius
発行日 2025-02-13 15:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク