Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning

要約

強化学習 (RL) の悪名高い問題の 1 つは、サンプル効率が低いことです。
シングルエージェント RL と比較して、マルチエージェント強化学習 (MARL) のサンプル効率は、その固有の部分可観測性、非定常トレーニング、および膨大な戦略空間のため、より困難です。
新しい手法の開発とサンプル効率の向上には多くの努力が払われてきましたが、ここでは広く使用されているエピソードトレーニングメカニズムに注目します。
各トレーニング ステップでは数十のフレームが収集されますが、作成される勾配ステップは 1 つだけです。
私たちは、このエピソード的なトレーニングがサンプル効率の低下の原因である可能性があると主張します。
すでに収集されたデータをより有効に活用するために、環境インタラクションごとの勾配更新の頻度 (別名、再生率またはデータへの更新率) を増やすことを提案します。
その一般性を示すために、$6$ SMAC タスクで $3$ MARL メソッドを評価します。
経験的な結果は、再生率が高いほど MARL アルゴリズムのサンプル効率が大幅に向上することを検証しています。
この論文で示された結果を再実装するコードは、https://anonymous.4open.science/r/rr_for_MARL-0D83/ でオープンソース化されています。

要約(オリジナル)

One of the notorious issues for Reinforcement Learning (RL) is poor sample efficiency. Compared to single agent RL, the sample efficiency for Multi-Agent Reinforcement Learning (MARL) is more challenging because of its inherent partial observability, non-stationary training, and enormous strategy space. Although much effort has been devoted to developing new methods and enhancing sample efficiency, we look at the widely used episodic training mechanism. In each training step, tens of frames are collected, but only one gradient step is made. We argue that this episodic training could be a source of poor sample efficiency. To better exploit the data already collected, we propose to increase the frequency of the gradient updates per environment interaction (a.k.a. Replay Ratio or Update-To-Data ratio). To show its generality, we evaluate $3$ MARL methods on $6$ SMAC tasks. The empirical results validate that a higher replay ratio significantly improves the sample efficiency for MARL algorithms. The codes to reimplement the results presented in this paper are open-sourced at https://anonymous.4open.science/r/rr_for_MARL-0D83/.

arxiv情報

著者 Linjie Xu,Zichuan Liu,Alexander Dockhorn,Diego Perez-Liebana,Jinyu Wang,Lei Song,Jiang Bian
発行日 2024-04-15 12:18:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク