Enhancing Diversity in Parallel Agents: A Maximum State Entropy Exploration Story

要約

並列データ収集は強化学習(RL)を再定義し、前例のない効率性を解き放ち、大規模な実世界アプリケーションのブレークスルーを後押ししている。このパラダイムでは、$N$個の同一のエージェントが$N$個の環境シミュレータの複製で動作し、データ収集を$N$倍に加速する。重要な疑問が生じる:\並列エージェントのポリシーを特殊化することが、$N$倍の高速化の鍵を握っているのか?本論文では、並列環境において収集データのエントロピーを最大化する新しい学習フレームワークを紹介する。我々のアプローチは、個々のエージェントのエントロピーとエージェント間の多様性のバランスを注意深くとり、冗長性を効果的に最小化する。後者の考え方は中央集権的な政策勾配法を用いて実装されており、同一のエージェントからなるシステムに対して経験的に評価したところ、データの多様性を利用できるバッチRL技術との相乗効果も期待できることが示された。最後に、特殊な並列サンプリング分布の方が高速であることを示す独自の濃度分析を提供する。

要約(オリジナル)

Parallel data collection has redefined Reinforcement Learning (RL), unlocking unprecedented efficiency and powering breakthroughs in large-scale real-world applications. In this paradigm, $N$ identical agents operate in $N$ replicas of an environment simulator, accelerating data collection by a factor of $N$. A critical question arises: \textit{Does specializing the policies of the parallel agents hold the key to surpass the $N$ factor acceleration?} In this paper, we introduce a novel learning framework that maximizes the entropy of collected data in a parallel setting. Our approach carefully balances the entropy of individual agents with inter-agent diversity, effectively minimizing redundancies. The latter idea is implemented with a centralized policy gradient method, which shows promise when evaluated empirically against systems of identical agents, as well as synergy with batch RL techniques that can exploit data diversity. Finally, we provide an original concentration analysis that shows faster rates for specialized parallel sampling distributions, which supports our methodology and may be of independent interest.

arxiv情報

著者 Vincenzo De Paola,Riccardo Zamboni,Mirco Mutti,Marcello Restelli
発行日 2025-05-02 15:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク