要約
ポリシー補強学習(RL)アルゴリズムは、強力な漸近パフォーマンスとトレーニングの安定性に広く使用されていますが、追加の並列環境により、政策誘発性の多様性が限られているため冗長データが得られるため、より大きなバッチサイズでスケーリングするのに苦労しています。
対照的に、進化的アルゴリズム(EAS)は自然にスケーリングし、ランダム化された集団ベースの検索を介して探索を促進しますが、多くの場合、サンプルは効率的です。
EASのスケーラビリティと多様性を政策勾配のパフォーマンスと安定性を組み合わせたハイブリッドアルゴリズムである進化政策最適化(EPO)を提案します。
EPOは、潜在変数を条件付けられたエージェントの集団を維持し、コヒーレンスとメモリ効率のためにアクターと批判的なネットワークパラメーターを共有し、多様な経験をマスターエージェントに集約します。
巧妙な操作、足の移動、および古典的な制御のタスク全体で、EPOは、サンプル効率、漸近パフォーマンス、およびスケーラビリティにおける最先端のベースラインよりも優れています。
要約(オリジナル)
On-policy reinforcement learning (RL) algorithms are widely used for their strong asymptotic performance and training stability, but they struggle to scale with larger batch sizes, as additional parallel environments yield redundant data due to limited policy-induced diversity. In contrast, Evolutionary Algorithms (EAs) scale naturally and encourage exploration via randomized population-based search, but are often sample-inefficient. We propose Evolutionary Policy Optimization (EPO), a hybrid algorithm that combines the scalability and diversity of EAs with the performance and stability of policy gradients. EPO maintains a population of agents conditioned on latent variables, shares actor-critic network parameters for coherence and memory efficiency, and aggregates diverse experiences into a master agent. Across tasks in dexterous manipulation, legged locomotion, and classic control, EPO outperforms state-of-the-art baselines in sample efficiency, asymptotic performance, and scalability.
arxiv情報
著者 | Jianren Wang,Yifan Su,Abhinav Gupta,Deepak Pathak |
発行日 | 2025-06-10 17:59:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google