Evolutionary Policy Optimization

要約

その極端なサンプルの非効率性にもかかわらず、ポリシー上の補強学習は、実際のアプリケーションの基本的なツールになりました。
GPU駆動型シミュレーションの最近の進歩により、RLトレーニングのために膨大な量のデータを収集する機能が指数関数的にスケーリングされました。
ただし、PPOなどの現在のポリシー方法は、並列化された環境の利点を完全に活用できず、特定のスケールを超えるパフォーマンスの飽和につながることが研究で示されています。
対照的に、進化的アルゴリズム(EAS)は、ランダム化による多様性の増加に優れており、RLを自然に補完します。
ただし、既存のEVORLメソッドは、極端なサンプルの非効率性により、広範囲にわたる採用を獲得するのに苦労しています。
これらの課題に対処するために、EAとポリシーの勾配の強みを組み合わせた新しいポリシーグラデーションアルゴリズムである進化政策最適化(EPO)を紹介します。
EPOは、多様で挑戦的な環境でパフォーマンスを大幅に向上させ、並列化されたシミュレーションで優れたスケーラビリティを実証することを示しています。

要約(オリジナル)

Despite its extreme sample inefficiency, on-policy reinforcement learning has become a fundamental tool in real-world applications. With recent advances in GPU-driven simulation, the ability to collect vast amounts of data for RL training has scaled exponentially. However, studies show that current on-policy methods, such as PPO, fail to fully leverage the benefits of parallelized environments, leading to performance saturation beyond a certain scale. In contrast, Evolutionary Algorithms (EAs) excel at increasing diversity through randomization, making them a natural complement to RL. However, existing EvoRL methods have struggled to gain widespread adoption due to their extreme sample inefficiency. To address these challenges, we introduce Evolutionary Policy Optimization (EPO), a novel policy gradient algorithm that combines the strengths of EA and policy gradients. We show that EPO significantly improves performance across diverse and challenging environments, demonstrating superior scalability with parallelized simulations.

arxiv情報

著者 Jianren Wang,Yifan Su,Abhinav Gupta,Deepak Pathak
発行日 2025-03-24 18:08:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク