Scaling Policy Gradient Quality-Diversity with Massive Parallelization via Behavioral Variations

要約

品質型の最適化は、多様で高性能のソリューションのコレクションを生成することを目的とした進化的アルゴリズムのファミリーで構成されています。
注目すべき例であるMap-Elites(ME)は、進化ロボット工学のようなフィールドで効果的に使用されています。
しかし、遺伝的アルゴリズムからのランダムな変異に私が依存することは、高次元ソリューションを進化させる能力を制限します。
これを克服するために提案された方法には、ポリシーグラデーションや自然進化戦略などの勾配ベースの演算子を使用することが含まれます。
神経進化のために私をスケーリングすることに成功しましたが、これらの方法は、トレーニング速度の遅い速度や、集中型の俳優と批判のトレーニングへの依存による高い並列化でのスケーリングの困難に苦しむことがよくあります。
この作業では、大規模な並列化でスケー​​リングできる高速でサンプル効率の良いアルゴリズムを導入し、パフォーマンスを損なうことなくランタイムを大幅に削減します。
私たちの方法であるASCII-MEは、既存のポリシーグラデーション品質 – 多様性の方法とは異なり、集中化された俳優criticなトレーニングに依存していません。
タイムステップのパフォーマンスメトリックに基づいて行動のバリエーションを実行し、これらのバリエーションをポリシーグラデーションを使用してソリューションにマッピングします。
私たちの実験は、ASCII-MEが単一のGPUで250秒以内に高性能な深いニューラルネットワークポリシーの多様なコレクションを生成できることを示しています。
さらに、競争力のあるサンプル効率を維持しながら、最先端のアルゴリズムの5倍速い平均で動作します。

要約(オリジナル)

Quality-Diversity optimization comprises a family of evolutionary algorithms aimed at generating a collection of diverse and high-performing solutions. MAP-Elites (ME), a notable example, is used effectively in fields like evolutionary robotics. However, the reliance of ME on random mutations from Genetic Algorithms limits its ability to evolve high-dimensional solutions. Methods proposed to overcome this include using gradient-based operators like policy gradients or natural evolution strategies. While successful at scaling ME for neuroevolution, these methods often suffer from slow training speeds, or difficulties in scaling with massive parallelization due to high computational demands or reliance on centralized actor-critic training. In this work, we introduce a fast, sample-efficient ME based algorithm capable of scaling up with massive parallelization, significantly reducing runtimes without compromising performance. Our method, ASCII-ME, unlike existing policy gradient quality-diversity methods, does not rely on centralized actor-critic training. It performs behavioral variations based on time step performance metrics and maps these variations to solutions using policy gradients. Our experiments show that ASCII-ME can generate a diverse collection of high-performing deep neural network policies in less than 250 seconds on a single GPU. Additionally, it operates on average, five times faster than state-of-the-art algorithms while still maintaining competitive sample efficiency.

arxiv情報

著者 Konstantinos Mitsides,Maxence Faldor,Antoine Cully
発行日 2025-01-30 19:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO パーマリンク