Training Diverse High-Dimensional Controllers by Scaling Covariance Matrix Adaptation MAP-Annealing

要約

シミュレーションでさまざまなニューラル ネットワーク コントローラーのセットを事前トレーニングすることで、ロボットがロボットの移動タスクでの損傷にオンラインで適応できるようになりました。
ただし、多様で高性能のコントローラーを見つけるには、高価なネットワーク トレーニングと多数のハイパーパラメーターの広範な調整が必要です。
一方、進化戦略 (ES) ベースの品質ダイバーシティ アルゴリズムである共分散行列適応 MAP アニーリング (CMA-MAE) には、これらの制限がなく、標準の QD ベンチマークで最先端のパフォーマンスを達成しています。
ただし、CMA-MAE は二次関数の複雑さのため、最新のニューラル ネットワーク コントローラーに拡張できません。
ES の効率的な近似手法を活用して、高次元に拡張する 3 つの新しい CMA-MAE バリアントを提案します。
私たちの実験では、これらのバリアントはベンチマークロボット移動タスクにおいて ES ベースのベースラインを上回り、同時に最先端の深層強化学習ベースの品質多様性アルゴリズムと同等かそれを上回っていることが示されました。

要約(オリジナル)

Pre-training a diverse set of neural network controllers in simulation has enabled robots to adapt online to damage in robot locomotion tasks. However, finding diverse, high-performing controllers requires expensive network training and extensive tuning of a large number of hyperparameters. On the other hand, Covariance Matrix Adaptation MAP-Annealing (CMA-MAE), an evolution strategies (ES)-based quality diversity algorithm, does not have these limitations and has achieved state-of-the-art performance on standard QD benchmarks. However, CMA-MAE cannot scale to modern neural network controllers due to its quadratic complexity. We leverage efficient approximation methods in ES to propose three new CMA-MAE variants that scale to high dimensions. Our experiments show that the variants outperform ES-based baselines in benchmark robotic locomotion tasks, while being comparable with or exceeding state-of-the-art deep reinforcement learning-based quality diversity algorithms.

arxiv情報

著者 Bryon Tjanaka,Matthew C. Fontaine,David H. Lee,Aniruddha Kalkar,Stefanos Nikolaidis
発行日 2023-05-13 03:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, cs.RO パーマリンク