Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery

要約

タイトル:ニューロエボリューションはスキル探索のための強化学習に対する競合的な代替手段である

要約:

– Deep Reinforcement Learning(RL)は、複雑な制御タスクを解決するためのニューラルポリシーをトレーニングするための強力なパラダイムとして現れた。
– しかし、これらのポリシーは、トレーニングされたタスクと環境の正確な仕様に過剰に適合しており、したがって、条件がわずかに変化した場合やさらに複雑なタスクを階層的に解決する場合にはうまく機能しない。
– 最近の研究では、単一ではなく、異なる状態-アクション空間の領域を探索するために駆動される、さまざまなポリシーのミックスを訓練することで、多様な振る舞いを生成し、スキルと呼ばれることができることが示されている。
– これは、RLによって最適化される目的関数に情報理論から派生した多様性項を含めることによって典型的に実現される。
– しかし、これらのアプローチはしばしば効果的になるために注意深いハイパーパラメータの調整が必要である。
– この研究では、品質多様性(QD)と呼ばれる、あまり広く使用されていないニューロエボリューション手法が、スキル探索に対する情報理論を拡張したRLの競合力のある代替手段であることを示している。
– 8つの最先端のアルゴリズム(各ラインから4つの主力アルゴリズム)を比較し、スキルの多様性を直接評価するメトリック、適応タスクでのスキルのパフォーマンス、および階層的な計画の原始として使用したときのスキルのパフォーマンスを基準として、QD手法が同等または改善され、ハイパーパラメータに対して感度が低く、スケール可能性があります。
– すべての環境で最適なパフォーマンスを提供する単一の手法が見つからなかったため、さらに研究する余地があることを提案し、最適化されたオープンソース実装を提供して将来の方向性を支援する。

要約(オリジナル)

Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for training neural policies to solve complex control tasks. However, these policies tend to be overfit to the exact specifications of the task and environment they were trained on, and thus do not perform well when conditions deviate slightly or when composed hierarchically to solve even more complex tasks. Recent work has shown that training a mixture of policies, as opposed to a single one, that are driven to explore different regions of the state-action space can address this shortcoming by generating a diverse set of behaviors, referred to as skills, that can be collectively used to great effect in adaptation tasks or for hierarchical planning. This is typically realized by including a diversity term – often derived from information theory – in the objective function optimized by RL. However these approaches often require careful hyperparameter tuning to be effective. In this work, we demonstrate that less widely-used neuroevolution methods, specifically Quality Diversity (QD), are a competitive alternative to information-theory-augmented RL for skill discovery. Through an extensive empirical evaluation comparing eight state-of-the-art algorithms (four flagship algorithms from each line of work) on the basis of (i) metrics directly evaluating the skills’ diversity, (ii) the skills’ performance on adaptation tasks, and (iii) the skills’ performance when used as primitives for hierarchical planning; QD methods are found to provide equal, and sometimes improved, performance whilst being less sensitive to hyperparameters and more scalable. As no single method is found to provide near-optimal performance across all environments, there is a rich scope for further research which we support by proposing future directions and providing optimized open-source implementations.

arxiv情報

著者 Felix Chalumeau,Raphael Boige,Bryan Lim,Valentin Macé,Maxime Allard,Arthur Flajolet,Antoine Cully,Thomas Pierrot
発行日 2023-03-31 08:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク