要約
深層強化学習 (RL) は、複雑な制御タスクを解決するためにニューラル ポリシーをトレーニングするための強力なパラダイムとして登場しました。
ただし、これらのポリシーは、トレーニングされたタスクや環境の正確な仕様に過剰適合する傾向があるため、条件がわずかに逸脱した場合や、より複雑なタスクを解決するために階層的に構成された場合には、うまく機能しません。
最近の研究では、単一の政策ではなく、国家活動空間のさまざまな領域を探索するように駆動される混合政策をトレーニングすることで、スキルと呼ばれる多様な行動セットを生成することでこの欠点に対処できることが示されています。
適応タスクや階層計画に集合的に使用すると、大きな効果が得られます。
これは通常、RL によって最適化された目的関数に、情報理論から派生することが多い多様性項を含めることによって実現されます。
ただし、これらのアプローチを効果的にするには、多くの場合、慎重なハイパーパラメーターの調整が必要です。
この研究では、あまり広く使用されていない神経進化手法、特にクオリティ ダイバーシティ (QD) が、スキル発見のための情報理論強化型 RL に代わる競争力のある代替手段であることを実証します。
(i) スキルの多様性を直接評価する指標、(ii) 適応タスクにおけるスキルのパフォーマンスに基づいて、8 つの最先端のアルゴリズム (各業務分野の 4 つの主力アルゴリズム) を比較する広範な実証的評価を通じて
(iii) 階層計画のプリミティブとして使用される場合のスキルのパフォーマンス。
QD 手法は、ハイパーパラメータの影響を受けにくく、よりスケーラブルである一方で、同等の、場合によっては向上したパフォーマンスを提供することがわかっています。
すべての環境で最適に近いパフォーマンスを提供する単一の方法は見つかっていないため、将来の方向性を提案し、最適化されたオープンソース実装を提供することで、さらなる研究の余地が豊富にあります。
要約(オリジナル)
Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for training neural policies to solve complex control tasks. However, these policies tend to be overfit to the exact specifications of the task and environment they were trained on, and thus do not perform well when conditions deviate slightly or when composed hierarchically to solve even more complex tasks. Recent work has shown that training a mixture of policies, as opposed to a single one, that are driven to explore different regions of the state-action space can address this shortcoming by generating a diverse set of behaviors, referred to as skills, that can be collectively used to great effect in adaptation tasks or for hierarchical planning. This is typically realized by including a diversity term – often derived from information theory – in the objective function optimized by RL. However these approaches often require careful hyperparameter tuning to be effective. In this work, we demonstrate that less widely-used neuroevolution methods, specifically Quality Diversity (QD), are a competitive alternative to information-theory-augmented RL for skill discovery. Through an extensive empirical evaluation comparing eight state-of-the-art algorithms (four flagship algorithms from each line of work) on the basis of (i) metrics directly evaluating the skills’ diversity, (ii) the skills’ performance on adaptation tasks, and (iii) the skills’ performance when used as primitives for hierarchical planning; QD methods are found to provide equal, and sometimes improved, performance whilst being less sensitive to hyperparameters and more scalable. As no single method is found to provide near-optimal performance across all environments, there is a rich scope for further research which we support by proposing future directions and providing optimized open-source implementations.
arxiv情報
著者 | Felix Chalumeau,Raphael Boige,Bryan Lim,Valentin Macé,Maxime Allard,Arthur Flajolet,Antoine Cully,Thomas Pierrot |
発行日 | 2023-06-15 12:08:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google