Evolving Populations of Diverse RL Agents with MAP-Elites

要約

クオリティ ダイバーシティ (QD) は、大規模かつ多様なソリューションのコレクションを生成することを目的とした強力な代替最適化パラダイムとして登場しました。特に、突然変異と交叉を通じてソリューションを進化させる主力アルゴリズム MAP-ELITES (ME) を使用しています。
一部の非構造化問題に対しては非常に効果的ですが、初期の ME 実装は解の母集団を進化させるためにランダム検索のみに依存しており、ニューラル ネットワークを進化させる場合など、高次元の問題に対してはサンプル効率が悪いことで有名でした。
フォローアップ作業では、ブラックボックス最適化 (BBO) または強化学習 (RL) のいずれかから借用した技術を通じてこれらの欠点に対処するために、勾配情報を利用して検索をガイドすることが検討されました。
RL 技術と ME を組み合わせることで、十分な探索が必要なロボット制御問題に対する最先端のパフォーマンスが実現しましたが、同時に、これらの ME バリアントは、ハイパーパラメータの感度など、ME にはなかった RL アルゴリズムに共通する制限によって悩まされました。
最近のアプローチでは一部のコンポーネントが母集団全体で共有されるため、母集団サイズが増加する場合など、高い確率性とトレーニングの不安定性が発生します。
さらに、ME と RL を組み合わせた既存のアプローチは、特定の RL アルゴリズムに結び付けられる傾向があり、対応する RL アルゴリズムが失敗する問題での使用が効果的に妨げられます。
これらの欠点に対処するために、任意の RL アルゴリズムの使用を可能にし、単なるポリシーではなくエージェントの集団 (その定義にはハイパーパラメーターとすべての学習可能なパラメーターが含まれます) を進化させることによって前述の制限を軽減する柔軟なフレームワークを導入します。
私たちは、QD-RL 文献から抜粋した、いくつかのロボット制御問題に関する広範な数値実験を通じて、フレームワークによってもたらされる利点を実証します。

要約(オリジナル)

Quality Diversity (QD) has emerged as a powerful alternative optimization paradigm that aims at generating large and diverse collections of solutions, notably with its flagship algorithm MAP-ELITES (ME) which evolves solutions through mutations and crossovers. While very effective for some unstructured problems, early ME implementations relied exclusively on random search to evolve the population of solutions, rendering them notoriously sample-inefficient for high-dimensional problems, such as when evolving neural networks. Follow-up works considered exploiting gradient information to guide the search in order to address these shortcomings through techniques borrowed from either Black-Box Optimization (BBO) or Reinforcement Learning (RL). While mixing RL techniques with ME unlocked state-of-the-art performance for robotics control problems that require a good amount of exploration, it also plagued these ME variants with limitations common among RL algorithms that ME was free of, such as hyperparameter sensitivity, high stochasticity as well as training instability, including when the population size increases as some components are shared across the population in recent approaches. Furthermore, existing approaches mixing ME with RL tend to be tied to a specific RL algorithm, which effectively prevents their use on problems where the corresponding RL algorithm fails. To address these shortcomings, we introduce a flexible framework that allows the use of any RL algorithm and alleviates the aforementioned limitations by evolving populations of agents (whose definition include hyperparameters and all learnable parameters) instead of just policies. We demonstrate the benefits brought about by our framework through extensive numerical experiments on a number of robotics control problems, some of which with deceptive rewards, taken from the QD-RL literature.

arxiv情報

著者 Thomas Pierrot,Arthur Flajolet
発行日 2023-06-15 15:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE パーマリンク