Quality with Just Enough Diversity in Evolutionary Policy Search

要約

Evolution Strategies (ES) は、ポリシー検索における勾配ベースのアプローチと競合できる効果的な勾配のない最適化手法です。
ES は母集団内の解のエピソードの合計スコアのみに依存し、そこから更新の適応度勾配を推定しますが、真の勾配情報にはアクセスできません。
しかし、そのため、フィットネスに関する欺瞞的な状況に敏感になり、問題を解決する方法を 1 つだけ探そうとする傾向があります。
MAP-Elites などの品質多様性手法では、多様なソリューションの母集団を返すために動作記述子 (BD) を使用した追加情報が導入されています。これは探索には役立ちますが、評価予算の大部分が最高のパフォーマンスのソリューションを見つけることに集中しないことにつながります。
ここでは、ES で効率的に探索できる有望な検索領域を特定することで、行動情報を活用して最適なポリシーを見つけることもできることを示します。
私たちは、行動と適合性の関係を学習して重要な解決策に焦点を当てた評価を行う、Quality with Just Enough Diversity (JEDi) のフレームワークを導入します。
より高い適合度値に到達しようとする場合、JEDi は、迷路のような困難な探索タスクや、大規模なポリシーを伴う複雑な制御問題において、QD メソッドと ES メソッドの両方よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Evolution Strategies (ES) are effective gradient-free optimization methods that can be competitive with gradient-based approaches for policy search. ES only rely on the total episodic scores of solutions in their population, from which they estimate fitness gradients for their update with no access to true gradient information. However this makes them sensitive to deceptive fitness landscapes, and they tend to only explore one way to solve a problem. Quality-Diversity methods such as MAP-Elites introduced additional information with behavior descriptors (BD) to return a population of diverse solutions, which helps exploration but leads to a large part of the evaluation budget not being focused on finding the best performing solution. Here we show that behavior information can also be leveraged to find the best policy by identifying promising search areas which can then be efficiently explored with ES. We introduce the framework of Quality with Just Enough Diversity (JEDi) which learns the relationship between behavior and fitness to focus evaluations on solutions that matter. When trying to reach higher fitness values, JEDi outperforms both QD and ES methods on hard exploration tasks like mazes and on complex control problems with large policies.

arxiv情報

著者 Paul Templier,Luca Grillotti,Emmanuel Rachelson,Dennis G. Wilson,Antoine Cully
発行日 2024-05-07 13:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO パーマリンク