The Quality-Diversity Transformer: Generating Behavior-Conditioned Trajectories with Decision Transformers

要約

神経進化の文脈では、品質-多様性アルゴリズムは、行動空間の定義に依存して、多様で効率的なポリシーのレパートリーを生成するのに効果的であることが証明されています。
このようなレパートリーの作成によって引き起こされる自然な目標は、オンデマンドの動作を達成しようとすることです。これは、レパートリーから対応するポリシーを実行することで実現できます。
しかし、不確実な環境では 2 つの問題が発生します。
まず、ポリシーは堅牢性と再現性に欠ける可能性があります。つまり、わずかに異なる条件下での複数のエピソードが非常に異なる動作を引き起こすことがよくあります。
第二に、レパートリーの離散的な性質により、ソリューションは不連続に変化します。
ここでは、2 つのメカニズムに基づいて動作条件付き軌道生成を実現するための新しいアプローチを紹介します。1 つは MAP-Elites Low-Spread (ME-LS) で、ソリューションの選択を動作空間内で最も一貫したものに制限します。
2 つ目は、Quality-Diversity Transformer (QDT) です。これは、連続動作記述子を条件とする Transformer ベースのモデルです。これは、ME-LS レパートリーからのポリシーによって生成されたデータセットでトレーニングし、目標動作を達成する一連のアクションを自己回帰的に生成する方法を学習します。
結果は、ME-LS が一貫性のある堅牢なポリシーを生成し、QDT と組み合わせることで、オンデマンドでの多様な動作を高精度で実現できる単一のポリシーを生成することを示しています。

要約(オリジナル)

In the context of neuroevolution, Quality-Diversity algorithms have proven effective in generating repertoires of diverse and efficient policies by relying on the definition of a behavior space. A natural goal induced by the creation of such a repertoire is trying to achieve behaviors on demand, which can be done by running the corresponding policy from the repertoire. However, in uncertain environments, two problems arise. First, policies can lack robustness and repeatability, meaning that multiple episodes under slightly different conditions often result in very different behaviors. Second, due to the discrete nature of the repertoire, solutions vary discontinuously. Here we present a new approach to achieve behavior-conditioned trajectory generation based on two mechanisms: First, MAP-Elites Low-Spread (ME-LS), which constrains the selection of solutions to those that are the most consistent in the behavior space. Second, the Quality-Diversity Transformer (QDT), a Transformer-based model conditioned on continuous behavior descriptors, which trains on a dataset generated by policies from a ME-LS repertoire and learns to autoregressively generate sequences of actions that achieve target behaviors. Results show that ME-LS produces consistent and robust policies, and that its combination with the QDT yields a single policy capable of achieving diverse behaviors on demand with high accuracy.

arxiv情報

著者 Valentin Macé,Raphaël Boige,Felix Chalumeau,Thomas Pierrot,Guillaume Richard,Nicolas Perrin-Gilbert
発行日 2023-09-13 17:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE パーマリンク