Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity

要約

品質多様性は、行動空間に関して多様性を示す優れたパフォーマンスのポリシー/スキルのレパートリーを構築するために、強化学習および制御ドメインの問題によく適用される確率的最適化の分野です。
このようなアーカイブは通常、固有の動作記述子にそれぞれ関連付けられた有限数の反応性エージェントで構成されており、その粗く離散化された空間の外で動作記述子をインスタンス化することは簡単ではありません。
最近の研究では、この問題の解決策が提案されていますが、生成される軌道は、ターゲット動作記述子の仕様を超えて簡単にカスタマイズできません。
私たちは、大規模言語モデルを活用して軌跡の自然言語記述のレパートリーを増やし、それらの記述に基づいてポリシーをトレーニングすることによって、静的なシーン要素に関する意味論的な情報が利用可能な環境でこれらの問題を共同で解決することを提案します。
したがって、私たちの方法では、ユーザーが任意のターゲット動作記述子を指定するだけでなく、生成された軌道を形成するための高レベルのテキスト プロンプトをモデルに提供することもできます。
また、このような生成エージェントのパフォーマンスを評価するための LLM ベースのアプローチも提案します。
さらに、実験検証に使用する 2D 迷路でのロボット ナビゲーションのシミュレーションに基づいたベンチマークを開発します。

要約(オリジナル)

Quality-Diversity is a branch of stochastic optimization that is often applied to problems from the Reinforcement Learning and control domains in order to construct repertoires of well-performing policies/skills that exhibit diversity with respect to a behavior space. Such archives are usually composed of a finite number of reactive agents which are each associated to a unique behavior descriptor, and instantiating behavior descriptors outside of that coarsely discretized space is not straight-forward. While a few recent works suggest solutions to that issue, the trajectory that is generated is not easily customizable beyond the specification of a target behavior descriptor. We propose to jointly solve those problems in environments where semantic information about static scene elements is available by leveraging a Large Language Model to augment the repertoire with natural language descriptions of trajectories, and training a policy conditioned on those descriptions. Thus, our method allows a user to not only specify an arbitrary target behavior descriptor, but also provide the model with a high-level textual prompt to shape the generated trajectory. We also propose an LLM-based approach to evaluating the performance of such generative agents. Furthermore, we develop a benchmark based on simulated robot navigation in a 2d maze that we use for experimental validation.

arxiv情報

著者 Achkan Salehi,Stephane Doncieux
発行日 2023-08-25 10:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク