Choreographer: Learning and Adapting Skills in Imagination

要約

教師なしスキル学習は、外部の監督なしで行動の豊富なレパートリーを学習し、人工エージェントに環境を制御し影響を与える能力を提供することを目的としています。
ただし、適切な知識と探索がなければ、スキルは環境の限られた領域のみを制御し、その適用範囲が制限される可能性があります。
さらに、データ効率の高い方法で下流のタスクに適応するために学習したスキルの行動を活用する方法も不明です。
Choreographer は、世界モデルを利用して想像力のスキルを学習し、適応させるモデルベースのエージェントです。
私たちの方法は探索とスキル学習のプロセスを分離し、モデルの潜在状態空間でスキルを発見できるようにします。
適応中、エージェントはメタコントローラーを使用して、学習したスキルを想像力の中で並行して展開することで効率的に評価および適応します。
Choreographer は、オフライン データと、探索ポリシーと同時にデータを収集することの両方からスキルを学習できます。
URL ベンチマークで示されているように、スキルを使用して下流のタスクに効果的に適応でき、ピクセルと状態の入力の両方から以前のアプローチよりも優れたパフォーマンスを発揮します。
DMC Suite や Meta-World の目標達成タスクに見られるように、学習したスキルは環境を徹底的に探索し、まばらな報酬をより頻繁に見つけます。
ウェブサイトとコード: https://skillchoreographer.github.io/

要約(オリジナル)

Unsupervised skill learning aims to learn a rich repertoire of behaviors without external supervision, providing artificial agents with the ability to control and influence the environment. However, without appropriate knowledge and exploration, skills may provide control only over a restricted area of the environment, limiting their applicability. Furthermore, it is unclear how to leverage the learned skill behaviors for adapting to downstream tasks in a data-efficient manner. We present Choreographer, a model-based agent that exploits its world model to learn and adapt skills in imagination. Our method decouples the exploration and skill learning processes, being able to discover skills in the latent state space of the model. During adaptation, the agent uses a meta-controller to evaluate and adapt the learned skills efficiently by deploying them in parallel in imagination. Choreographer is able to learn skills both from offline data, and by collecting data simultaneously with an exploration policy. The skills can be used to effectively adapt to downstream tasks, as we show in the URL benchmark, where we outperform previous approaches from both pixels and states inputs. The learned skills also explore the environment thoroughly, finding sparse rewards more frequently, as shown in goal-reaching tasks from the DMC Suite and Meta-World. Website and code: https://skillchoreographer.github.io/

arxiv情報

著者 Pietro Mazzaglia,Tim Verbelen,Bart Dhoedt,Alexandre Lacoste,Sai Rajeswar
発行日 2024-01-19 17:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク