EXTRACT: Efficient Policy Learning by Extracting Transferrable Robot Skills from Offline Data

要約

ほとんどの強化学習 (RL) 手法は、低レベルのアクション空間にわたって最適なポリシーを学習することに焦点を当てています。
これらの方法はトレーニング環境ではうまく機能しますが、新しいタスクに移行するための柔軟性に欠けています。
代わりに、低レベルのアクションではなく、有用で一時的に拡張されたスキルに基づいて行動できる RL エージェントは、新しいタスクをより簡単に学習できます。
スキルベースの RL におけるこれまでの研究では、有用なスキルを定義するために専門家の監督が必要であり、これは拡張が難しいか、ヒューリスティックを使用してオフライン データからスキル空間を学習するため、スキルの適応性が制限され、下流の RL 中にスキルを移転することが困難になります。
私たちのアプローチである EXTRACT では、代わりに、事前トレーニングされたビジョン言語モデルを利用して、オフライン データから意味論的に意味のある個別のスキル セットを抽出します。各スキルは人間の監督なしで、連続引数によってパラメータ化されます。
このスキルのパラメータ化により、ロボットは、特定のスキルを選択するタイミングと、特定のタスクの引数を変更する方法を学習するだけで、新しいタスクを学習できるようになります。
我々は、報酬が希薄な画像ベースのロボット操作環境での実験を通じて、EXTRACT が従来の作業よりも迅速に新しいタスクを学習でき、以前のスキルベースの RL と比較してサンプル効率とパフォーマンスが大幅に向上することを実証しました。
ウェブサイトは https://www.jessezhang.net/projects/extract/ です。

要約(オリジナル)

Most reinforcement learning (RL) methods focus on learning optimal policies over low-level action spaces. While these methods can perform well in their training environments, they lack the flexibility to transfer to new tasks. Instead, RL agents that can act over useful, temporally extended skills rather than low-level actions can learn new tasks more easily. Prior work in skill-based RL either requires expert supervision to define useful skills, which is hard to scale, or learns a skill-space from offline data with heuristics that limit the adaptability of the skills, making them difficult to transfer during downstream RL. Our approach, EXTRACT, instead utilizes pre-trained vision language models to extract a discrete set of semantically meaningful skills from offline data, each of which is parameterized by continuous arguments, without human supervision. This skill parameterization allows robots to learn new tasks by only needing to learn when to select a specific skill and how to modify its arguments for the specific task. We demonstrate through experiments in sparse-reward, image-based, robot manipulation environments that EXTRACT can more quickly learn new tasks than prior works, with major gains in sample efficiency and performance over prior skill-based RL. Website at https://www.jessezhang.net/projects/extract/.

arxiv情報

著者 Jesse Zhang,Minho Heo,Zuxin Liu,Erdem Biyik,Joseph J Lim,Yao Liu,Rasool Fakoor
発行日 2024-06-25 17:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク