PLEX: Making the Most of the Available Data for Robotic Manipulation Pretraining

要約

豊富な表現は一般的なロボット操作の鍵ですが、既存のモデル アーキテクチャではそれを学習するために大量のデータが必要です。
残念ながら、さまざまな注釈付きタスクの専門的な視覚運動のデモンストレーションの形で提供される、理想的なロボット操作トレーニング データはほとんどありません。
この作業では、大量に利用可能なロボット工学関連データの一種である、はるかに大量のタスク条件付きオブジェクト操作ビデオを伴う、タスクに依存しない視覚運動軌跡から学習する変換器ベースのアーキテクチャである PLEX を提案します。
PLEXの背後にある重要な洞察は、観察と行動を伴う軌跡が潜在的な特徴空間を誘導し、タスクにとらわれない操作ルーチンを実行するようにロボットを訓練するのに役立ち、ビデオのみのさまざまなデモンストレーションのセットがロボットにこの中で計画する方法を効率的に教えることができるということです。
さまざまなタスクのための機能スペース。
ロボット操作の事前トレーニングに関するほとんどの研究とは対照的に、PLEX は単なる観察表現ではなく、一般化可能な感覚運動マルチタスク ポリシーを学習します。
また、人間が収集したデモンストレーションから学習する場合、PLEX のトランスフォーマーで相対位置エンコーディングを使用すると、データ効率がさらに向上することも示しています。
実験では、Meta-World-v2 ベンチマークで \appr の一般化を示し、困難な Robosuite 環境で最先端のパフォーマンスを確立します。

要約(オリジナル)

A rich representation is key to general robotic manipulation, but existing model architectures require a lot of data to learn it. Unfortunately, ideal robotic manipulation training data, which comes in the form of expert visuomotor demonstrations for a variety of annotated tasks, is scarce. In this work we propose PLEX, a transformer-based architecture that learns from task-agnostic visuomotor trajectories accompanied by a much larger amount of task-conditioned object manipulation videos — a type of robotics-relevant data available in quantity. The key insight behind PLEX is that the trajectories with observations and actions help induce a latent feature space and train a robot to execute task-agnostic manipulation routines, while a diverse set of video-only demonstrations can efficiently teach the robot how to plan in this feature space for a wide variety of tasks. In contrast to most works on robotic manipulation pretraining, PLEX learns a generalizable sensorimotor multi-task policy, not just an observational representation. We also show that using relative positional encoding in PLEX’s transformers further increases its data efficiency when learning from human-collected demonstrations. Experiments showcase \appr’s generalization on Meta-World-v2 benchmark and establish state-of-the-art performance in challenging Robosuite environments.

arxiv情報

著者 Garrett Thomas,Ching-An Cheng,Ricky Loynd,Vibhav Vineet,Mihai Jalobeanu,Andrey Kolobov
発行日 2023-03-15 17:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク