PLEX: Making the Most of the Available Data for Robotic Manipulation Pretraining

要約

豊かな表現は一般的なロボット操作の鍵となりますが、表現学習への既存のアプローチでは大量のマルチモーダルなデモンストレーションが必要です。
この研究では、少量のタスクに依存しない視覚運動軌道と、はるかに大量のタスク条件付きオブジェクト操作ビデオ (量的に利用可能なデータの一種) から学習するトランスフォーマー ベースのアーキテクチャである PLEX を提案します。
PLEX は、視覚運動軌道を使用して潜在特徴空間を誘導し、タスクに依存しない操作ルーチンを学習します。一方、さまざまなビデオのみのデモンストレーションは、誘導された潜在特徴空間でさまざまなタスクを計画する方法を PLEX に教えます。
実験では、困難なロボスイート環境におけるメタワールドと SOTA のパフォーマンスに関する PLEX の一般化を示します。
特に、PLEX のトランスフォーマーで相対位置エンコーディングを使用することは、人間が収集したデモンストレーションから学習する低データ領域で非常に役立ちます。
この論文に付随するコードとデータは、https://microsoft.github.io/PLEX で入手できます。

要約(オリジナル)

A rich representation is key to general robotic manipulation, but existing approaches to representation learning require large amounts of multimodal demonstrations. In this work we propose PLEX, a transformer-based architecture that learns from a small amount of task-agnostic visuomotor trajectories and a much larger amount of task-conditioned object manipulation videos — a type of data available in quantity. PLEX uses visuomotor trajectories to induce a latent feature space and to learn task-agnostic manipulation routines, while diverse video-only demonstrations teach PLEX how to plan in the induced latent feature space for a wide variety of tasks. Experiments showcase PLEX’s generalization on Meta-World and SOTA performance in challenging Robosuite environments. In particular, using relative positional encoding in PLEX’s transformers greatly helps in low-data regimes of learning from human-collected demonstrations. The paper’s accompanying code and data are available at https://microsoft.github.io/PLEX.

arxiv情報

著者 Garrett Thomas,Ching-An Cheng,Ricky Loynd,Felipe Vieira Frujeri,Vibhav Vineet,Mihai Jalobeanu,Andrey Kolobov
発行日 2023-11-08 22:32:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク