要約
豊かな表現は一般的なロボット操作の鍵となりますが、表現学習への既存のアプローチでは大量のマルチモーダルなデモンストレーションが必要です。
この研究では、少量のタスクに依存しない視覚運動軌道と、はるかに大量のタスク条件付きオブジェクト操作ビデオ (量的に利用可能なデータの一種) から学習するトランスフォーマー ベースのアーキテクチャである PLEX を提案します。
PLEX は、視覚運動軌道を使用して潜在特徴空間を誘導し、タスクに依存しない操作ルーチンを学習します。一方、さまざまなビデオのみのデモンストレーションは、誘導された潜在特徴空間でさまざまなタスクを計画する方法を PLEX に教えます。
実験では、困難なロボスイート環境におけるメタワールドと SOTA のパフォーマンスに関する PLEX の一般化を示します。
特に、PLEX のトランスフォーマーで相対位置エンコーディングを使用することは、人間が収集したデモンストレーションから学習する低データ領域で非常に役立ちます。
この論文に付随するコードとデータは、https://microsoft.github.io/PLEX で入手できます。
要約(オリジナル)
A rich representation is key to general robotic manipulation, but existing approaches to representation learning require large amounts of multimodal demonstrations. In this work we propose PLEX, a transformer-based architecture that learns from a small amount of task-agnostic visuomotor trajectories and a much larger amount of task-conditioned object manipulation videos — a type of data available in quantity. PLEX uses visuomotor trajectories to induce a latent feature space and to learn task-agnostic manipulation routines, while diverse video-only demonstrations teach PLEX how to plan in the induced latent feature space for a wide variety of tasks. Experiments showcase PLEX’s generalization on Meta-World and SOTA performance in challenging Robosuite environments. In particular, using relative positional encoding in PLEX’s transformers greatly helps in low-data regimes of learning from human-collected demonstrations. The paper’s accompanying code and data are available at https://microsoft.github.io/PLEX.
arxiv情報
著者 | Garrett Thomas,Ching-An Cheng,Ricky Loynd,Felipe Vieira Frujeri,Vibhav Vineet,Mihai Jalobeanu,Andrey Kolobov |
発行日 | 2023-11-08 22:32:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google