Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

要約

視覚表現の事前トレーニングにより、ロボットの学習効率が向上しました。
大規模なドメイン内のロボット データセットが不足しているため、これまでの研究では、ロボットの視覚表現を事前にトレーニングするために野生の人間のビデオを利用していました。
有望な結果にもかかわらず、人間のビデオからの表現は必然的に分布の変化の影響を受けやすく、タスクの完了に不可欠なダイナミクス情報が不足しています。
まず、下流のロボット操作タスクとの相関関係 (つまり、操作中心性) の観点から、さまざまな事前トレーニング済み表現を評価します。
興味深いことに、「操作中心性」が下流タスクに適用された場合、成功率の強力な指標となることがわかりました。
これらの発見に基づいて、我々は、操作中心性を改善するために、視覚的特徴と、操作タスクの動作や固有受容などのダイナミクス情報の両方をキャプチャする基礎表現学習フレームワークである操作中心表現(MCR)を提案します。
具体的には、DROID ロボット データセットでビジュアル エンコーダーを事前トレーニングし、ロボットの固有受容状態や動作などのモーション関連データを活用します。
我々は、視覚的観察をロボットの固有受容状態行動ダイナミクスと一致させる新しい対照的損失を導入し、事前トレーニング中の行動を予測するための行動クローニング(BC)のようなアクター損失と、時間対比的損失を組み合わせます。
20 のタスクを含む 4 つのシミュレーション ドメインにわたる実験結果では、MCR が最も強力なベースライン手法を 14.8% 上回るパフォーマンスを示していることが確認されています。
さらに、MCR は、3 つの現実世界のタスクに対する UR5e アームを使用したデータ効率の高い学習のパフォーマンスを 76.9% 向上させます。
プロジェクトの Web サイト: https://robots-pretrain-robots.github.io/。

要約(オリジナル)

The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the ‘manipulation centricity’ is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot’s proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.

arxiv情報

著者 Guangqi Jiang,Yifei Sun,Tao Huang,Huanyu Li,Yongyuan Liang,Huazhe Xu
発行日 2024-10-30 03:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク