Spatiotemporal Predictive Pre-training for Robotic Motor Control

要約

ロボット モーター制御には、環境と相互作用オブジェクトのダイナミクスを予測する機能が必要です。
ただし、大規模な自己中心ビデオを活用した、ロボット モーター制御における高度な自己監視型事前トレーニング済み視覚表現 (PVR) は、多くの場合、サンプリングされた画像フレームの静的コンテンツの特徴を学習することだけに焦点を当てています。
これでは、環境や物体との逐次的な相互作用や操作に関する重要な知識が暗黙のうちに含まれている、人間のビデオ データに含まれる重要な時間的動きの手がかりが無視されます。
この論文では、\textbf{STP} と呼ばれる、大規模なビデオ データを利用してデュアル デコーダと共同で時空間予測を実行する、シンプルかつ効果的なロボット モーター制御の視覚的事前トレーニング フレームワークを紹介します。
STP は、マルチタスク学習方式で 2 つの主要な設計を遵守しています。
まず、コンテンツの特徴を学習するために、マスクされた現在のフレームに対して空間予測を実行します。
第二に、マスクされた現在フレームに基づいて、マスク率が非常に高い将来フレームを条件として利用し、動き特徴を捕捉するための将来フレームの時間予測を行う。
この非対称マスキングおよびデコーダ アーキテクチャの設計は非常に効率的であり、空間の詳細をキャプチャしながらモーション情報に焦点を当てた表現を保証します。
当社は、ロボット モーター制御用の PVR のこれまでで最大規模の BC 評価を実行します。これには、現実世界の Franka ロボット アームと 5 つのシミュレート環境内の 21 のタスクが含まれます。
広範な実験により、STP の有効性が実証されるとともに、さらなるポストプレトレーニングとハイブリッドプレトレーニングによって STP の汎用性とデータ効率が解き放たれます。
私たちのコードと重みは、さらなるアプリケーションのためにリリースされる予定です。

要約(オリジナル)

Robotic motor control necessitates the ability to predict the dynamics of environments and interaction objects. However, advanced self-supervised pre-trained visual representations (PVRs) in robotic motor control, leveraging large-scale egocentric videos, often focus solely on learning the static content features of sampled image frames. This neglects the crucial temporal motion clues in human video data, which implicitly contain key knowledge about sequential interacting and manipulating with the environments and objects. In this paper, we present a simple yet effective robotic motor control visual pre-training framework that jointly performs spatiotemporal prediction with dual decoders, utilizing large-scale video data, termed as \textbf{STP}. STP adheres to two key designs in a multi-task learning manner. First, we perform spatial prediction on the masked current frame for learning content features. Second, we utilize the future frame with an extremely high masking ratio as a condition, based on the masked current frame, to conduct temporal prediction of future frame for capturing motion features. This asymmetric masking and decoder architecture design is very efficient, ensuring that our representation focusing on motion information while capturing spatial details. We carry out the largest-scale BC evaluation of PVRs for robotic motor control to date, which encompasses 21 tasks within a real-world Franka robot arm and 5 simulated environments. Extensive experiments demonstrate the effectiveness of STP as well as unleash its generality and data efficiency by further post-pre-training and hybrid pre-training. Our code and weights will be released for further applications.

arxiv情報

著者 Jiange Yang,Bei Liu,Jianlong Fu,Bocheng Pan,Gangshan Wu,Limin Wang
発行日 2024-05-27 13:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク