How Physics and Background Attributes Impact Video Transformers in Robotic Manipulation: A Case Study on Planar Pushing

要約

ロボット学習においてモデルとデータセットのサイズが拡大し続けるにつれて、費用対効果の高いデータ収集とモデルのパフォーマンスを確保するために、データセットの構成とプロパティがモデルのパフォーマンスにどのように影響するかを理解する必要性がますます高まっています。
この研究では、物理属性 (色、摩擦係数、形状) と、背景オブジェクトとの相互作用の複雑さやダイナミクスなどのシーンの背景特性が、平面のプッシュ軌道を予測する際の Video Transformer のパフォーマンスにどのように影響するかを実証的に調査します。
私たちは 3 つの主要な質問を調査します: 物理属性と背景シーンの特性はモデルのパフォーマンスにどのように影響しますか?
属性のどのような変更がモデルの一般化に最も悪影響を及ぼしますか?
モデルを新しいシナリオに適応させるには、どの程度の微調整データが必要ですか?
この研究を促進するために、我々は CloudGripper-Push-1K を紹介します。これは、異なる物理学と背景属性を持つオブジェクトとの平面押しの相互作用の 1278 時間と 460,000 のビデオで構成される、大規模な現実世界のビジョンベースのロボット押しデータセットです。
また、ビデオ オクルージョン トランスフォーマー (VOT) も提案します。これは、ケーススタディの対象として 3 つの 2D 空間エンコーダーの選択肢を特徴とする、汎用モジュール式ビデオ トランスフォーマー ベースの軌道予測フレームワークです。
データセットとソース コードは https://cloudgripper.org で入手できます。

要約(オリジナル)

As model and dataset sizes continue to scale in robot learning, the need to understand how the composition and properties of a dataset affect model performance becomes increasingly urgent to ensure cost-effective data collection and model performance. In this work, we empirically investigate how physics attributes (color, friction coefficient, shape) and scene background characteristics, such as the complexity and dynamics of interactions with background objects, influence the performance of Video Transformers in predicting planar pushing trajectories. We investigate three primary questions: How do physics attributes and background scene characteristics influence model performance? What kind of changes in attributes are most detrimental to model generalization? What proportion of fine-tuning data is required to adapt models to novel scenarios? To facilitate this research, we present CloudGripper-Push-1K, a large real-world vision-based robot pushing dataset comprising 1278 hours and 460,000 videos of planar pushing interactions with objects with different physics and background attributes. We also propose Video Occlusion Transformer (VOT), a generic modular video-transformer-based trajectory prediction framework which features 3 choices of 2D-spatial encoders as the subject of our case study. The dataset and source code are available at https://cloudgripper.org.

arxiv情報

著者 Shutong Jin,Ruiyu Wang,Muhammad Zahid,Florian T. Pokorny
発行日 2024-08-28 09:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク