Video Transformers under Occlusion: How Physics and Background Attributes Impact Large Models for Robotic Manipulation

要約

トランスフォーマーアーキテクチャとデータセットのサイズが拡大し続ける中、モデルの性能に影響を与える特定のデータセット要因を理解する必要性がますます高まっている。本稿では、オクルージョン下の軌跡予測タスクにおいて、オブジェクトの物理属性(色、摩擦係数、形状)と背景特性(静的、動的、背景の複雑さ)が、ビデオトランスフォーマーの性能にどのように影響するかを調査する。単なるオクルージョンの課題を超えて、本研究では3つの疑問を調査することを目的とする:物体物理属性と背景特性はモデルの性能にどのように影響するか?どのような属性がモデルの汎化に最も影響するのか?一つのタスクの中で、大きな変形モデルの性能のデータ飽和点はあるのか?この研究を促進するために、我々はOccluManipを提示する。OccluManipは、異なる物理と様々な背景を持つ物体の46万個の一貫した記録からなる、実世界のビデオベースのロボット押し付けデータセットである。1.4TB、合計1278時間の高画質動画が、ターゲット物体の軌跡と共に、柔軟な時間的長さで収集されており、異なる時間的要件を持つタスクに対応している。さらに、OccluManipで提供される18のサブデータセット全てにおいて平均96%の精度を達成する汎用的なビデオ変換ベースのネットワークであるVideo Occlusion Transformer (VOT)を提案する。OccluManipとVOTはhttps://github.com/ShutongJIN/OccluManip.git。

要約(オリジナル)

As transformer architectures and dataset sizes continue to scale, the need to understand the specific dataset factors affecting model performance becomes increasingly urgent. This paper investigates how object physics attributes (color, friction coefficient, shape) and background characteristics (static, dynamic, background complexity) influence the performance of Video Transformers in trajectory prediction tasks under occlusion. Beyond mere occlusion challenges, this study aims to investigate three questions: How do object physics attributes and background characteristics influence the model performance? What kinds of attributes are most influential to the model generalization? Is there a data saturation point for large transformer model performance within a single task? To facilitate this research, we present OccluManip, a real-world video-based robot pushing dataset comprising 460,000 consistent recordings of objects with different physics and varying backgrounds. 1.4 TB and in total 1278 hours of high-quality videos of flexible temporal length along with target object trajectories are collected, accommodating tasks with different temporal requirements. Additionally, we propose Video Occlusion Transformer (VOT), a generic video-transformer-based network achieving an average 96% accuracy across all 18 sub-datasets provided in OccluManip. OccluManip and VOT will be released at: https://github.com/ShutongJIN/OccluManip.git

arxiv情報

著者 Shutong Jin,Ruiyu Wang,Muhammad Zahid,Florian T. Pokorny
発行日 2023-10-03 13:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク