Video Transformers under Occlusion: How Physics and Background Attributes Impact Large Models for Robotic Manipulation

要約

トランスフォーマーのアーキテクチャとデータセットのサイズが拡大し続けるにつれて、モデルのパフォーマンスに影響を与える特定のデータセット要因を理解する必要性がますます高まっています。
この論文では、オブジェクトの物理属性 (色、摩擦係数、形状) と背景の特性 (静的、動的、背景の複雑さ) が、オクルージョン下の軌道予測タスクにおける Video Transformer のパフォーマンスにどのように影響するかを調査します。
この研究は、単なるオクルージョンの問題を超えて、次の 3 つの質問を調査することを目的としています。オブジェクトの物理属性と背景の特性がモデルのパフォーマンスにどのように影響するか?
モデルの一般化に最も影響を与える属性は何ですか?
単一タスク内で大規模な変圧器モデルのパフォーマンスにデータ飽和点はありますか?
この研究を促進するために、私たちは、異なる物理学とさまざまな背景を持つオブジェクトの 460,000 件の一貫した記録で構成される現実世界のビデオベースのロボット押しデータセットである OccluManip を紹介します。
柔軟な時間長とターゲット オブジェクトの軌跡を備えた 1.4 TB、合計 1278 時間の高品質ビデオが収集され、さまざまな時間要件を持つタスクに対応します。
さらに、OccluManip で提供される 18 のサブデータセットすべてで平均 96% の精度を達成する汎用ビデオ トランスフォーマー ベースのネットワークであるビデオ オクルージョン トランスフォーマー (VOT) を提案します。
OccluManip と VOT は https://github.com/ShutongJIN/OccluManip.git でリリースされます。

要約(オリジナル)

As transformer architectures and dataset sizes continue to scale, the need to understand the specific dataset factors affecting model performance becomes increasingly urgent. This paper investigates how object physics attributes (color, friction coefficient, shape) and background characteristics (static, dynamic, background complexity) influence the performance of Video Transformers in trajectory prediction tasks under occlusion. Beyond mere occlusion challenges, this study aims to investigate three questions: How do object physics attributes and background characteristics influence the model performance? What kinds of attributes are most influential to the model generalization? Is there a data saturation point for large transformer model performance within a single task? To facilitate this research, we present OccluManip, a real-world video-based robot pushing dataset comprising 460,000 consistent recordings of objects with different physics and varying backgrounds. 1.4 TB and in total 1278 hours of high-quality videos of flexible temporal length along with target object trajectories are collected, accommodating tasks with different temporal requirements. Additionally, we propose Video Occlusion Transformer (VOT), a generic video-transformer-based network achieving an average 96% accuracy across all 18 sub-datasets provided in OccluManip. OccluManip and VOT will be released at: https://github.com/ShutongJIN/OccluManip.git

arxiv情報

著者 Shutong Jin,Ruiyu Wang,Muhammad Zahid,Florian T. Pokorny
発行日 2023-10-11 09:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク