BootsTAP: Bootstrapped Training for Tracking-Any-Point

要約

モデルに物理学と動作をより深く理解させるには、実際のシーンで固体表面がどのように動き、変形するかをモデルが認識できるようにすると役立ちます。
これは、Tracking-Any-Point (TAP) として形式化できます。これには、アルゴリズムが、ビデオ内の固体表面に対応する任意の点を、場合によっては時空間的に高密度で追跡できる必要があります。
TAP の大規模なグラウンドトゥルース トレーニング データはシミュレーションでのみ利用可能であり、現時点ではオブジェクトやモーションの種類が限られています。
この研究では、自己教師付きの学生と教師のセットアップを使用して、大規模でラベルがなく、キュレーションされていない現実世界のデータが、アーキテクチャの変更を最小限に抑えながら TAP モデルをどのように改善できるかを示します。
TAP-Vid ベンチマークでは、以前の結果を大幅に上回る最先端のパフォーマンスを実証しました。たとえば、TAP-Vid-DAVIS のパフォーマンスは 61.3% から 66.4% に、TAP-Vid-Kinetics のパフォーマンスは 57.2% から向上しました。
61.5%まで。

要約(オリジナル)

To endow models with greater understanding of physics and motion, it is useful to enable them to perceive how solid surfaces move and deform in real scenes. This can be formalized as Tracking-Any-Point (TAP), which requires the algorithm to be able to track any point corresponding to a solid surface in a video, potentially densely in space and time. Large-scale ground-truth training data for TAP is only available in simulation, which currently has limited variety of objects and motion. In this work, we demonstrate how large-scale, unlabeled, uncurated real-world data can improve a TAP model with minimal architectural changes, using a self-supervised student-teacher setup. We demonstrate state-of-the-art performance on the TAP-Vid benchmark surpassing previous results by a wide margin: for example, TAP-Vid-DAVIS performance improves from 61.3% to 66.4%, and TAP-Vid-Kinetics from 57.2% to 61.5%.

arxiv情報

著者 Carl Doersch,Yi Yang,Dilara Gokay,Pauline Luc,Skanda Koppula,Ankush Gupta,Joseph Heyward,Ross Goroshin,João Carreira,Andrew Zisserman
発行日 2024-02-01 18:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.ML パーマリンク