CoTracker: It is Better to Track Together

要約

長いビデオ シーケンス内の多数の 2D ポイントを追跡するトランスフォーマー ベースのモデルである CoTracker を紹介します。
ポイントを個別に追跡する既存のアプローチとは異なり、CoTracker は依存関係を考慮してポイントを共同で追跡します。
ジョイント トラッキングによりトラッキングの精度と堅牢性が大幅に向上し、CoTracker が遮蔽されたポイントやカメラ ビューの外側のポイントを追跡できるようになることを示します。
また、このクラスのトラッカーには、メモリ効率を大幅に向上させ、CoTracker が 1 つの GPU での推論時に 70,000 ポイントを共同かつ同時に追跡できるようにするトークン プロキシの使用など、いくつかのイノベーションも導入されています。
CoTracker は、短いウィンドウで因果的に動作するオンライン アルゴリズムです。
ただし、展開されたウィンドウをリカレント ネットワークとして利用してトレーニングされており、ポイントが遮られたり、視野から外れたりした場合でも、長期間トラックを維持します。
定量的には、CoTracker は標準的なポイント追跡ベンチマークで以前のトラッカーを大幅に上回っています。

要約(オリジナル)

We introduce CoTracker, a transformer-based model that tracks a large number of 2D points in long video sequences. Differently from most existing approaches that track points independently, CoTracker tracks them jointly, accounting for their dependencies. We show that joint tracking significantly improves tracking accuracy and robustness, and allows CoTracker to track occluded points and points outside of the camera view. We also introduce several innovations for this class of trackers, including using token proxies that significantly improve memory efficiency and allow CoTracker to track 70k points jointly and simultaneously at inference on a single GPU. CoTracker is an online algorithm that operates causally on short windows. However, it is trained utilizing unrolled windows as a recurrent network, maintaining tracks for long periods of time even when points are occluded or leave the field of view. Quantitatively, CoTracker substantially outperforms prior trackers on standard point-tracking benchmarks.

arxiv情報

著者 Nikita Karaev,Ignacio Rocco,Benjamin Graham,Natalia Neverova,Andrea Vedaldi,Christian Rupprecht
発行日 2024-10-01 13:15:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク