Self-Supervised Any-Point Tracking by Contrastive Random Walks

要約

我々は、Tracking Any Point (TAP) 問題に対するシンプルな自己教師型アプローチを提案します。
時空間グラフ上のランダム ウォークの遷移行列を定義するトランスフォーマーの注意ベースのグローバル マッチングを使用して、コントラスト ランダム ウォークを介してビデオを通じてサイクル一貫性のあるトラックを見つけるようにグローバル マッチング トランスフォーマーをトレーニングします。
ポイント間の「すべてのペア」比較を実行できる機能により、モデルは高い空間精度を取得し、強力な対照的な学習信号を取得できると同時に、最近のアプローチの複雑さの多く (粗いものから細かいものへのマッチングなど) を回避できます。
これを行うために、サイクルの一貫性を使用した自己監視を通じてグローバル マッチング アーキテクチャをトレーニングできるようにする、いくつかの設計上の決定を提案します。
たとえば、トランスフォーマーベースの手法はショートカット ソリューションの影響を受けやすいことを特定し、それらに対処するためのデータ拡張スキームを提案します。
私たちの手法は、TapVid ベンチマークで優れたパフォーマンスを達成し、DIFT などの以前の自己教師あり追跡手法を上回り、いくつかの教師あり手法と競合します。

要約(オリジナル)

We present a simple, self-supervised approach to the Tracking Any Point (TAP) problem. We train a global matching transformer to find cycle consistent tracks through video via contrastive random walks, using the transformer’s attention-based global matching to define the transition matrices for a random walk on a space-time graph. The ability to perform ‘all pairs’ comparisons between points allows the model to obtain high spatial precision and to obtain a strong contrastive learning signal, while avoiding many of the complexities of recent approaches (such as coarse-to-fine matching). To do this, we propose a number of design decisions that allow global matching architectures to be trained through self-supervision using cycle consistency. For example, we identify that transformer-based methods are sensitive to shortcut solutions, and propose a data augmentation scheme to address them. Our method achieves strong performance on the TapVid benchmarks, outperforming previous self-supervised tracking methods, such as DIFT, and is competitive with several supervised methods.

arxiv情報

著者 Ayush Shrivastava,Andrew Owens
発行日 2024-09-24 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク