DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

要約

私たちは DINO-Tracker を紹介します — ビデオにおける長期の高密度追跡のための新しいフレームワークです。
私たちのアプローチの柱は、単一のビデオでのテスト時のトレーニングと、事前トレーニングされた DINO-ViT モデルによって学習された強力なローカライズされたセマンティック機能を組み合わせることです。
具体的には、私たちのフレームワークは、テストビデオの動きの観察に適合するように DINO の機能を同時に採用し、同時に洗練された機能を直接活用するトラッカーをトレーニングします。
フレームワーク全体は、自己教師あり損失と、DINO の事前セマンティクスを保持し、その恩恵を受けることを可能にする正則化の組み合わせを使用して、エンドツーエンドでトレーニングされます。
広範な評価により、私たちの方法が既知のベンチマークで最先端の結果を達成できることが実証されました。
DINO トラッカーは自己教師あり手法を大幅に上回り、最先端の教師ありトラッカーと競合する一方、長期間の閉塞下での追跡という困難なケースでも優れたパフォーマンスを発揮します。

要約(オリジナル)

We present DINO-Tracker — a new framework for long-term dense tracking in video. The pillar of our approach is combining test-time training on a single video, with the powerful localized semantic features learned by a pre-trained DINO-ViT model. Specifically, our framework simultaneously adopts DINO’s features to fit to the motion observations of the test video, while training a tracker that directly leverages the refined features. The entire framework is trained end-to-end using a combination of self-supervised losses, and regularization that allows us to retain and benefit from DINO’s semantic prior. Extensive evaluation demonstrates that our method achieves state-of-the-art results on known benchmarks. DINO-tracker significantly outperforms self-supervised methods and is competitive with state-of-the-art supervised trackers, while outperforming them in challenging cases of tracking under long-term occlusions.

arxiv情報

著者 Narek Tumanyan,Assaf Singer,Shai Bagon,Tali Dekel
発行日 2024-03-21 16:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク