要約
この論文では、外観、照明、視点、および閉塞の変化にもかかわらず、ビデオ内の複数のフレームにわたってポイントを一貫した識別する必要がある長期ポイント追跡の問題を検討します。
フレームごとのフレームベースでオンライン追跡をターゲットにしているため、実際のストリーミングシナリオに適しています。
具体的には、オンラインの長期ポイント追跡用に設計されたシンプルな変圧器ベースのモデルであるTrack-Onを紹介します。
完全な時間モデリングに依存する以前の方法とは異なり、モデルは、将来のフレームにアクセスすることなくビデオフレームを因果的に処理し、2つのメモリモジュール(空間メモリとコンテキストメモリ)を活用して、時間情報をキャプチャし、長時間の視野にわたって信頼できるポイント追跡を維持します。
推論時に、パッチ分類と改良を使用して、通信を識別し、高精度でポイントを追跡します。
広範な実験を通じて、Track-onがオンラインモデル用の新しい最先端の最先端を設定し、TAP-VIDベンチマークを含む7つのデータセットのオフラインアプローチと比較して、優れたまたは競争力のある結果を提供することを実証します。
私たちの方法は、多様なアプリケーションでのリアルタイム追跡のための堅牢でスケーラブルなソリューションを提供します。
プロジェクトページ:https://kuis-ai.github.io/track_on
要約(オリジナル)
In this paper, we consider the problem of long-term point tracking, which requires consistent identification of points across multiple frames in a video, despite changes in appearance, lighting, perspective, and occlusions. We target online tracking on a frame-by-frame basis, making it suitable for real-world, streaming scenarios. Specifically, we introduce Track-On, a simple transformer-based model designed for online long-term point tracking. Unlike prior methods that depend on full temporal modeling, our model processes video frames causally without access to future frames, leveraging two memory modules — spatial memory and context memory — to capture temporal information and maintain reliable point tracking over long time horizons. At inference time, it employs patch classification and refinement to identify correspondences and track points with high accuracy. Through extensive experiments, we demonstrate that Track-On sets a new state-of-the-art for online models and delivers superior or competitive results compared to offline approaches on seven datasets, including the TAP-Vid benchmark. Our method offers a robust and scalable solution for real-time tracking in diverse applications. Project page: https://kuis-ai.github.io/track_on
arxiv情報
著者 | Görkay Aydemir,Xiongyi Cai,Weidi Xie,Fatma Güney |
発行日 | 2025-01-30 17:04:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google