ODTrack: Online Dense Temporal Token Learning for Visual Tracking

要約

連続するビデオフレーム間のオンライン文脈推論と関連付けは、視覚的追跡におけるインスタンスを知覚するために重要である。しかし、現在トップクラスのトラッカーは、オフラインモードにより、参照フレームと検索フレーム間の疎な時間的関係に依存している。その結果、各画像ペア内で独立して相互作用することしかできず、限られた時間的相関しか確立することができない。上記の問題を軽減するために、我々はシンプルで柔軟かつ効果的なビデオレベルトラッキングパイプラインを提案する。ODTrackは、インスタンスの時空間的な軌跡関係をキャプチャするために、任意の長さのビデオフレームを受信し、フレーム間の関連付けを達成するために、ターゲットの識別特徴(ローカライゼーション情報)をトークン列に圧縮します。この新しいソリューションは以下の利点をもたらす:1) 純粋化されたトークン列は、次のビデオフレームにおける推論のプロンプトとして機能し、これにより過去の情報が将来の推論を導くために活用される。ODTrackは、7つのベンチマークにおいて、リアルタイム速度で動作しながら、新しい୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛性能を達成しました。コードとモデルは ∕URL{https://github.com/GXNU-ZhongLab/ODTrack} にあります。

要約(オリジナル)

Online contextual reasoning and association across consecutive video frames are critical to perceive instances in visual tracking. However, most current top-performing trackers persistently lean on sparse temporal relationships between reference and search frames via an offline mode. Consequently, they can only interact independently within each image-pair and establish limited temporal correlations. To alleviate the above problem, we propose a simple, flexible and effective video-level tracking pipeline, named \textbf{ODTrack}, which densely associates the contextual relationships of video frames in an online token propagation manner. ODTrack receives video frames of arbitrary length to capture the spatio-temporal trajectory relationships of an instance, and compresses the discrimination features (localization information) of a target into a token sequence to achieve frame-to-frame association. This new solution brings the following benefits: 1) the purified token sequences can serve as prompts for the inference in the next video frame, whereby past information is leveraged to guide future inference; 2) the complex online update strategies are effectively avoided by the iterative propagation of token sequences, and thus we can achieve more efficient model representation and computation. ODTrack achieves a new \textit{SOTA} performance on seven benchmarks, while running at real-time speed. Code and models are available at \url{https://github.com/GXNU-ZhongLab/ODTrack}.

arxiv情報

著者 Yaozong Zheng,Bineng Zhong,Qihua Liang,Zhiyi Mo,Shengping Zhang,Xianxian Li
発行日 2024-01-03 11:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク