Correlation-Embedded Transformer Tracking: A Single-Branch Framework

要約

堅牢で識別力のある外観モデルを開発することは、視覚オブジェクト追跡における長年の研究課題でした。
普及しているシャムベースのパラダイムでは、シャムのようなネットワークによって抽出された特徴は、追跡対象やディストラクタオブジェクトをモデル化するには不十分であることが多く、そのため、堅牢性と識別性を同時に高めることが妨げられます。
ほとんどの Siamese トラッカーは堅牢な相関演算の設計に重点を置いていますが、私たちはトランスフォーマーにヒントを得た新しい単一ブランチ追跡フレームワークを提案します。
シャムのような特徴抽出とは異なり、私たちのトラッカーは、画像間の特徴相関を特徴ネットワークの複数の層に深く埋め込みます。
複数のレイヤーを通じて 2 つの画像の特徴を広範に照合することで、ターゲット以外の特徴を抑制し、ターゲットを意識した特徴抽出を実現します。
出力特徴は、追加の相関ステップを必要とせずに、ターゲットの位置を予測するために直接使用できます。
したがって、2 ブランチのシャム トラッキングを、概念的に単純な、完全にトランスベースの SBT と呼ばれるシングル ブランチ トラッキング パイプラインとして再定式化します。
SBT ベースラインの詳細な分析を行った後、多くの効果的な設計原則を要約し、SuperSBT と呼ばれる改良されたトラッカーを提案します。
SuperSBT は、浅いレベルの機能を強化するためにローカル モデリング層を備えた階層アーキテクチャを採用しています。
複雑な手作りの層パターン設計を除去するために、統合された関係モデリングが提案されています。
SuperSBT は、マスクされた画像モデリングの事前トレーニング、時間モデリングの統合、専用の予測ヘッドの装備によってさらに改良されています。
したがって、SuperSBT は、LaSOT、TrackingNet、および GOT-10K における AUC スコアで SBT ベースラインを 4.7%、3.0%、および 4.5% 上回っています。
特に、SuperSBT は SBT の速度を 37 FPS から 81 FPS に大幅に向上させます。
広範な実験により、私たちの方法が 8 つの VOT ベンチマークで優れた結果を達成することが示されました。

要約(オリジナル)

Developing robust and discriminative appearance models has been a long-standing research challenge in visual object tracking. In the prevalent Siamese-based paradigm, the features extracted by the Siamese-like networks are often insufficient to model the tracked targets and distractor objects, thereby hindering them from being robust and discriminative simultaneously. While most Siamese trackers focus on designing robust correlation operations, we propose a novel single-branch tracking framework inspired by the transformer. Unlike the Siamese-like feature extraction, our tracker deeply embeds cross-image feature correlation in multiple layers of the feature network. By extensively matching the features of the two images through multiple layers, it can suppress non-target features, resulting in target-aware feature extraction. The output features can be directly used for predicting target locations without additional correlation steps. Thus, we reformulate the two-branch Siamese tracking as a conceptually simple, fully transformer-based Single-Branch Tracking pipeline, dubbed SBT. After conducting an in-depth analysis of the SBT baseline, we summarize many effective design principles and propose an improved tracker dubbed SuperSBT. SuperSBT adopts a hierarchical architecture with a local modeling layer to enhance shallow-level features. A unified relation modeling is proposed to remove complex handcrafted layer pattern designs. SuperSBT is further improved by masked image modeling pre-training, integrating temporal modeling, and equipping with dedicated prediction heads. Thus, SuperSBT outperforms the SBT baseline by 4.7%,3.0%, and 4.5% AUC scores in LaSOT, TrackingNet, and GOT-10K. Notably, SuperSBT greatly raises the speed of SBT from 37 FPS to 81 FPS. Extensive experiments show that our method achieves superior results on eight VOT benchmarks.

arxiv情報

著者 Fei Xie,Wankou Yang,Chunyu Wang,Lei Chu,Yue Cao,Chao Ma,Wenjun Zeng
発行日 2024-01-23 13:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク