要約
ロバストで識別可能な外観モデルの開発は、視覚物体追跡における長年の研究課題である。一般的なシャムに基づくパラダイムでは、シャム様ネットワークによって抽出される特徴は、追跡されるターゲットと注意散漫な物体をモデル化するには不十分であることが多く、ロバスト性と識別性を同時に実現する妨げとなっている。ほとんどのシャムトラッカーがロバストな相関演算の設計に焦点を当てているのに対し、我々は変換器に着想を得た新しい単一分岐追跡フレームワークを提案する。シャムのような特徴抽出とは異なり、我々の追跡器は、特徴ネットワークの多層に交差画像の特徴相関を深く埋め込む。多層を通して2つの画像の特徴を広範囲に照合することで、非ターゲットの特徴を抑制し、ターゲットを意識した特徴抽出を実現する。出力された特徴量は、追加の相関ステップなしに、ターゲット位置の予測に直接使用することができる。このように、我々は2分岐シャム追跡を、SBTと呼ばれる、概念的にシンプルで、完全に変換器ベースの単一分岐追跡パイプラインとして再定式化します。SBTベースラインの詳細な分析を行った後、多くの効果的な設計原理を要約し、SuperSBTと呼ばれる改良型トラッカーを提案する。SuperSBTは、浅いレベルの特徴を強化するために、ローカルモデリング層を持つ階層アーキテクチャを採用する。複雑な手作りのレイヤーパターン設計を除去するために、統一された関係モデリングが提案される。SuperSBTは、マスク画像モデリングの事前学習、時間モデリングの統合、専用予測ヘッドの装備によってさらに改善される。したがって、SuperSBTは、LaSOT、TrackingNet、GOT-10Kにおいて、SBTベースラインを4.7%、3.0%、4.5%のAUCスコアで上回る。特筆すべきは、SuperSBTはSBTの速度を37 FPSから81 FPSに大幅に向上させたことである。広範な実験により、我々の手法が8つのVOTベンチマークで優れた結果を達成することが示された。
要約(オリジナル)
Developing robust and discriminative appearance models has been a long-standing research challenge in visual object tracking. In the prevalent Siamese-based paradigm, the features extracted by the Siamese-like networks are often insufficient to model the tracked targets and distractor objects, thereby hindering them from being robust and discriminative simultaneously. While most Siamese trackers focus on designing robust correlation operations, we propose a novel single-branch tracking framework inspired by the transformer. Unlike the Siamese-like feature extraction, our tracker deeply embeds cross-image feature correlation in multiple layers of the feature network. By extensively matching the features of the two images through multiple layers, it can suppress non-target features, resulting in target-aware feature extraction. The output features can be directly used for predicting target locations without additional correlation steps. Thus, we reformulate the two-branch Siamese tracking as a conceptually simple, fully transformer-based Single-Branch Tracking pipeline, dubbed SBT. After conducting an in-depth analysis of the SBT baseline, we summarize many effective design principles and propose an improved tracker dubbed SuperSBT. SuperSBT adopts a hierarchical architecture with a local modeling layer to enhance shallow-level features. A unified relation modeling is proposed to remove complex handcrafted layer pattern designs. SuperSBT is further improved by masked image modeling pre-training, integrating temporal modeling, and equipping with dedicated prediction heads. Thus, SuperSBT outperforms the SBT baseline by 4.7%,3.0%, and 4.5% AUC scores in LaSOT, TrackingNet, and GOT-10K. Notably, SuperSBT greatly raises the speed of SBT from 37 FPS to 81 FPS. Extensive experiments show that our method achieves superior results on eight VOT benchmarks.
arxiv情報
著者 | Fei Xie,Wankou Yang,Chunyu Wang,Lei Chu,Yue Cao,Chao Ma,Wenjun Zeng |
発行日 | 2024-09-03 06:13:37+00:00 |
arxivサイト | arxiv_id(pdf) |