MixFormer: End-to-End Tracking with Iterative Mixed Attention

要約

視覚的物体追跡は、多くの場合、特徴抽出、ターゲット情報統合、バウンディングボックス推定という多段階のパイプラインを用いる。このパイプラインを簡略化し、特徴抽出とターゲット情報統合のプロセスを統一するために、本論文では、変換器を用いたMixFormerと呼ばれるコンパクトなトラッキングフレームワークを発表します。我々の設計の核心は、注意操作の柔軟性を活用し、特徴抽出とターゲット情報統合を同時に行う混合注意モジュール(MAM)を提案することである。この同期モデリング方式により、ターゲットに特化した識別特徴の抽出と、ターゲットと探索領域間の広範な通信を行うことができる。MAMに基づき、我々は複数のMAMを積み重ね、その上にローカライズヘッドを配置することで、MixFormerトラッカーを構築する。具体的には、階層型トラッカーMixCvTと非階層型トラッカーMixViTの2種類のMixFormerトラッカーを作成し、MixCvTとMixViTの2種類のMixFormerトラッカーを比較する。この2つのトラッカーについて、一連の事前学習法を調査し、MixFormerトラッカーにおける教師あり事前学習と自己教師あり事前学習の異なる挙動を明らかにする。また、MixFormerトラッカーにマスク付き事前学習を拡張し、競争力のあるTrackMAE事前学習手法を設計する。最後に、オンライントラッキング中に複数のターゲットテンプレートを扱うために、計算コストを削減するためにMAMの非対称的な注意スキームを考案し、高品質なテンプレートを選択するための効果的なスコア予測モジュールを提案する。我々のMixFormerトラッカーは、LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100, UAV123の7つのトラッキングベンチマークにおいて、最新の性能を達成しました。特に、MixViT-Lは、LaSOTで73.3%、TrackingNetで86.1%、VOT2020でEAO 0.584、GOT-10kでAO 75.7%のAUCスコアが得られています。コードと学習済みモデルは、https://github.com/MCG-NJU/MixFormer で公開される予定です。

要約(オリジナル)

Visual object tracking often employs a multi-stage pipeline of feature extraction, target information integration, and bounding box estimation. To simplify this pipeline and unify the process of feature extraction and target information integration, in this paper, we present a compact tracking framework, termed as MixFormer, built upon transformers. Our core design is to utilize the flexibility of attention operations, and propose a Mixed Attention Module (MAM) for simultaneous feature extraction and target information integration. This synchronous modeling scheme allows to extract target-specific discriminative features and perform extensive communication between target and search area. Based on MAM, we build our MixFormer trackers simply by stacking multiple MAMs and placing a localization head on top. Specifically, we instantiate two types of MixFormer trackers, a hierarchical tracker MixCvT, and a non-hierarchical tracker MixViT. For these two trackers, we investigate a series of pre-training methods and uncover the different behaviors between supervised pre-training and self-supervised pre-training in our MixFormer trackers. We also extend the masked pre-training to our MixFormer trackers and design the competitive TrackMAE pre-training technique. Finally, to handle multiple target templates during online tracking, we devise an asymmetric attention scheme in MAM to reduce computational cost, and propose an effective score prediction module to select high-quality templates. Our MixFormer trackers set a new state-of-the-art performance on seven tracking benchmarks, including LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 and UAV123. In particular, our MixViT-L achieves AUC score of 73.3% on LaSOT, 86.1% on TrackingNet, EAO of 0.584 on VOT2020, and AO of 75.7% on GOT-10k. Code and trained models will be made available at https://github.com/MCG-NJU/MixFormer.

arxiv情報

著者 Yutao Cui,Cheng Jiang,Gangshan Wu,Limin Wang
発行日 2023-02-06 14:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク