MixFormer: End-to-End Tracking with Iterative Mixed Attention

要約

ビジュアル オブジェクト トラッキングでは、多くの場合、特徴抽出、ターゲット情報の統合、およびバウンディング ボックス推定の多段階パイプラインが使用されます。
このパイプラインを簡素化し、特徴抽出とターゲット情報統合のプロセスを統合するために、このホワイト ペーパーでは、トランスフォーマーに基づいて構築された、MixFormer と呼ばれるコンパクトな追跡フレームワークを紹介します。
私たちの核となる設計は、注意操作の柔軟性を利用し、特徴抽出とターゲット情報の同時統合のための混合注意モジュール (MAM) を提案することです。
この同期モデリング方式により、ターゲット固有の識別機能を抽出し、ターゲットと検索エリアの間で広範な通信を実行できます。
MAM に基づいて、複数の MAM をスタックし、ローカリゼーション ヘッドを上に配置するだけで、MixFormer トラッカーを構築します。
具体的には、階層型トラッカー MixCvT と非階層型トラッカー MixViT の 2 種類の MixFormer トラッカーをインスタンス化します。
これら 2 つのトラッカーについて、一連の事前トレーニング方法を調査し、MixFormer トラッカーでの教師あり事前トレーニングと自己教師あり事前トレーニングの間の異なる動作を明らかにしました。
また、マスクされた事前トレーニングを MixFormer トラッカーに拡張し、競争力のある TrackMAE 事前トレーニング手法を設計します。
最後に、オンライン追跡中に複数のターゲット テンプレートを処理するために、計算コストを削減するために MAM で非対称アテンション スキームを考案し、高品質のテンプレートを選択するための効果的なスコア予測モジュールを提案します。
当社の MixFormer トラッカーは、LaSOT、TrackingNet、VOT2020、GOT-10k、OTB100、UAV123 を含む 7 つのトラッキング ベンチマークで新しい最先端のパフォーマンスを設定しました。
特に、当社の MixViT-L は、LaSOT で 73.3%、TrackingNet で 86.1%、VOT2020 で 0.584 の EAO、GOT-10k で 75.7% の AO の AUC スコアを達成しています。
コードとトレーニング済みモデルは、https://github.com/MCG-NJU/MixFormer で公開されています。

要約(オリジナル)

Visual object tracking often employs a multi-stage pipeline of feature extraction, target information integration, and bounding box estimation. To simplify this pipeline and unify the process of feature extraction and target information integration, in this paper, we present a compact tracking framework, termed as MixFormer, built upon transformers. Our core design is to utilize the flexibility of attention operations, and propose a Mixed Attention Module (MAM) for simultaneous feature extraction and target information integration. This synchronous modeling scheme allows to extract target-specific discriminative features and perform extensive communication between target and search area. Based on MAM, we build our MixFormer trackers simply by stacking multiple MAMs and placing a localization head on top. Specifically, we instantiate two types of MixFormer trackers, a hierarchical tracker MixCvT, and a non-hierarchical tracker MixViT. For these two trackers, we investigate a series of pre-training methods and uncover the different behaviors between supervised pre-training and self-supervised pre-training in our MixFormer trackers. We also extend the masked pre-training to our MixFormer trackers and design the competitive TrackMAE pre-training technique. Finally, to handle multiple target templates during online tracking, we devise an asymmetric attention scheme in MAM to reduce computational cost, and propose an effective score prediction module to select high-quality templates. Our MixFormer trackers set a new state-of-the-art performance on seven tracking benchmarks, including LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 and UAV123. In particular, our MixViT-L achieves AUC score of 73.3% on LaSOT, 86.1% on TrackingNet, EAO of 0.584 on VOT2020, and AO of 75.7% on GOT-10k. Code and trained models are publicly available at https://github.com/MCG-NJU/MixFormer.

arxiv情報

著者 Yutao Cui,Cheng Jiang,Gangshan Wu,Limin Wang
発行日 2023-02-09 18:15:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク