Target-Aware Tracking with Long-term Context Attention

要約

ほとんどのディープ トラッカーは依然としてシャム パラダイムのガイダンスに従っており、コンテキスト情報を含まないターゲットのみを含むテンプレートを使用しています。
上記の問題を軽減するために、長期フレームからターゲットとそのコンテキストに対して広範な情報融合を実行し、ターゲットの特徴を強調しながらターゲット相関を計算できる長期コンテキスト注意(LCA)モジュールを提案します。
完全なコンテキスト情報には、ターゲットの位置とターゲット周辺の状態が含まれます。
LCA は、前のフレームからのターゲットの状態を使用して、類似のオブジェクトと複雑な背景の干渉を除外します。これにより、ターゲットを正確に特定し、トラッカーがより高いロバスト性と回帰精度を取得できるようにします。
LCA モジュールを Transformer に組み込むことで、TATrack と呼ばれるターゲット認識バックボーンを備えた強力なオンライン トラッカーを構築します。
さらに、計算負荷を追加することなく、履歴情報の分類信頼度に基づく動的オンライン更新アルゴリズムを提案します。
当社のトラッカーは、LaSOT、TrackingNet、GOT-10k で 71.1\% AUC、89.3\% NP、73.0\% AO という複数のベンチマークで最先端のパフォーマンスを達成しています。
コードとトレーニング済みモデルは、https://github.com/hekaijie123/TATrack で入手できます。

要約(オリジナル)

Most deep trackers still follow the guidance of the siamese paradigms and use a template that contains only the target without any contextual information, which makes it difficult for the tracker to cope with large appearance changes, rapid target movement, and attraction from similar objects. To alleviate the above problem, we propose a long-term context attention (LCA) module that can perform extensive information fusion on the target and its context from long-term frames, and calculate the target correlation while enhancing target features. The complete contextual information contains the location of the target as well as the state around the target. LCA uses the target state from the previous frame to exclude the interference of similar objects and complex backgrounds, thus accurately locating the target and enabling the tracker to obtain higher robustness and regression accuracy. By embedding the LCA module in Transformer, we build a powerful online tracker with a target-aware backbone, termed as TATrack. In addition, we propose a dynamic online update algorithm based on the classification confidence of historical information without additional calculation burden. Our tracker achieves state-of-the-art performance on multiple benchmarks, with 71.1\% AUC, 89.3\% NP, and 73.0\% AO on LaSOT, TrackingNet, and GOT-10k. The code and trained models are available on https://github.com/hekaijie123/TATrack.

arxiv情報

著者 Kaijie He,Canlong Zhang,Sheng Xie,Zhixin Li,Zhiwen Wang
発行日 2023-02-27 14:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク