Learning Spatial-Frequency Transformer for Visual Object Tracking

要約

最近のトラッカーは、Transformer を採用して、広く使用されている ResNet を新しいバックボーン ネットワークとして組み合わせたり、置き換えたりしています。
彼らのトラッカーは通常のシナリオではうまく機能しますが、単純に 2D フィーチャをシーケンスにフラット化して、Transformer により適合させるだけです。
これらの操作はターゲット オブジェクトの空間事前分布を無視するため、次善の結果しか得られないと考えています。
さらに、自己注意は実際にはローパス フィルターであり、入力機能やキー/クエリとは無関係であることを多くの研究が示しています。
つまり、入力フィーチャの高周波成分を抑制し、低周波情報を保存または増幅することさえできます。
これらの問題を処理するために、この論文では、ガウス空間事前および高周波数強調注意 (GPHA) を同時にモデル化する統合空間周波数変換器を提案します。
具体的には、ガウス空間事前分布は、デュアル マルチレイヤー パーセプトロン (MLP) を使用して生成され、セルフアテンションでクエリとキーの特徴を掛け合わせて生成された類似度マトリックスに注入されます。
出力はSoftmaxレイヤーに供給され、2つのコンポーネント、つまり直接信号と高周波信号に分解されます。
ローパスとハイパスのブランチは再スケーリングされ、オールパスを実現するために結合されます。したがって、高周波数の機能は積み重ねられたセルフアテンション レイヤーで十分に保護されます。
さらに、空間周波数変換器をシャム追跡フレームワークに統合し、SFTransT と呼ばれる新しい追跡アルゴリズムを提案します。
クロススケール フュージョン ベースの SwinTransformer がバックボーンとして採用され、マルチヘッド クロスアテンション モジュールが検索とテンプレート機能間の相互作用を強化するために使用されます。
出力は、ターゲットのローカリゼーションのためにトラッキング ヘッドに供給されます。
短期および長期の両方の追跡ベンチマークに関する広範な実験はすべて、提案されたフレームワークの有効性を示しています。

要約(オリジナル)

Recent trackers adopt the Transformer to combine or replace the widely used ResNet as their new backbone network. Although their trackers work well in regular scenarios, however, they simply flatten the 2D features into a sequence to better match the Transformer. We believe these operations ignore the spatial prior of the target object which may lead to sub-optimal results only. In addition, many works demonstrate that self-attention is actually a low-pass filter, which is independent of input features or key/queries. That is to say, it may suppress the high-frequency component of the input features and preserve or even amplify the low-frequency information. To handle these issues, in this paper, we propose a unified Spatial-Frequency Transformer that models the Gaussian spatial Prior and High-frequency emphasis Attention (GPHA) simultaneously. To be specific, Gaussian spatial prior is generated using dual Multi-Layer Perceptrons (MLPs) and injected into the similarity matrix produced by multiplying Query and Key features in self-attention. The output will be fed into a Softmax layer and then decomposed into two components, i.e., the direct signal and high-frequency signal. The low- and high-pass branches are rescaled and combined to achieve all-pass, therefore, the high-frequency features will be protected well in stacked self-attention layers. We further integrate the Spatial-Frequency Transformer into the Siamese tracking framework and propose a novel tracking algorithm, termed SFTransT. The cross-scale fusion based SwinTransformer is adopted as the backbone, and also a multi-head cross-attention module is used to boost the interaction between search and template features. The output will be fed into the tracking head for target localization. Extensive experiments on both short-term and long-term tracking benchmarks all demonstrate the effectiveness of our proposed framework.

arxiv情報

著者 Chuanming Tang,Xiao Wang,Yuanchao Bai,Zhe Wu,Jianlin Zhang,Yongmei Huang
発行日 2022-08-18 13:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク