要約
単一オブジェクト トラッカーは高度なパフォーマンスを実現していますが、モデルが大規模であるため、リソースが限られたプラットフォームに適用することが困難です。
さらに、既存の軽量トラッカーは、パラメーター、パフォーマンス、フロップ数、FPS の点で 2 ~ 3 ポイントのバランスしか達成できません。
これらの点の間で最適なバランスを達成するために、この論文では LightFC と呼ばれる軽量の全畳み込みシャム トラッカーを提案します。
LightFC は、新しい効率的な相互相関モジュール (ECM) と新しい効率的なレップセンター ヘッド (ERH) を採用して、畳み込み追跡パイプラインの非線形表現力を強化します。
ECM は、融合された特徴の空間的およびチャネル線形融合を実行し、融合された特徴の非線形性を強化するアテンションのようなモジュール設計を採用しています。
さらに、現在の軽量トラッカーの成功要因を参照し、スキップ接続と検索エリア機能の再利用を紹介します。
ERH は、標準センター ヘッドのフィーチャ次元ステージを再パラメータ化し、チャネル アテンションを導入して、主要なフィーチャ フローのボトルネックを最適化します。
包括的な実験により、LightFC がパフォーマンス、パラメーター、フロップ、FPS の間で最適なバランスを達成していることが示されています。
LightFC の精度スコアは、LaSOT と TNL2K で MixFormerV2-S をそれぞれ 3.7 \% と 6.5 \% 上回っていますが、使用するパラメータは 5 分の 1、フロップ数は 4.6 分の 1 です。
さらに、LightFC は CPU 上で MixFormerV2-S よりも 2 倍高速に実行されます。
私たちのコードと生の結果は、https://github.com/LiYunfengLYF/LightFC で見つけることができます。
要約(オリジナル)
Although single object trackers have achieved advanced performance, their large-scale models make it difficult to apply them on the platforms with limited resources. Moreover, existing lightweight trackers only achieve balance between 2-3 points in terms of parameters, performance, Flops and FPS. To achieve the optimal balance among these points, this paper propose a lightweight full-convolutional Siamese tracker called LightFC. LightFC employs a novel efficient cross-correlation module (ECM) and a novel efficient rep-center head (ERH) to enhance the nonlinear expressiveness of the convolutional tracking pipeline. The ECM employs an attention-like module design, which conducts spatial and channel linear fusion of fused features and enhances the nonlinearly of the fused features. Additionally, it references successful factors of current lightweight trackers and introduces skip-connections and reuse of search area features. The ERH reparameterizes the feature dimensional stage in the standard center head and introduces channel attention to optimize the bottleneck of key feature flows. Comprehensive experiments show that LightFC achieves the optimal balance between performance, parameters, Flops and FPS. The precision score of LightFC outperforms MixFormerV2-S by 3.7 \% and 6.5 \% on LaSOT and TNL2K, respectively, while using 5x fewer parameters and 4.6x fewer Flops. Besides, LightFC runs 2x faster than MixFormerV2-S on CPUs. Our code and raw results can be found at https://github.com/LiYunfengLYF/LightFC
arxiv情報
著者 | Yunfeng Li,Bo Wang,Xueyi Wu,Zhuoyan Liu,Ye Li |
発行日 | 2023-10-17 11:51:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google