要約
単一オブジェクト トラッカーは高度なパフォーマンスを実現していますが、その大規模なモデルは、限られたリソースのプラットフォームでのアプリケーションの妨げとなります。
さらに、既存の軽量トラッカーは、パラメーター、パフォーマンス、フロップ数、FPS の点で 2 ~ 3 ポイントのバランスしか達成できません。
これらの点の間で最適なバランスを達成するために、この論文では LightFC と呼ばれる軽量の全畳み込みシャム トラッカーを提案します。
LightFC は、新しい効率的な相互相関モジュール (ECM) と新しい効率的な担当センター ヘッド (ERH) を採用して、畳み込み追跡パイプラインの特徴表現を改善します。
ECM は、融合された特徴の空間的およびチャネル線形融合を実行し、融合された特徴の非線形性を強化するアテンションのようなモジュール設計を使用します。
さらに、現在の軽量トラッカーの成功要因について言及し、スキップ接続と検索エリア機能の再利用を紹介します。
ERH は、標準のセンターヘッドのフィーチャ次元ステージを再パラメータ化し、チャネル アテンションを導入して、主要なフィーチャ フローのボトルネックを最適化します。
包括的な実験により、LightFC がパフォーマンス、パラメーター、フロップ、FPS の間で最適なバランスを達成していることが示されています。
LightFC の精度スコアは、LaSOT および TNL2K で MixFormerV2-S をそれぞれ 3.7 % および 6.5 % 上回っていますが、使用するパラメータは 5 分の 1、フロップ数は 4.6 分の 1 です。
さらに、LightFC は CPU 上で MixFormerV2-S よりも 2 倍高速に実行されます。
さらに、より強力なバックボーン ネットワークを置き換えることにより、LightFC-vit と呼ばれる高性能バージョンが提案されています。
コードと生の結果は https://github.com/LiYunfengLYF/LightFC にあります。
要約(オリジナル)
Although single object trackers have achieved advanced performance, their large-scale models hinder their application on limited resources platforms. Moreover, existing lightweight trackers only achieve a balance between 2-3 points in terms of parameters, performance, Flops and FPS. To achieve the optimal balance among these points, this paper proposes a lightweight full-convolutional Siamese tracker called LightFC. LightFC employs a novel efficient cross-correlation module (ECM) and a novel efficient rep-center head (ERH) to improve the feature representation of the convolutional tracking pipeline. The ECM uses an attention-like module design, which conducts spatial and channel linear fusion of fused features and enhances the nonlinearity of the fused features. Additionally, it refers to successful factors of current lightweight trackers and introduces skip-connections and reuse of search area features. The ERH reparameterizes the feature dimensional stage in the standard center-head and introduces channel attention to optimize the bottleneck of key feature flows. Comprehensive experiments show that LightFC achieves the optimal balance between performance, parameters, Flops and FPS. The precision score of LightFC outperforms MixFormerV2-S on LaSOT and TNL2K by 3.7 % and 6.5 %, respectively, while using 5x fewer parameters and 4.6x fewer Flops. Besides, LightFC runs 2x faster than MixFormerV2-S on CPUs. In addition, a higher-performance version named LightFC-vit is proposed by replacing a more powerful backbone network. The code and raw results can be found at https://github.com/LiYunfengLYF/LightFC.
arxiv情報
著者 | Yunfeng Li,Bo Wang,Xueyi Wu,Zhuoyan Liu,Ye Li |
発行日 | 2024-01-12 12:34:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google