LightFC-X: Lightweight Convolutional Tracker for RGB-X Tracking

要約

マルチモーダルトラッキングの大きな進歩にもかかわらず、これらのトラッカーはリソースに制約のあるデバイスには重すぎて高価なままです。
この問題を軽減するために、軽量のマルチモーダル追跡のための統一された畳み込みアーキテクチャを探索する軽量畳み込みRGB-XトラッカーのファミリーであるLightFC-Xを提案します。
私たちの核となるアイデアは、軽量のクロスモーダルモデリングとマルチモーダル機能とターゲットの時空間的な外観の特徴の共同洗練を実現することです。
具体的には、新しい効率的なクロスアテナンスモジュール(ECAM)と、新しい時空テンプレート集約モジュール(STAM)を提案します。
ECAMは、わずか0.08mパラメーターを持つテンプレート検索領域統合機能の軽量のクロスモーダル相互作用を実現します。
STAMは、モジュールの微調整パラダイムを介して一時的な情報のモデルの利用を強化します。
包括的な実験は、LightFC-Xが最先端のパフォーマンスとパラメーター、パフォーマンス、速度の間の最適なバランスを達成することを示しています。
たとえば、LightFC-T-STは、SRおよびPRでCMDを4.3%および5.7%上回り、ラッシャーベンチマークでは、パラメーターの2.6倍の削減と2.7倍のスピードアップを達成します。
22 fpsの速度でCPUでリアルタイムで実行されます。
このコードは、https://github.com/liyunfenglyf/lightfc-xで入手できます。

要約(オリジナル)

Despite great progress in multimodal tracking, these trackers remain too heavy and expensive for resource-constrained devices. To alleviate this problem, we propose LightFC-X, a family of lightweight convolutional RGB-X trackers that explores a unified convolutional architecture for lightweight multimodal tracking. Our core idea is to achieve lightweight cross-modal modeling and joint refinement of the multimodal features and the spatiotemporal appearance features of the target. Specifically, we propose a novel efficient cross-attention module (ECAM) and a novel spatiotemporal template aggregation module (STAM). The ECAM achieves lightweight cross-modal interaction of template-search area integrated feature with only 0.08M parameters. The STAM enhances the model’s utilization of temporal information through module fine-tuning paradigm. Comprehensive experiments show that our LightFC-X achieves state-of-the-art performance and the optimal balance between parameters, performance, and speed. For example, LightFC-T-ST outperforms CMD by 4.3% and 5.7% in SR and PR on the LasHeR benchmark, which it achieves 2.6x reduction in parameters and 2.7x speedup. It runs in real-time on the CPU at a speed of 22 fps. The code is available at https://github.com/LiYunfengLYF/LightFC-X.

arxiv情報

著者 Yunfeng Li,Bo Wang,Ye Li
発行日 2025-02-25 12:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク